- •1. Методы анализа структурированных данных с использованием
- •1.1. Анализ временных рядов
- •1.2. Граничные методы
- •Метод опорных векторов
- •1.3. Деревья решений
- •1.4. Иерархические методы кластерного анализа
- •1.5. Неиерархические методы кластерного анализа
- •Алгоритм k-средних
- •1.6. Методы рассуждений на основе аналогичных случаев
- •1.7. Линейная регрессия
- •1.9. Наивная байесовская классификация
- •1.10. Нейронные сети
- •1.11. Поиск ассоциативных правил
- •2. Алгоритмы нахождения деревьев решений
- •2.1. Описание дерева решений
- •Подход к построению дерева решений
- •2.2. Анализ возможностей и ограничений метода деревьев решений
- •Области эффективного применения метода деревьев решений
- •3. Алгоритмы нахождения ассоциативных правил
- •3.1. Понятие ассоциативного правила.
- •Список литературы
1.4. Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие [24].
1.5. Неиерархические методы кластерного анализа
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы [24], основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое «сгущение точек». Второй подход заключается в минимизации меры различия объектов.
Алгоритм k-средних
Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе [24]. В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.
Рис.1.2. Схема работы алгоритма k-средних.
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
Все методы неиерархического кластерного анализа не выдают на выходе никаких сведений, кроме, собственно кластеров. Следовательно, эти методы не удовлетворяют
выбранному критерию вида представляемой зависимости.
1.6. Методы рассуждений на основе аналогичных случаев
Следует сразу отметить, что метод «ближайшего соседа» относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами [19]. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.
При таком подходе используется термин «k-ближайший сосед». Термин означает, что выбирается k «верхних» (ближайших) соседей для их рассмотрения в качестве множества «ближайших соседей». Поскольку не всегда удобно хранить все данные, иногда хранится только множество «типичных» случаев. В таком случае используемый метод называют рассуждением по аналогии CBR (Case Based Reasoning), рассуждением на основе аналогичных случаев, рассуждением по прецедентам.
Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на каком основании строятся ответы. Следовательно, этот метод не удовлетворяет поставленному критерию вида представляемой зависимости.
