Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций за 3й семестр.doc
Скачиваний:
66
Добавлен:
20.09.2019
Размер:
1.71 Mб
Скачать

1.Кластерный анализ

Метод кластерного анализа позволяет строить классификацию n объектов посредством объединения их в группы, или кластеры, на основе критерия минимума расстояния между ними в пространстве m показателей, описывающих эти объекты. Вероятностное обоснование результатов кластеризации можно получить методом дискриминантного анализа.

Исходные данные для кластерного анализа представляются в виде матрицы размером , содержащей информацию трех типов, на практике чаще всего используется один тип – измерения значений t показателей для n объектов.

Стратегии кластеризации. Если исходные данные представляют собой значение показателей и переменных для некоего объекта, то необходимо выбрать стратегию объединения и метод вычисления расстояния между объектами в многомерном пространстве показателей – метрику.

Дивизионная стратегия динамических сгущений, возможности применения которой иллюстрирует приведенный ниже пример, - позволяет сгруппировать объекты в заданное число кластеров. В случае дивизионной стратегии кластеризации необходимо задать число кластеров, однако окончательное число кластеров может оказаться меньше.

Промежуточным результатом анализа является среднее внутрикластерное расстояние, по которому можно сравнивать различные варианты кластеризации, и кластеры с указанием включенных в них объектов. При этом можно получить проекции на плоскость каждой пары показателей центров кластеров и объектов каждого кластера, соединенных линиями с центрами.

Агломеративные стратегии позволяют строить дендрограмму классификации в ходе построения иерархии объединения кластеров. Часто используют следующие варианты этой стратегии.

  1. стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и позволяет получить минимальное дерево групповой классификации;

  2. стратегия дальнего соседа сильно растягивает пространство;

  3. стратегия группового соседа сохраняет метрику пространства;

  4. гибкая стратегия – универсальна и зависит от значения бета-параметра, который должен быть меньше 1,0; при бета < 0 – растягивается;

  5. метод Уорда минимизирует внутрикластерный разброс объектов.

В результате получают матрицы расстояния между объектами, последовательности кластеров возрастающей общности с указаниями входящий в кластеры объектов и расстояния между ними, на уровне которых произошло объединение кластеров, и дендрограмму – дерево объединения кластеров.

Метрики. При выполнении анализ расстояние меду объектами оценивают с помощью следующих различных метрик:

  1. евклидовой метрики; данная метрика применяется для переменных, измеренных в одних единицах;

  2. нормализованной евклидовой метрики; эта метрика подходит для переменных, измеренных в различных единицах;

  3. метрики суммы квадратов; может использоваться в случае, когда расстояние меду кластерами равно сумме расстояний между их компонентами.;

  4. взвешенных суммированных квадратов; этот вид метрики применяют, когда переменные имеют различную значимость, при этом матрица должна содержать веса показателей;

  5. манхеттеновской метрики; применяется для ранговых переменных;

  6. метрики Брея-Картиса; применяются для ранговых данных, имеющих значение от 1 до 0.