Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пчёлкина К.К._Анализ данных.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
177.9 Кб
Скачать
  1. Кластерный анализ

  1. Общая идея заключается в последовательном объединении группируемых объектов: сначала самых близких, затем - все более отдалённых друг от друга. Процедура классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп, объектов, кластеров (термин «кластер» переводится с английского, как «гроздь»; он обозначает группу объектов, обладающих общими свойствами). Результаты кластерного анализа удобно изображать в виде «дерева»- иерархической структуры (дендрограммы), содержащей n-уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В принципе, кластеров можно строить сколько угодно много. При этом кластерный анализ позволяет не только «разбивать» совокупности объектов на группы, но и измерять меру близости этих групп.

  2. Понятие расстояния

Каждая единица совокупности в кластерном анализе считается «точкой в признаковом пространстве». Значение каждого из признаков у данной единицы совокупности служит ее координатой в этом «пространстве» по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, «признаковое пространство» – это область варьирования всех признаков совокупности изучаемых явлений. Если мы уподобим это пространство нашему пространству, имеющему Евклидову метрику, то получим возможность измерять «расстояния» между точками признакового пространства. Эти расстояния называют «Евклидовыми». Их вычисляют по тем же правилам, как и в обычной Евклидовой геометрии. На плоскости (то есть в «двухмерном пространстве») расстояние между точками А и В равно, как показано на рисунке, корню квадратному из суммы квадратов разностей параметров рассматриваемых точек по осям координат – на основании знаменитой теоремы Пифагора.

  1. Кластер — объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами.

  2. Основные метрики, используемые при кластеризации.

Основные типы метрик при кластер-анализе

N

Наименование метрики

Тип признаков

Формула для оценки меры близости (метрики)

1

Эвклидово расстояние

Количественные

2

Мера сходства Хэмминга

Номинальные (качественные)

где число совпадающих признаков у образцов —  и

3

Мера сходства Роджерса–Танимото

Номинальные шкалы

где число совпадающих единичных признаков у образцов —  и ; , общее число единичных признаков у образцов —  и соответственно;

4

Манхэттенская метрика

Количественные

5

Расстояние Махалонобиса

Количественные

, где Wковариационная матрица выборки; —  ;

6

Расстояние Журавлева

Смешанные

, где

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле: расстояние(x,y) = (Количество xi yi)/ i