Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпоры по СТОЭИ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
222.72 Кб
Скачать

37. Метод «кластеризация»

Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные, вектора характеристик) на группы (кластеры) по принципу схожести. Отличие кластеризации от классификации в том, что классификация относит каждый объект к одной из заранее определенных групп, кластеризация же разбивает множество объектов на группы, которые определяются только ее результатом. Классификация, являясь наиболее простой задачей Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.

Само понятие "кластер" определено неоднозначно: в каждом исследовании свои "кластеры". Переводится понятие кластер (cluster) как "скопление", "гроздь". Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.

Характеристиками кластера можно назвать два признака: внутренняя однородность и внешняя изолированность.

Этапы кластеризации:

1. Выделение характеристик

На данном этапе происходит выбор свойств, характеризующих объекты: количественные характеристики (координаты, интервалы); качественные характеристики (цвет, статус, воинское звание).

2. Определение метрики

Метрика выбирается в зависимости от пространства, где расположены объекты; неявных характеристик кластеров.

3. Разбиение объектов на группы.

4. Представление результатов.

Методы кластерного анализа можно разделить на две группы:

· иерархические;

· неиерархические.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Иерархические методы кластеризации различаются правилами построения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объединении в группу (агломеративные методы) либо разделения на группы (дивизимные методы).

При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки. Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров.

К неиерархическим методам относится алгоритм k-Means, метод ближайшего соседа.

Кластерный анализ довольно широко применяется в маркетинговых исследованиях, также может быть удобен, например, для анализа клиентов компании.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]