
- •12 Лекция Задача кластеризации в Data Mining
- •Формальная постановка задачи.
- •Решения задач кластеризации и иерархические алгоритмы
- •13 Лекция
- •Неархаические алгоритмы
- •Рассмотрим пример неархаического алгоритма на основе k-means. Общее представления алгоритма k-means
- •14 Лекция
- •Визуальный анализ данных
- •15 Лекция Основные задачи Text Mining
- •Задача классификации текстовых документов
КТ2
12 Лекция Задача кластеризации в Data Mining
В общем случаи задача кластеризации рассматривается как задача отнесение отдельных объектов обучающей выборке к несколько заранее неопределенных классов. Такое отнесение будет объективное в том случаи когда объедение объектов классы будет проводиться по признаку похожести отдельных характеристик этих объектов.
Такие группы подобных объектов обучающей выборки называют кластерами.
Результатами решение задач кластеризации:
- мера сходства. Как величина которая позволяет сравнивать объекты между собой.
- способ кластеризации с определениями выделенных кластеров;
- модель отражающая разбиение объектов по выделенных кластерами;
Формальная постановка задачи.
Допустим у нас есть множество объектов I={i1,i2,…in} и множество атрибутов ij={xj1,xj2,…xjn,…xjm} каждый атрибут имеет множество значений xjh={vjh1,…} требуется множество кластеров С={c1,c2,…,ck,..cy}. Степень подобности определяется сk={ij,ip|ijєI,ipєI, d(ij,ip) < δ}.
Здесь d(ij,ip) это мера близости называемой расстоянием δ- величина определяемая меру близости для включения объекта в один кластер.
Использования расстояния, как неотрицательного значения величины d(ij,ip) возможно только при выполнения следующих условий:
d(ij,ip)>0 \-/ ij,ip, j !=p
d(ij,ip)=0 , j=p
d(ij,ip)= d(ip,ij)
d(ij,ip)<d(ij,ir)+d(ir,ip)
Большинство алгоритмов решения задач кластеризации используют в качестве формата входных данных, матрицу отличия
|
0 |
… |
d(ii,in) |
D= |
|
0 |
|
|
d(in,ii) |
… |
0 |
Если матрица не семиструнная то ее приводят к семеричному ввиду (D+DT)/2.
Меры близости:
Евклидовое пространство. Суть пространства d(xi,xj) =√(∑nk=1(xik-xjk)2).
Расстояние по Хеммингу d(xi,xj)=∑nk=1|xik-xjk|
Расстояние Чебышева
Модель, отражающая набор кластеров должна описывать как сами кластеры, так и пренадлежность каждого объекта к одному или нескольким из них.
Если количество наблюдаемых объектов в невелико и она характеризуются 2 переменными то модель может быть представлена в виде графической диаграммы. Если на диаграмме кластеры нельзя разделить принято для построении модели ищутся наиболее простые нелинейный функции. В случаи если отдельные элементы принадлежат двум или более кластерам одновременно рекомендуются использовать Венгерские диаграммы. Если в модели необходимо дополнительно указать вероятность принадлежность объекта к кластеру, то модель представляются в виде таблицы (строки элементы, столбцы кластеры, ячейки вероятность принадлежность элемента к кластеру). Если в модели необходимо показать иерархию найденных кластеров , то используются Дендрограммы граммы.
Решения задач кластеризации и иерархические алгоритмы
Основной проблемой решения задач кластеризации является проблема выделения итогового количества кластеров. Данная задача основана на предположениях, что кластеризации должна выделять естественные сгущения объектов локального или глобального характера, поэтому априорные предположения о возможном количестве кластеров могут значительно повлиять на решения задачи. Чаше всего проблема выбора числа кластеров не тривиальная и не имеет аналитических рекомендаций по своему решению. Поэтому подавляемое количестве кластеризации, строиться как алгоритмы переборов числа кластеров с целью определения оптимального количества этих кластеров. Все алгоритмы решения задач кластеризации можно разделить на иерархические и неархаические.
Иерархические строят полное дерево вложенных кластеров, при этом итоговое число кластеров определяется из предположения в принципе не относящих к самому алгоритму. Однако такой подход порождает следующие проблемы:
- проблема выбора мер близости самых кластеров;
- проблема индексации индексов в Дендрограмме;
- малая гибкость иерархических классификаций.
Достоинство иерархических алгоритмов:
- простота реализации;
- наиболее полное представления о структуре кластеров;
Недостаток иерархических алгоритмов:
- достаточно частая необходимость регламентировать условия работы алгоритма правила останова большим числом параметром. Такая регламентация особенно затруднительная на начальном этапе изучения предметной области. В тоже время большое количество параметров описывающие объекта предметной области порождают дополнительную задачу группировки признаков, для решения этой дополнительной задачи следует выделить неформальную гипотезу о небольшие числе скрытых факторов определяющие группы связи между признаками. Иерархические алгоритмы делятся на 2 основных вида:
1) на агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров (построение кластеров снизу вверх);
2) на дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп (построение кластеров сверху вниз).
Общий вид алгомеративного алгоритма.
Шаг 1.
Все множество обучаемой выборки, представляется как множество отдельных кластеров I={i1,..in} C={c1={i1},c2={i2}… Cn}
Шаг 2
Выбираются два наиболее близких друг к другу (растояние между которыми минимальное) и объединяются в один кластер. Новое множество, состоящее уже из m - 1 кластеров, будет: С’={C1={i1},C2={i2},… Cp={ip,i}}
Шаг 3
Повторять шаг 2 до тех пор пока не будет сформирован один кластер который не будет включавший всю обучающую выборку.