Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный университет радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

КТ2.docx

Скачиваний:

Добавлен:

01.03.2025

Размер:

135.9 Кб

Скачать

☆

1 / 51 2 3 4 5 > Следующая >>>

КТ2

12 Лекция Задача кластеризации в Data Mining

В общем случаи задача кластеризации рассматривается как задача отнесение отдельных объектов обучающей выборке к несколько заранее неопределенных классов. Такое отнесение будет объективное в том случаи когда объедение объектов классы будет проводиться по признаку похожести отдельных характеристик этих объектов.

Такие группы подобных объектов обучающей выборки называют кластерами.

Результатами решение задач кластеризации:

- мера сходства. Как величина которая позволяет сравнивать объекты между собой.

- способ кластеризации с определениями выделенных кластеров;

- модель отражающая разбиение объектов по выделенных кластерами;

Формальная постановка задачи.

Допустим у нас есть множество объектов I={i₁,i₂,…i_n} и множество атрибутов i_j={x_j₁,x_j₂,…x_jn,…x_jm} каждый атрибут имеет множество значений x_jh={v_jh₁,…} требуется множество кластеров С={c₁,c_2,…,c_k,..c_y}. Степень подобности определяется с_k={i_j,i_p|i_jєI,i_pєI, d(i_j,i_p) < δ}.

Здесь d(i_j,i_p) это мера близости называемой расстоянием δ- величина определяемая меру близости для включения объекта в один кластер.

Использования расстояния, как неотрицательного значения величины d(i_j,i_p) возможно только при выполнения следующих условий:

d(i_j,i_p)>0 \-/ i_j,i_p, j !=p
d(i_j,i_p)=0 , j=p
d(i_j,i_p)= d(i_p,i_j)
d(i_j,i_p)<d(i_j,i_r)+d(i_r,i_p)

Большинство алгоритмов решения задач кластеризации используют в качестве формата входных данных, матрицу отличия

	0	…	d(i_i,i_n)
D=		0
	d(i_n,i_i)	…	0

Если матрица не семиструнная то ее приводят к семеричному ввиду (D+D^T)/2.

Меры близости:

Евклидовое пространство. Суть пространства d(x_i,x_j) =√(∑ⁿ_k₌₁(x_ik-x_jk)²).
Расстояние по Хеммингу d(x_i,x_j)=∑ⁿ_k₌₁|x_ik-x_jk|
Расстояние Чебышева

Модель, отражающая набор кластеров должна описывать как сами кластеры, так и пренадлежность каждого объекта к одному или нескольким из них.

Если количество наблюдаемых объектов в невелико и она характеризуются 2 переменными то модель может быть представлена в виде графической диаграммы. Если на диаграмме кластеры нельзя разделить принято для построении модели ищутся наиболее простые нелинейный функции. В случаи если отдельные элементы принадлежат двум или более кластерам одновременно рекомендуются использовать Венгерские диаграммы. Если в модели необходимо дополнительно указать вероятность принадлежность объекта к кластеру, то модель представляются в виде таблицы (строки элементы, столбцы кластеры, ячейки вероятность принадлежность элемента к кластеру). Если в модели необходимо показать иерархию найденных кластеров , то используются Дендрограммы граммы.

Решения задач кластеризации и иерархические алгоритмы

Основной проблемой решения задач кластеризации является проблема выделения итогового количества кластеров. Данная задача основана на предположениях, что кластеризации должна выделять естественные сгущения объектов локального или глобального характера, поэтому априорные предположения о возможном количестве кластеров могут значительно повлиять на решения задачи. Чаше всего проблема выбора числа кластеров не тривиальная и не имеет аналитических рекомендаций по своему решению. Поэтому подавляемое количестве кластеризации, строиться как алгоритмы переборов числа кластеров с целью определения оптимального количества этих кластеров. Все алгоритмы решения задач кластеризации можно разделить на иерархические и неархаические.

Иерархические строят полное дерево вложенных кластеров, при этом итоговое число кластеров определяется из предположения в принципе не относящих к самому алгоритму. Однако такой подход порождает следующие проблемы:

- проблема выбора мер близости самых кластеров;

- проблема индексации индексов в Дендрограмме;

- малая гибкость иерархических классификаций.

Достоинство иерархических алгоритмов:

- простота реализации;

- наиболее полное представления о структуре кластеров;

Недостаток иерархических алгоритмов:

- достаточно частая необходимость регламентировать условия работы алгоритма правила останова большим числом параметром. Такая регламентация особенно затруднительная на начальном этапе изучения предметной области. В тоже время большое количество параметров описывающие объекта предметной области порождают дополнительную задачу группировки признаков, для решения этой дополнительной задачи следует выделить неформальную гипотезу о небольшие числе скрытых факторов определяющие группы связи между признаками. Иерархические алгоритмы делятся на 2 основных вида:

1) на агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров (построение кластеров снизу вверх);

2) на дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп (построение кластеров сверху вниз).

Общий вид алгомеративного алгоритма.

Шаг 1.

Все множество обучаемой выборки, представляется как множество отдельных кластеров I={i₁,..i_n} C={c₁={i₁},c₂={i₂}… C_n}

Шаг 2

Выбираются два наиболее близких друг к другу (растояние между которыми минимальное) и объединяются в один кластер. Новое множество, состоящее уже из m - 1 кластеров, будет: С^’={C₁={i₁},C₂={i₂},… C_p={i_p,i}}

Шаг 3

Повторять шаг 2 до тех пор пока не будет сформирован один кластер который не будет включавший всю обучающую выборку.

1 / 51 2 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
19.08.2019974.34 Кб6кр1_шпора.doc
#
13.04.201598.82 Кб12КРЗ_Психология.doc
#
24.09.201986.9 Кб1Кримінально-виконавчий кодекс України Стаття 86...docx
#
14.04.201510.64 Mб31КС_ЛК.djvu
#
01.05.2025845.81 Кб1кт1.docx
#
01.03.2025135.9 Кб0КТ2.docx
#
12.09.2019196.61 Кб3культура киевкой руси.doc
#
12.09.2019230.91 Кб3Культура незалежної України.doc
#
01.05.2025573.44 Кб0Курс лекций Экономика отрасли.doc
#
23.11.20191.93 Mб1курс_БСД.doc
#
18.08.20192.96 Mб10курсавой.doc 11.doc