7.1.1. Формальная постановка задачи

Дано — набор данных со следующими свойствами:

каждый экземпляр данных выражается четким числовым значением;
класс для каждого конкретного экземпляра данных неизвестен.

Найти:

способ сравнения данных между собой (меру сходства);
способ кластеризации;
разбиение данных по кластерам.

Формально задача кластеризации описывается следующим образом.

Дано множество объектов данных I, каждый из которых представлен набором атрибутов. Требуется построить множество кластеров С и отображение F множества I на множество С, т. е. F:I-> С. Отображение F задает модель данных, являющуюся решением задачи. Качество решения задачи определяется количеством верно классифицированных объектов данных.

Множество I определим следующим образом:

I = { i₁…i_j… i_n},

где i_j — исследуемый объект.

Примером такого множества может быть набор данных о ирисах, с которыми в середине 30-х годов прошлого столетия работал известный статист Р. А. Фишер (эти данные часто называют ирисы Фишера). Он рассмотрел три класса ирисов Iris setosa, Iris versicolor и Iris virginica. Для каждого из них было представлено по 50 экземпляров с разными значениями четырех параметров: длина и ширина чашелистника, длина и ширина лепестка. В табл. 7.1 представлены данные по пяти экземплярам для каждого класса.

Каждый из объектов характеризуется набором параметров:

В примере с ирисами, как уже отмечалось, такими параметрами являются длина И ширина чашелистника, длина И ширина лепестка.

Каждая переменная X_h, может принимать значения из некоторого множества:

В данном примере значениями являются действительные числа. Задача кластеризации состоит в построении множества:

С= {C_UC₂, :;C_k, ...,Cg}.

Здесь c_k— кластер, содержащий похожие друг на друга объекты из множества I:

где о— величина, определяющая меру близости для включения объектов в один кластер; d(i_p i_p) — мера близости между объектами, называемая расстоянием.

Таблица 7.1

№	Длина чашелистника	Ширина чашелистника	Длина лепестка	Ширина лепестка	Класс
1	5,1	3,5	1,4	0,2	Iris setosa
2	4,9	3,0	1,4	0,2	Iris setosa
3	4,7	3,2	1,3	0,2	Iris setosa
4	4,6	3,1	1,5	0,2	Iris setosa
5	5,0	3,6	1,4	0,2	Iris setosa
51	7,0	3,2	4,7	1,4	Iris versicolor
52	6,4	3,2	4,5	1,5	Iris versicolor
53	6,9	3,1	4,9	1,5	Iris versicolor
54	5,5	2,3	4,0	1,3	Iris versicolor
55	6,5	2,8	4,6	1,5	Iris versicolor
101	6,3	3,3	6,0	2,5	Iris virginica
102	5,8	2,7	5,1	1,9	Iris virginica
103	7,1	3,0	5,9	2,1	Iris virginica
104	6,3	2,9	5,6	1,8	Iris virginica
105	6,5	3,0	5,8	2,2	Iris virginica

Неотрицательное значение d(ij, i_p) называется расстоянием между элементами ij и i_p, если выполняются следующие условия:

Если расстояние d(i_j, i_r) меньше некоторого значения о, то говорят, что элементы близки и помещаются в один кластер. В противном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры.

Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества I. Элементами матрицы являются значения d(i_j, i_r) в строке и столбце. Очевидно, что на главной диагонали значения будут равны нулю:

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 2920 21 22 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в папке Лекции по СППР

#
23.03.201689.6 Кб79Карта_Кохонена.doc
#
23.03.201610.75 Кб114Лекция 1.doc
#
23.03.201674.75 Кб91Лекция 2.doc
#
23.03.2016354.82 Кб109Лекция 3.doc
#
23.03.2016968.7 Кб148Лекция 5.doc
#
23.03.20162.2 Mб190Лекция 6-7.doc
#
23.03.20163.38 Mб90Приложение.doc
#
23.03.2016236.03 Кб72Рабочая программа СПР.doc
#
23.03.20161.39 Mб87рахманова а.и.pptx
#
23.03.201663.2 Кб71Системы_поддержки_принятия_решений.htm