7.1.1. Формальная постановка задачи

Дано — набор данных со следующими свойствами:

каждый экземпляр данных выражается четким числовым значением;
класс для каждого конкретного экземпляра данных неизвестен.

Найти:

способ сравнения данных между собой (меру сходства);
способ кластеризации;
разбиение данных по кластерам.

Формально задача кластеризации описывается следующим образом.

Дано множество объектов данных I, каждый из которых представлен набором атрибутов. Требуется построить множество кластеров С и отображение ¥ множества / на множество С, т.е. F: I → С. Отображение F задает модель данных, являющуюся решением задачи. Качество решения задачи определяется количеством верно классифицированных объектов данных.

Множество / определим следующим образом:

I = {i₁, i₂, …, i_j, …, i_n},

где i_j — исследуемый объект.

Примером такого множества может быть набор данных о ирисах, с которыми в середине 30-х гг. прошлого столетия работал известный статист Р. А. Фишер (эти данные часто называют ирисы Фишера). Он рассмотрел три класса ирисов Iris setosa, Iris versicolor и Iris virginica. Для каждого из них было представлено по 50 экземпляров с разными значениями четырех параметров: длина и ширина чашелистника, длина и ширина лепестка. В табл. 7.1 представлены данные по пяти экземплярам для каждого класса.

Таблица 7.1

№	Длина чашелистника	Ширина чашелистника	Длина лепестка	Ширина лепестка	Класс
1	5,1	3,5	1,4	0,2	Iris setosa
2	4,9	3,0	1,4	0,2	Iris setosa
3	4,7	3,2	1,3	0,2	Iris setosa
4	4,6	3,1	1,5	0,2	Iris setosa
5	5,0	3,6	1,4	0,2	Iris setosa
51	7,0	3,2	4,7	1,4	Iris versicolor
52	6,4	3,2	4,5	1,5	Iris versicolor
53	6,9	3,1	4,9	1,5	Iris versicolor
54	5,5	2,3	4,0	1,3	Iris versicolor
55	6,5	2,8	4,6	1,5	Iris versicolor
101	6,3	3,3	6,0	2,5	Iris virginica
102	5,8	2,7	5,1	1,9	Iris virginica
103	7,1	3,0	5,9	2,1	Iris virginica
104	6,3	2,9	5,6	1,8	Iris virginica
105	6,5	3,0	5,8	2,2	Iris virginica

Каждый из объектов характеризуется набором параметров:

i_j = {x₁,xi₂, …, x_j, …, x_n}

В примере с ирисами, как уже отмечалось, такими параметрами являются

длина И ширина чашелистника, длина И ширина лепестка.

Каждая переменная х/, может принимать значения из некоторого множества:

x_j= {v¹_h,v²_h,…}.

В данном примере значениями являются действительные числа.

Задача кластеризации состоит в построении множества:

С= {с₁,с₂, ... ,с_k, ... ,c_g).

Здесь с_к— кластер, содержащий похожие друг на друга объекты из множества:

C_k= {i_j, i_p | i_j Є I, i_p Є I и d(i_j, i_p) < δ

где δ — величина, определяющая меру близости для включения объектов в один кластер; d(i_j, i_p)— мера близости между объектами, называемая расстоянием.

Неотрицательное значение d(i_j, i_p) называется расстоянием между элементами i_jи i_p если выполняются следующие условия:

d(i_j, i_p) > 0, для всех /, И 1_р.
d(i_j, i_p) = 0, тогда и только тогда, когда /, = /_р.
d(i_j, i_p)) = d(i_p, i_i)
d(i_j, i_p) < d(i_j, i_r) + d(i_r, i_p)

Если расстояние d(i_j, i_p) меньше некоторого значения о, то говорят, что элементы близки и помещаются в один кластер. В противном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры.

Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества / Элементами матрицы являются значения d(i_j, i_p) в строке j и столбце p. Очевидно, что на главной диагонали значения будут равны нулю:

Большинство алгоритмов работают с симметричными матрицами. Если матрица несимметрична, то ее можно привести к симметричному виду путем следующего преобразования:

(D + D^m) / 2.

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019247.11 Кб33ДОКУМЕНТНІ РСУРСИ.консп.docx
#
10.09.2019650.75 Кб7Долішньої І.А..doc
#
12.02.201611.5 Mб85Дончак МЕТОДИЧКА ТЕКСТ. 1 doc.doc
#
31.08.201975.78 Кб1ДОПОВІДЬ 1 РОЗДІЛ.doc
#
31.08.2019333.31 Кб1ДОПОВІДЬ ЄДИНИЙ СОЦІАЛЬНИЙ ВНЕСОК.doc
#
25.11.2019910.34 Кб4Доповідь ІАД.doc
#
15.08.2019371.2 Кб1Доповідь Штучний інтелект.doc
#
09.07.2019135.68 Кб1допомоги на випдок безробіття.doc
#
07.09.20191.07 Mб34ДПА 2012.doc
#
12.02.201637.27 Кб67ДРУ (тести 2).docx
#
10.09.2019111.09 Кб2ДРУ РОЗРАХА РОЗДРУК!!!.docx