- •Многомерная модель данных.
- •Концептуальное многомерное представление
- •3. Тест fasmi
- •4. Архитектура olap-систем
- •Интеллектуальный анализ данных
- •Интеллектуальный анализ данных
- •1. Добыча данных — Data Mining
- •2 Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2..3. Задача поиска ассоциативных правил.
- •2.4. Задача кластеризации
- •Классификация и регрессия
- •1. Постановка задачи
- •Представление результатов
- •1. Правила классификации
- •2. Деревья решений
- •3. Математические функции
- •3. Методы построения правил классификации
- •3.1. Алгоритм построения 1Rправил
- •5.3.2. Метод Naive Bayes
- •4. Методы построения деревьев решений
- •4.1. Методика "разделяй и властвуй"
- •4.2. Алгоритм покрытия
- •5. Методы построения математических функций
- •5.1. Общий вид
- •5.2. Линейные методы. Метод наименьших квадратов
- •Карта Кохонена
- •Поиск ассоциативных правил.
- •1. Постановка задачи 6.1.1. Формальная постановка задачи
- •6.2. Сиквенциальный анализ
- •3.1. Алгоритм Apriori
- •6.3.2. Разновидности алгоритма Apriori
- •Глава 7. Кластеризация.
- •7.1. Постановка задачи кластеризации
- •7.1.1. Формальная постановка задачи
- •7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации
- •7.2. Представление результатов
- •7.3. Базовые алгоритмы кластеризации
- •7.3.1. Классификация алгоритмов
- •7.3.2. Иерархические алгоритмы гломеративные алгоритмы
- •Дивизимные алгоритмы
- •7.3.3. Неиерархические алгоритмы
- •Алгоритм k-means (Hard-c-means)
- •Алгоритм Fuzzy c-Means
- •Кластеризация по Гюстафсону-Кесселю
- •7.4. Кластеризация данных при помощи нечетких отношений
- •7.4.1. Анализ свойств нечетких бинарных отношений применительно к анализу данных
- •Сравнение данных
- •Отношение альфа-толерантности
- •7.4.2. Отношение альфа-квазиэквивалентности
- •Построение шкалы отношения а-квазиэквивалентности как алгоритм анализа данных
- •Об использовании шкалы а-квазиэквивалентности для анализа данных
- •Примеры анализа данных при помощи шкалы а-квазиэквивалентности
7.1.1. Формальная постановка задачи
Дано — набор данных со следующими свойствами:
каждый экземпляр данных выражается четким числовым значением;
класс для каждого конкретного экземпляра данных неизвестен.
Найти:
способ сравнения данных между собой (меру сходства);
способ кластеризации;
разбиение данных по кластерам.
Формально задача кластеризации описывается следующим образом.
Дано множество объектов данных I, каждый из которых представлен набором атрибутов. Требуется построить множество кластеров С и отображение F множества I на множество С, т. е. F:I-> С. Отображение F задает модель данных, являющуюся решением задачи. Качество решения задачи определяется количеством верно классифицированных объектов данных.
Множество I определим следующим образом:
I = { i1…ij… in},
где ij — исследуемый объект.
Примером такого множества может быть набор данных о ирисах, с которыми в середине 30-х годов прошлого столетия работал известный статист Р. А. Фишер (эти данные часто называют ирисы Фишера). Он рассмотрел три класса ирисов Iris setosa, Iris versicolor и Iris virginica. Для каждого из них было представлено по 50 экземпляров с разными значениями четырех параметров: длина и ширина чашелистника, длина и ширина лепестка. В табл. 7.1 представлены данные по пяти экземплярам для каждого класса.
Каждый из объектов характеризуется набором параметров:
![]()
В примере с ирисами, как уже отмечалось, такими параметрами являются длина И ширина чашелистника, длина И ширина лепестка.
Каждая переменная Xh, может принимать значения из некоторого множества:
![]()
В данном примере значениями являются действительные числа. Задача кластеризации состоит в построении множества:
С= {CUC2, :;Ck, ...,Cg}.
Здесь ck— кластер, содержащий похожие друг на друга объекты из множества I:
![]()
где о— величина, определяющая меру близости для включения объектов в один кластер; d(ip ip) — мера близости между объектами, называемая расстоянием.
Таблица 7.1
|
№ |
Длина чашелистника |
Ширина чашелистника |
Длина лепестка |
Ширина лепестка |
Класс |
|
1 |
5,1 |
3,5 |
1,4 |
0,2 |
Iris setosa |
|
2 |
4,9 |
3,0 |
1,4 |
0,2 |
Iris setosa |
|
3 |
4,7 |
3,2 |
1,3 |
0,2 |
Iris setosa |
|
4 |
4,6 |
3,1 |
1,5 |
0,2 |
Iris setosa |
|
5 |
5,0 |
3,6 |
1,4 |
0,2 |
Iris setosa |
|
51 |
7,0 |
3,2 |
4,7 |
1,4 |
Iris versicolor |
|
52 |
6,4 |
3,2 |
4,5 |
1,5 |
Iris versicolor |
|
53 |
6,9 |
3,1 |
4,9 |
1,5 |
Iris versicolor |
|
54 |
5,5 |
2,3 |
4,0 |
1,3 |
Iris versicolor |
|
55 |
6,5 |
2,8 |
4,6 |
1,5 |
Iris versicolor |
|
101 |
6,3 |
3,3 |
6,0 |
2,5 |
Iris virginica |
|
102 |
5,8 |
2,7 |
5,1 |
1,9 |
Iris virginica |
|
103 |
7,1 |
3,0 |
5,9 |
2,1 |
Iris virginica |
|
104 |
6,3 |
2,9 |
5,6 |
1,8 |
Iris virginica |
|
105 |
6,5 |
3,0 |
5,8 |
2,2 |
Iris virginica |
Неотрицательное значение d(ij, ip) называется расстоянием между элементами ij и ip, если выполняются следующие условия:

Если расстояние d(ij, ir) меньше некоторого значения о, то говорят, что элементы близки и помещаются в один кластер. В противном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры.
Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества I. Элементами матрицы являются значения d(ij, ir) в строке и столбце. Очевидно, что на главной диагонали значения будут равны нулю:

