- •Многомерная модель данных.
- •Концептуальное многомерное представление
- •3. Тест fasmi
- •4. Архитектура olap-систем
- •Интеллектуальный анализ данных
- •Интеллектуальный анализ данных
- •1. Добыча данных — Data Mining
- •2 Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2..3. Задача поиска ассоциативных правил.
- •2.4. Задача кластеризации
- •Классификация и регрессия
- •1. Постановка задачи
- •Представление результатов
- •1. Правила классификации
- •2. Деревья решений
- •3. Математические функции
- •3. Методы построения правил классификации
- •3.1. Алгоритм построения 1Rправил
- •5.3.2. Метод Naive Bayes
- •4. Методы построения деревьев решений
- •4.1. Методика "разделяй и властвуй"
- •4.2. Алгоритм покрытия
- •5. Методы построения математических функций
- •5.1. Общий вид
- •5.2. Линейные методы. Метод наименьших квадратов
- •Карта Кохонена
- •Поиск ассоциативных правил.
- •1. Постановка задачи 6.1.1. Формальная постановка задачи
- •6.2. Сиквенциальный анализ
- •3.1. Алгоритм Apriori
- •6.3.2. Разновидности алгоритма Apriori
- •Глава 7. Кластеризация.
- •7.1. Постановка задачи кластеризации
- •7.1.1. Формальная постановка задачи
- •7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации
- •7.2. Представление результатов
- •7.3. Базовые алгоритмы кластеризации
- •7.3.1. Классификация алгоритмов
- •7.3.2. Иерархические алгоритмы гломеративные алгоритмы
- •Дивизимные алгоритмы
- •7.3.3. Неиерархические алгоритмы
- •Алгоритм k-means (Hard-c-means)
- •Алгоритм Fuzzy c-Means
- •Кластеризация по Гюстафсону-Кесселю
- •7.4. Кластеризация данных при помощи нечетких отношений
- •7.4.1. Анализ свойств нечетких бинарных отношений применительно к анализу данных
- •Сравнение данных
- •Отношение альфа-толерантности
- •7.4.2. Отношение альфа-квазиэквивалентности
- •Построение шкалы отношения а-квазиэквивалентности как алгоритм анализа данных
- •Об использовании шкалы а-квазиэквивалентности для анализа данных
- •Примеры анализа данных при помощи шкалы а-квазиэквивалентности
Сравнение данных
Определение 16— образец данных, n-атрибутным образцом данных называется вектор, состоящий из п элементов, называемых также атрибутами, представленных вещественными значениями. Другое название для образца
данных — точка данных, или вектор данных.
Будем оценивать степень подобия образцов данных понятием расстояния между ними d.
Пусть дано Q образцов данных (множество Хр), имеющих по К атрибутов. Построим, используя расстояние d, семейство нечетких множеств, которые можно назвать "точки, схожие с точкой q". Степень принадлежности элементов данных множеств будет показывать, насколько образец данных "схож" предъявляемым образцом данных.
Определение 17 —
мера сходства
по расстоянию. Мерой
сходства по расстоянию с образцом данных
х0
назовем
функцию
,
которая
определяется по формуле:

где К— постоянный коэффициент, выбираемый в соответствии с ограничениями на область значений функции f (х).
Определение 18— нормальной мерой сходства по расстоянию с образцом нных х0 назовем такую меру, которая достигает своих граничных значений множестве X.
С учетом определений 17 и 18 функции принадлежности вводимых в рассмотрение нечетких множеств можно называть мерами сходства соответствующих точек данных.
Очень важное значение при определении данных нечетких множеств имеет конструктивная процедура определения меры сходства. Даже при помощи одного понятия расстояния между образцами данных можно по-разному определить указанную меру сходства, по-разному выбирая коэффициент К из определения 17. Учитывая это, определения 16 и 17 и замечание 8 можно представить по крайней мере два способа конструктивного определения значений функции принадлежности:

Обе формулы удовлетворяют определению меры сходства, причем первая из них в соответствии с определением 18 является нормальной мерой сходства. Для дальнейшего анализа потребуется именно нормальная мера сходства. Ее достоинства заключаются в гарантии, что для каждого образца данных,- существует по крайней мере один образец данных, который абсолютно схож с Xi (мера сходства при этом достигает значения 1). Таким образцом является сам образец данных, одновременно с этим для каждого образца данных х, существует по крайней мере один образец данных, максимально отличающийся от х, (мера сходства при этом достигает значения 0). С другой стороны, данная мера сходства не учитывает расстояния между остальными точками (расстояния, отличные от расстояний d(x , xk), q— заданная точка,

Рис. 7.10. Выбор нормирующего коэффициента для определения меры сходства по расстоянию
Вторая мера сходства сравнивает образцы данных относительно двух взаимно удаленных точек, что усложняет интерпретацию значений данной меры сходства, когда необходимо узнать, какая точка является наиболее близкой к данной, а какая наиболее удаленной.
Подведем итоги:
определен способ построения Q нечетких множеств, имеющих название "множество точек, близких к точке q";
в каждом множестве есть по крайней мере один элемент, обладающий нулевой степенью принадлежности данному множеству, и по крайней мере один элемент, обладающий единичной степенью принадлежности данному множеству (соответствующая точка q);
функции принадлежности построенных нечетких множеств являются нормальными мерами сходства относительно соответствующих образцов данных.
