- •Многомерная модель данных.
- •Концептуальное многомерное представление
- •3. Тест fasmi
- •4. Архитектура olap-систем
- •Интеллектуальный анализ данных
- •Интеллектуальный анализ данных
- •1. Добыча данных — Data Mining
- •2 Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2..3. Задача поиска ассоциативных правил.
- •2.4. Задача кластеризации
- •Классификация и регрессия
- •1. Постановка задачи
- •Представление результатов
- •1. Правила классификации
- •2. Деревья решений
- •3. Математические функции
- •3. Методы построения правил классификации
- •3.1. Алгоритм построения 1Rправил
- •5.3.2. Метод Naive Bayes
- •4. Методы построения деревьев решений
- •4.1. Методика "разделяй и властвуй"
- •4.2. Алгоритм покрытия
- •5. Методы построения математических функций
- •5.1. Общий вид
- •5.2. Линейные методы. Метод наименьших квадратов
- •Карта Кохонена
- •Поиск ассоциативных правил.
- •1. Постановка задачи 6.1.1. Формальная постановка задачи
- •6.2. Сиквенциальный анализ
- •3.1. Алгоритм Apriori
- •6.3.2. Разновидности алгоритма Apriori
- •Глава 7. Кластеризация.
- •7.1. Постановка задачи кластеризации
- •7.1.1. Формальная постановка задачи
- •7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации
- •7.2. Представление результатов
- •7.3. Базовые алгоритмы кластеризации
- •7.3.1. Классификация алгоритмов
- •7.3.2. Иерархические алгоритмы гломеративные алгоритмы
- •Дивизимные алгоритмы
- •7.3.3. Неиерархические алгоритмы
- •Алгоритм k-means (Hard-c-means)
- •Алгоритм Fuzzy c-Means
- •Кластеризация по Гюстафсону-Кесселю
- •7.4. Кластеризация данных при помощи нечетких отношений
- •7.4.1. Анализ свойств нечетких бинарных отношений применительно к анализу данных
- •Сравнение данных
- •Отношение альфа-толерантности
- •7.4.2. Отношение альфа-квазиэквивалентности
- •Построение шкалы отношения а-квазиэквивалентности как алгоритм анализа данных
- •Об использовании шкалы а-квазиэквивалентности для анализа данных
- •Примеры анализа данных при помощи шкалы а-квазиэквивалентности
4.2. Алгоритм покрытия
Рассмотренные ранее методы построения деревьев работают сверху вниз, разбивая на каждом шаге всю обучающую выборку на подмножества. Целью такого разбиения является получение подмножеств, соответствующих всем классам.
Альтернативой подходу "разделяй и властвуй" является подход, который заключается в построении деревьев решений для каждого класса по отдельности. Он называется алгоритмом покрытия, т. к. на каждом этапе генерируется проверка узла дерева, который покрывает несколько объектов обучающей выборки.
Рис.
5.4.
Геометрическая интерпретация идеи
алгоритма покрытия

Для построения правил с помощью данного алгоритма в обучающей выборке должны присутствовать всевозможные комбинации значений независимых переменных. Например, данные, позволяющие рекомендовать тип контактных линз, представлены в табл. 5.3.
Таблица 5.3
|
Возраст |
Предписание |
Астигматизм |
Степень износа |
Рекомендации |
|
Юный |
Близорукость |
Нет |
Пониженный |
Нет |
|
Юный |
Близорукость |
Нет |
Нормальный |
Мягкие |
|
Юный |
Близорукость |
Да |
Пониженный |
Нет |
|
Юный |
Близорукость |
Да |
Нормальный |
Жесткие |
|
Юный |
Дальнозоркость |
Нет |
Пониженный |
Нет |
|
Юный |
Дальнозоркость |
Нет |
Нормальный |
Мягкие |
|
Юный |
Дальнозоркость |
Да |
Пониженный |
Нет |
|
Юный |
Дальнозоркость |
Да |
Нормальный |
Жесткие |
|
Пожилой |
Близорукость |
Нет |
Пониженный |
Нет |
|
Пожилой |
Близорукость |
Нет |
Нормальный |
Мягкие |
|
Пожилой |
Близорукость |
Да |
Пониженный |
Нет |
|
Пожилой |
Близорукость |
Да |
Нормальный |
Жесткие |
|
Пожилой |
Дальнозоркость |
Нет |
Пониженный |
Н |
|
Пожилой |
Дальнозоркость |
Нет |
Нормальный Мягкий |
|
Пожилой |
Дальнозоркость |
Да |
Пониженный Нет |
|
Пожилой |
Дальнозоркость |
Да |
Нормальный Нет |
|
Старческий |
Близорукость |
Нет |
Пониженный Нет |
|
Старческий |
Близорукость |
Нет |
Нормальный Нет |
|
Старческий |
Близорукость |
Да |
Пониженный Жесткий |
|
Старческий |
Близорукость |
Да |
Нормальный Нет |
|
Старческий |
Дальнозоркость |
Нет |
Пониженный Мягкий |
|
Старческий |
Дальнозоркость |
Нет |
Нормальный Нет |
|
Старческий |
Дальнозоркость |
Да |
Пониженный Нет й |
|
Старческий |
Дальнозоркость |
Да |
Нормальный НЕт |
На каждом шаге алгоритма выбирается значение переменной, которое разделяет все множество на два подмножества. Разделение должно выполняться так, чтобы все объекты класса, для которого строится дерево принадлежали одному подмножеству. Такое разбиение производится до тех пор, пока не будет построено подмножество, содержащее только объекты одного класса.
Для выбора независимой переменной и ее значения, которое разделяет множество, выполняются следующие действия:
1. Из построенного на предыдущем этапе подмножества (для первого этапа это вся обучающая выборка), включающего объекты, относящиеся к выбранному классу для каждой независимой переменно , выбираются все значения, встречающиеся в этом подмножестве.
Для каждого значения каждой переменной подсчитывается количество объектов, удовлетворяющих этому условию и относящиеся к выбранному классу.
Выбираются условия, покрывающие наибольшее количество объектов выбранного класса.
4. Выбранное условие является условием разбиения подмножества на два новых.
После построения дерева для одного класса таким же об разом строятся деревья других классов.
Приведем пример для данных, представленных в табл. 5.3. Предположим, необходимо построить правило для определения условий, при которых необходимо рекомендовать жесткие линзы:
если (?) то рекомендация = жесткие
Выполним оценку каждой независимой переменной и всех их возможных значений:
возраст = юный — 2/8;
возраст = пожилой — 1/8;
возраст = старческий — 1/8;
предписание = близорукость — 3/12;
предписание = дальнозоркость — 1/12;
астигматизм = нет — 0/12;
астигматизм = да — 4/12;
степень износа = низкая — 0/12;
степень износа = нормальная — 4/12.
Выбираем переменную и значение с максимальной оценкой астигматизм = да. Таким образом, получаем уточненное правило следующего вида:
если (астигматизм = да и ?) то рекомендация = жесткие
Данное правило образует подмножество, в которое входят все объекты, относящиеся к классу жесткие. Кроме них в него входят и другие объекты, следовательно, правило должно уточняться (табл. 5.4).
Таблица 5.4
|
Возраст |
Предписание |
Астигматизм |
Степень износа |
Рекомендации |
|
Юный |
Близорукость |
Да |
Пониженный |
Нет |
|
Юный |
Близорукость |
Да |
Нормальный |
Жесткие |
|
Юный |
Дальнозоркость |
Да |
Пониженный |
Нет |
|
Юный |
Дальнозоркость |
Да |
Нормальный |
Жесткие |
|
Пожилой |
Близорукость |
Да |
Пониженный |
Нет |
|
Пожилой |
Близорукость |
Да |
Нормальный |
Жесткие |
|
Пожилой |
Дальнозоркость |
Да |
Пониженный |
Нет |
|
Пожилой |
Дальнозоркость |
Да |
Нормальный |
Нет |
|
Старческий |
Близорукость |
Да |
Пониженный |
Нет |
|
Старческий |
Близорукость |
Да |
Нормальный |
Жесткие |
|
Старческий |
Дальнозоркость |
Да |
Пониженный |
Нет
|
|
Старческий |
Дальнозоркость |
Да |
Нормальный |
Нет
|
Выполним повторную оценку для оставшихся независимых переменных и их значений, но уже на новом множестве:
возраст = юный — 2/4
возраст = пожилой — ¼
возраст = старческий — ¼
предписание = близорукость —3/6
предписание = дальнозоркость — 1/6
степень износа = низкая —0/6
степень износа = нормальная —4/6
После уточнения получим правило и множество, представленное в табл.5.5:
если (астигматизм = да и степень износа = нормальная)
то рекомендация = жесткие
|
Возраст |
Предписание |
Астигматизм |
Степень износа |
| Рекоменедации |
|
Юный |
Близорукость |
Да |
Нормальный |
Жесткие
|
|
Юный |
Дальнозоркость |
Да |
Нормальный |
Жесткие
|
|
Пожилой |
Близорукость |
Да |
Нормальный |
Жесткие
|
|
Пожилой |
Дальнозоркость |
Да |
Нормальный |
Нет |
|
Старческий |
Близорукость |
Да |
Нормальный |
Жесткие
|
|
Старческий |
Дальнозоркость |
Да |
Нормальный |
Нет |
Так как в полученном множестве все еще остаются объекты не относящиеся к классу жесткий, то необходимо выполнить уточнение:
возраст = юный - 2/2
возраст = пожилой -1/2
возраст = старческий -1/2
предписание = близорукость -3/3
предписание = дальнозоркость - 1/3
Очевидно, что уточненное правило будет иметь следующий вид:
если (астигматизм = да и степень износа = нормальная и предписание = близорукость) то рекомендация - жесткие
Однако в полученном подмножестве отсутствует один из объектов, относящихся к классу жесткие, поэтому необходимо решить, какое из последних двух правил более приемлемо для аналитика.

ет