- •Многомерная модель данных.
- •Концептуальное многомерное представление
- •3. Тест fasmi
- •4. Архитектура olap-систем
- •Интеллектуальный анализ данных
- •Интеллектуальный анализ данных
- •1. Добыча данных — Data Mining
- •2 Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2..3. Задача поиска ассоциативных правил.
- •2.4. Задача кластеризации
- •Классификация и регрессия
- •1. Постановка задачи
- •Представление результатов
- •1. Правила классификации
- •2. Деревья решений
- •3. Математические функции
- •3. Методы построения правил классификации
- •3.1. Алгоритм построения 1Rправил
- •5.3.2. Метод Naive Bayes
- •4. Методы построения деревьев решений
- •4.1. Методика "разделяй и властвуй"
- •4.2. Алгоритм покрытия
- •5. Методы построения математических функций
- •5.1. Общий вид
- •5.2. Линейные методы. Метод наименьших квадратов
- •Карта Кохонена
- •Поиск ассоциативных правил.
- •1. Постановка задачи 6.1.1. Формальная постановка задачи
- •6.2. Сиквенциальный анализ
- •3.1. Алгоритм Apriori
- •6.3.2. Разновидности алгоритма Apriori
- •Глава 7. Кластеризация.
- •7.1. Постановка задачи кластеризации
- •7.1.1. Формальная постановка задачи
- •7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации
- •7.2. Представление результатов
- •7.3. Базовые алгоритмы кластеризации
- •7.3.1. Классификация алгоритмов
- •7.3.2. Иерархические алгоритмы гломеративные алгоритмы
- •Дивизимные алгоритмы
- •7.3.3. Неиерархические алгоритмы
- •Алгоритм k-means (Hard-c-means)
- •Алгоритм Fuzzy c-Means
- •Кластеризация по Гюстафсону-Кесселю
- •7.4. Кластеризация данных при помощи нечетких отношений
- •7.4.1. Анализ свойств нечетких бинарных отношений применительно к анализу данных
- •Сравнение данных
- •Отношение альфа-толерантности
- •7.4.2. Отношение альфа-квазиэквивалентности
- •Построение шкалы отношения а-квазиэквивалентности как алгоритм анализа данных
- •Об использовании шкалы а-квазиэквивалентности для анализа данных
- •Примеры анализа данных при помощи шкалы а-квазиэквивалентности
Классификация и регрессия
1. Постановка задачи
В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих данный объект. Формально задачу классификации и регрессии, но описать следующим образом. Имеется множество объектов:
I={i1,i2,…,ij,..,in},
где ij- исследуемый объект. Примером таких объектов может быть информация о проведении игр при разных погодных условиях (табл. 5.1).
|
|
|
|
|
|
|
Наблюдение |
Температура |
Влажность |
Ветер |
Игра |
|
Солнце |
Жарко |
Высокая |
Нет |
Нет |
|
Солнце |
Жарко |
Высокая |
Есть |
Нет |
|
Облачность |
Жарко |
Высокая |
Нет |
Да |
|
Дождь |
Норма |
Высокая |
Нет |
Да |
|
Дождь |
Холодно |
Норма |
Нет |
Да |
|
Дождь |
Холодно |
Норма |
Есть |
Нет |
|
Облачность |
Холодно |
Норма |
Есть |
Да |
|
Солнце |
Норма |
Высокая |
Нет |
Нет |
|
Солнце |
Холодно |
Норма |
Нет |
Да |
|
Дождь |
Норма |
Норма |
Нет |
Да |
|
Солнце |
Норма |
Норма |
Есть |
Да |
|
Облачность |
Норма |
Высокая |
Есть |
Да |
|
Облачность |
Жарко |
Норма |
Нет |
Да |
|
Дождь |
Норма |
Высокая |
Есть |
Нет |
Каждый объект характеризуется набором переменных:
Ij= {x1, x2, ...,xh,...,xm,y},
где xh — независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной у. В данном примере независимыми переменными являются: наблюдение, температура, влажность и ветер. Зависимой переменной является игра.
В Data Mining часто набор независимых переменных обозначают в виде вектора:
Х={x1, x2, ...,xh,...,xm},
Каждая переменная x1 может принимать значения из некоторого множества:
Сh={ch1,c.h2,…}
Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}.
Если множество значений С = {сь с2, ..., сг,..., ск} переменной у - конечное, то задача называется задачей классификации. Если переменная у принимает значение на множестве действительных чисел R, то задача называется задачей регрессии.
Представление результатов
1. Правила классификации
Несмотря на то, что был назван способ определения значения зависимой переменной функцией классификации или регрессии, он необязательно может быть выражен математической функцией. Существуют следующие основные виды представления таких способов: классификационные правила, деревья решений и математические функции.
Классификационные правила состоят из двух частей: условия и заключения:
если (условие) то (заключение).
Условием является проверка одной или нескольких независимых переменных. Проверки нескольких переменных могут быть объединены с помощью операций "и", "или" и "не". Заключением является значение зависимой переменной или распределение ее вероятности по классам. Например:
если (наблюдение = солнце и температура = жарко) то (игра = нет);
если (наблюдение = облачность и температура = холодно) то (игра = да).
Основным достоинством правил является легкость их восприятия и запись на естественном языке. Другое преимущество - относительная их независимость. В набор правил легко добавить новое без необходимости изменять уже существующие. Относительность независимости правил связана с возможной их противоречивостью друг другу. Если переменные, характеризующие некоторый объект, удовлетворяют условным частям правил с разными заключениями, то возникает неопределенность со значением его зависимой переменной. Например, имеются правила:
если (наблюдение = солнце) то (игра = нет);
если (наблюдение = облачность и температура = холодно) то (игра = да).
В них объекты, удовлетворяющие условиям из второго правила, удовлетворяют и условиям первого правила. Однако вывод делается разный. Другими словами, в соответствии с этими правилами при одинаковых обстоятельствах получены противоречивые указания, что неприемлемо.
