
- •Классификация задач иад по типам извлекаемой информации
- •В качестве методов решения задачи классификации могут использоваться:
- •2. Кластеризация – это выделение однородных групп данных.
- •Кластерный анализ в маркетинговых исследованиях
- •3. Ассоциативные правила – поиск связанных друг с другом событий.
- •Задачи классификации и прогнозирования - сходства и различия.
- •Тренд, сезонность и цикл
- •6. Аномалии – выявление аномальных значений в данных.
10.2. Интеллектуальный анализ данных (Data Mining)
Сфера закономерностей отличается от двух предыдущих тем, что в ней накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована КАК ЗНАНИЯ.
Технология data mining (DM) заняла свои позиции в последнее десятилетие, получив центральную роль во многих сферах бизнеса.
-
Все мы являемся объектами применения Data Mining десятки раз в день — начиная от получения почтовых рассылок, конкурсы в магазинах, бесплатные газеты на улице и заканчивая применением алгоритмов выявления мошенничества, анализирующих любую покупку по кредитной карте.
-
Причина широкого распространения методов data mining: они дают хорошие результаты. Технология позволяет существенно повысить возможности организации в достижении целей.
-
Ее популярность растет, поскольку инструменты совершенствуются, получают широкое применение, дешевеют и становятся проще в использовании.
Существует два термина, переводимые как интеллектуальный анализ данных (ИАД) – это Knowledge Discovery in Databases (KDD) и Data Mining (DM).
Интеллектуальный анализ данных – это процесс поиска в сырых данных 1) корреляций, тенденций, взаимосвязей, ассоциаций и закономерностей посредством различных 2) математических и статистических алгоритмов.
-
Большинство методов ИАД было первоначально разработано в рамках теории искусственного интеллекта в 1970-1080-х годах. Но они получили распространение только в 1990-е годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.
Цель этого поиска (стадии ИАД) –
-
1) Подготовить данные в виде, четко отражающем бизнес-процессы.
-
2) Построить модели, при помощи которых можно прогнозировать процессы, критичные для планирования бизнеса:
-
(2a) выполнить проверку и оценку моделей;
-
-
3) Проводить исторический анализ данных для принятия решений:
-
(3а) выбор и применение модели;
-
(3б) коррекция и обновление моделей.
-
Классификация задач иад по типам извлекаемой информации
В большинстве случаев классификацию задач ИАД проводят по типам производимой информации. Задачи (модели) Data Mining делятся на 2 класса:
-
(1) прогнозирующие модели с их помощью осуществляется прогноз числовых значений атрибутов.
-
(2) описательные (дескриптивные) модели, которые описывают общие закономерности предметной области.
Наиболее яркий представитель первого класса – задача классификации.
1. Классификация – это выявление признаков, набора правил, характеризующих группу.
Наиболее распространенная задача ИАД. Она позволяет выявить признаки, характеризующие однотипные группы объектов (классы), для того чтобы по известным значениям этих характеристик можно было отнести новый объект к одному классу.
-
Типичный пример использования классификации - конкурентная борьба между поставщиками товаров и услуг за определенные группы клиентов. Классификация способна помочь определить характеристики неустойчивых клиентов, склонных перейти к другому поставщику, что позволяет найти оптимальную стратегию их удержания от этого шага (посредством предоставления скидок, льгот или даже с помощью индивидуальной работы с представителями "групп риска").
При помощи классификационной модели решаются следующие задачи:
-
принадлежит ли новый клиент к одному из набора существующих классов;
-
подходит ли пациенту определенный курс лечения;
-
выявление групп ненадежных клиентов;
-
определение групп клиентов, которым следует рассылать каталог с новой продукцией.
В качестве методов решения задачи классификации могут использоваться:
-
алгоритмы типа Lazy-Learning, в том числе известные алгоритмы ближайшего соседа (Nearest Neighbor) и k-ближайшего соседа (k-Nearest Neighbor),
-
байесовские сети (Bayesian Networks) или нейронные сети.
-
классификация с помощью деревьев решений;
-
классификация методом опорных векторов;
-
статистические методы, в частности, линейная регрессия;
-
классификация CBR-методом;
-
классификация при помощи генетических алгоритмов.
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием обычно выступает база данных. Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта. Набор исходных данных разбивают на два множества: обучающее и тестовое.
-
Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.
-
Тестовое (test set) множество используется для проверки работоспособности модели.
Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое - одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться
Процесс классификации состоит из двух этапов: конструирования модели и ее использования.
-
Конструирование модели: описание множества предопределенных классов.
Каждый пример набора данных относится к одному предопределенному классу.
На этом этапе используется обучающее множество, на нем происходит конструирование модели. Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
-
Использование модели: классификация новых или неизвестных значений.
Оценка правильности (точности) модели.
-
А) Известные значения из тестового примера сравниваются с результатами использования полученной модели.
-
Б) Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
-
В) Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
Если полученная точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
|
Процесс классификации. Конструирование модели |
|
Процесс классификации. Использование модели |
Точность классификации: оценка уровня ошибок
Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.
Наиболее яркие представители второго класса – задачи кластеризации, ассоциации, последовательности и т.д.
Рис. Сравнение задач классификации и кластеризации