- •[Править] Введение
- •[Править] Исторический экскурс
- •[Править] Постановка задачи
- •[Править] Data mining и базы данных
- •[Править] Data mining и статистика
- •[Править] Data mining и искусственный интеллект
- •[Править] Задачи
- •[Править] Алгоритмы обучения
- •[Править] Этапы обучения
- •[Править] Подготовка данных
- •[Править] См. Также
[Править] Data mining и статистика
В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.
[Править] Data mining и искусственный интеллект
Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:
-
ассоциатиные правила;
-
деревья решений;
-
кластеры;
-
математические функции.
Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».
[Править] Задачи
Задачи, решаемые методами Data Mining, принято разделять на
-
описательные (англ. descriptive);
-
предсказательные (англ. predictive).
В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
-
Поиск ассоциативных правил или паттернов (образцов).
-
Группировка объектов или кластеризация.
-
Построение регрессионной модели.
К предсказательным задачам относятся:
-
Классификация объектов (для заранее заданных классов).
-
Построение регрессионной модели.
[Править] Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
[Править] Этапы обучения
Выделяется типичный ряд этапов решения задач методами Data Mining:
-
Формирование гипотезы;
-
Сбор данных;
-
Подготовка данных (фильтрация);
-
Выбор модели;
-
Подбор параметров модели и алгоритма обучения;
-
Обучение модели (автоматический поиск остальных параметров модели);
-
Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
-
Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
