Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
daa_min.doc
Скачиваний:
4
Добавлен:
27.10.2018
Размер:
97.79 Кб
Скачать

[Править] Data mining и статистика

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

[Править] Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

  • ассоциатиные правила;

  • деревья решений;

  • кластеры;

  • математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

[Править] Задачи

Задачи, решаемые методами Data Mining, принято разделять на

  • описательные (англ. descriptive);

  • предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

  1. Поиск ассоциативных правил или паттернов (образцов).

  2. Группировка объектов или кластеризация.

  3. Построение регрессионной модели.

К предсказательным задачам относятся:

  1. Классификация объектов (для заранее заданных классов).

  2. Построение регрессионной модели.

[Править] Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

[Править] Этапы обучения

Выделяется типичный ряд этапов решения задач методами Data Mining:

  1. Формирование гипотезы;

  2. Сбор данных;

  3. Подготовка данных (фильтрация);

  4. Выбор модели;

  5. Подбор параметров модели и алгоритма обучения;

  6. Обучение модели (автоматический поиск остальных параметров модели);

  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]