Скачиваний:
16
Добавлен:
06.02.2016
Размер:
31.01 Кб
Скачать

1. Технологии интеллектуального анализа данных, этапы KDD.

В настоящее время интенсивно разрабатывались методы автоматического извлечения знаний из накопленных фактов, хранящихся в различных базах данных. Для анализа информации, накопленной в современных базах данных, методы анализа должны быть эффективными, т.е. простыми в использовании, обладать значительным уровнем масштабируемости и определенным автоматизмом. Это концепция, зародившаяся в 1989 г., лежит в основе двух современных технологий анализа данных Data Mining и KDDKnowledge Discovery in Databases, которые на русский язык переводятся как «добыча (раскопка) данных» и « «извлечение знаний из баз данных».

В отечественной литературе применяется термин «Интеллектуальный анализ данных» (ИАД). В этой области необходимо отметить пионерские работы отечественных исследователей, в частности, М.М. Бонгарда (программа «Кора»), В.К. Финна (JSM-метод), А.Г. Ивахненко (МГУА), выполнивших свои работы задолго до того, как в этой области на Западе возник настоящий бум.

ИАД— это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей, то есть извлечения информации, которая может быть охарактеризована как знания.

Интеллектуальный анализ данных является кратким обозначением довольно широкого спектра процедур автоматического анализа данных высокоинтеллектуальными технологиями.

В общем случае процесс ИАД состоит из трех стадий:

  1. выявление закономерностей (свободный поиск);

  2. использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

  3. анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Knowledge Discovery in Database(KDD) — процесс получения из данных знаний в виде зависимостей, правил и моделей позволяющих моделирование и прогнозирование различных процессов.

Причины распространения KDD и Data Mining

В KDD и Data Mining нет ничего принципиально нового. Специалисты в различных областях человеческого знания решали подобные задачи на протяжении нескольких десятилетий. Однако в последние годы интеллектуальная составляющая бизнеса стала возрастать, и дляраспространения технологий KDD и Data Mining были созданы все необходимые и достаточные условия.

  1. Развитие технологий автоматизированной обработки информации создало основу для учета сколь угодно большого количества факторов и достаточного объема данных.

  2. Возникла острая нехватка высококвалифицированных специалистов в области статистики и анализа данных. Поэтому потребовались технологии обработки и анализа, доступные для специалистов любого профиля за счет применения методов визуализации и самообучающихся алгоритмов.

  3. Возникла объективная потребность в тиражировании знаний. Полученные в процессе KDD и Data Mining результаты являются формализованным описанием некоего процесса, а следовательно, поддаются автоматической обработке и повторному использованию на новых данных.

  4. На рынке появились программные продукты, поддерживающие технологии KDD и Data Mining, – аналитические платформы. С их помощью можно создавать полноценные аналитические решения и быстро получать первые результаты.

Технология Knowledge Discovery in Databases описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели с целю извлечения знания. Она не зависит от предметной области; это набор атомарных операций, комбинируя которые, можно получить нужное решение.

KDD включает в себя этапы(рис. 1).

Рис. 2.1. Этапы KDD

Кратко рассмотрим каждый этап.

Подготовка исходного набора данных. Этот этап заключается в подготовке набора данных, в том числе из различных источников, выбора значимых параметров и т.д. Для этого должны быть различные инструменты доступа к различным источникам данных – конверторы и т.п..

Предобработка (очистка) данных. Реальные данные для анализа редко бывают хорошего качества. Поэтому для эффективного применения методов Data Mining следует обратить серьезное внимание на вопросы предобработки данных. Данные могут содержать пропуски, шумы, аномальные значения и т.д. Кроме того, данные могут быть противоречивы, избыточны, недостаточны, содержать ошибки и т.д. В некоторых задачах требуется дополнить данные некоторой априорной информацией. Ошибочно предполагать, что если подать данные на вход системы в существующем виде, то на выходе будут получены полезные знания. Входные данные должны быть качественны и корректны.

Трансформация, нормализация данных. Этот шаг необходим для тех методов, которые требуют, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

Data Mining. На этом этапе строятся модели, в которых применяются различные алгоритмы для нахождения знаний. Это нейронные сети, деревья решений, алгоритмы кластеризации и установления ассоциаций и т.д.

Постобработка (интерпретация) данных. Интерпретация моделей и применение полученных знаний в бизнес приложениях. Для оценки качества полученной модели нужно использовать как формальные методы, так и знания аналитика. Именно аналитик может сказать, насколько применима полученная модель к реальным данным.

Например, требуется получить прогноз объемов продаж на следующий месяц. Имеется сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующим шагом будет предобработка собранных данных: их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Это можно сделать с помощью линейной регрессии или нейронных сетей. Имея такую модель, можно получить прогноз, подав на вход модели историю продаж. Зная прогнозное значение, его можно использовать, например, в приложениях оптимизации для лучшего размещения товара на складе.

Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно, их можно тиражировать. В Этом заключается самое главное преимущество KDD. Т.е. построенную одним человеком модель могут применять другие, без необходимости понимания методик, при помощи которой эти модели построены. Найденные знания должны быть использованы на новых данных с некоторой степенью достоверности.