
- •Управление данными
- •1. Базы и банки данных
- •Информация, данные, знания ?
- •1.3. Банки данных
- •1.4. Преимущества Банка данных
- •1.6. Классификация языковых средств
- •1.8. Пользователи банков данных
- •1.9. Администраторы банка данных
- •2. Модели и структуры баз данных
- •2.1. Инфологическая модель
- •2.2. Понятие модели данных
- •2.3. Иерархическая структура и модель данных
- •2.4. Сетевая структура бд
- •2.5. Реляционные базы данных
- •Должен использоваться единый язык для взаимодействия с субд.
- •2.6. Диаграмма «сущность-связь» Чена
- •2.7. Объектно-ориентированные базы даных
- •2.8. Нормализация бд
- •2.9. Об эволюции и многообразии моделей данных
- •3... Технология «хранилище данных»
- •3. 1 Концепция хранилища данных
- •3.2. Витрины данных
- •3.3. Категории данных в хд
- •3.4. Метаданные
- •3.5. Потоки данных
- •3.7. Преобразование данных.
- •3.8. Загрузка данных и очистка данных
- •3.9. Выявление проблем в данных
- •4. Технологии управления данными
- •4.1. Oltp-системы
- •4.2. Многомерная модель данных
- •4.3. Olap-системы
- •12 Основных требований е. Кодда
- •5. Технологии интеллектуального анализа данных
- •5.1.Методология анализа данных
- •5.2. Технология Data Mining
- •5.3. Технология kdd
- •Лабораторные работы
5.3. Технология kdd
Несмотря на большое количество разнообразных бизнес-задач почти все они могут решаться по единой методике. Эта методика, зародившаяся в 1989 г., получила название Knowledge Discovery in Databases – извлечение знаний из баз данных. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Методика не зависит от предметной области, это набор атомарных операций, и, комбинируя их, можно получить нужное решение. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и позволяющие обнаруживать закономерности и знания (рис. 12).
Р
ис.
10 Этапы KDD
Knowledge Discovery in Databases (KDD) – это процесс получения из данных знаний в виде зависимостей, правил, моделей и состоящий, как правило, из следующих этапов: отбор, очистка, трансформация, моделирование и интерпретация полученных результатов.
Кратко рассмотрим последовательность шагов, выполняемых на каждом
Выборка данных. Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. Здесь необходимо активное участие экспертов для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данных были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки: запросы, фильтрация данных и сэмплинг. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.
Очистка данных. Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся: заполнение пропусков, поиск аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.
Трансформация данных. Этот шаг необходим для тех методов, которые нуждаются в том, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычислить агрегированные показатели. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, квантование, сортировка, группировка и прочие.
Data Mining. На этом шаге строятся аналитические модели.
Интерпретация. В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания аналитика. Именно аналитик может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.
Пример. Пусть требуется получить прогноз объемов продаж на следующий месяц. Имеется сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующий шагом будет предобработка собранных данных: их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Имея ее, можно получить прогноз, подав на вход модели историю продаж. Зная прогнозное значение, его можно использовать, например, в приложениях оптимизации для лучшего размещения товара на складе.
Нередко KDD отождествляют с Data Mining. Более правильно считать Data Mining шагом процесса KDD.
Подавляющее большинство бизнес-задач сводится к процессу KDD. Фактически ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.
В KDD и Data Mining нет ничего принципиально нового. Специалисты в различных областях человеческого знания на протяжении нескольких последних десятков лет решали подобные задачи. Однако, в последние несколько лет интеллектуальная составляющая бизнеса стала возрастать, и для распространения технологий KDD и Data Mining создались все необходимые и достаточные условия. Предпосылками к этому явилось следующее:
1. Развитие технологий автоматизированной обработки информации создало основу для учета сколь угодно большого количества факторов и достаточного объема дынных.
2. Возникла проблема острой нехватки специалистов с высокой квалификацией в области статистики и анализа данных. Это потребовало создания технологий обработки и анализа, доступных для специалистов любого профиля за счет применения методов визуализации и самообучающихся алгоритмов.
3. Возникла объективная потребность в тиражировании знаний. Полученные в процессе KDD и Data Mining результаты являются формализованным описанием некоего процесса, а, следовательно, поддаются автоматической обработке и повторения на новых данных.
4. На рынке появились программные продукты, поддерживающие технологии KDD и Data Mining, - аналитические платформы. С их помощью стало возможным создавать полноценные аналитические решения.