
- •1. Интерактивная аналитическая обработка данных (olap)
- •1.1. Многомерная olap-технология
- •1.3. Категории оlар-инструментов
- •2. Технология разработки данных
- •2.1 Основные понятия технологии разработки данных
- •2.2 Методы разработки данных
- •2.3.Прогнозирующее моделирование
- •2.4.Сегментирование базы данных
- •2.5. Анализ связей
- •2.6. Обнаружение отклонений
- •2.7.Инструменты разработки данных
- •2.8.Разработка данных и хранилища данных
2. Технология разработки данных
В этом разделе рассматриваются концепции разработки данных (data mining) и то, как эта технология может применяться для реализации потенциальных возможностей хранилищ данных. Особое внимание уделяется характеристикам основных, операций, методов и инструментов разработки данных. Кроме того,рассматривается связь между технологией разработки данных и организацией хранилищ данных.
Простое хранение информации в хранилище данных не дает тех преимуществ, которые организация хотела бы получить. Для реализации потенциала хранилища данных необходимо извлечь знания, скрытые внутри хранилища. Однако, с ростом объема и усложнением структуры помещенных в хранилище данных, бизнес-аналитикам становится чрезвычайно трудно, если вообще возможно, выявлять тенденции и связи, существующие между элементами данных, используя лишь простые инструменты создания запросов и отчетов. Технология разработки данных является одним из наилучших способов извлечения осмысленных тенденций и закономерностей из огромного количества данных. Эта технология помогает отыскать внутри хранилища данных такую информацию, которая не может быть обнаружена ни с помощью запросов, ни посредством создания отчетов.
2.1 Основные понятия технологии разработки данных
Существует несколько определений понятия "разработка данных" — начиная с наиболее широкого определения, относящего к данной категории любые инструменты, предоставляющие пользователям непосредственный доступ к очень большим объемам данных, и заканчивая наиболее специализированными определениями, выделяющими только те инструменты и приложения, которые осуществляют статистический анализ данных. В этом разделе мы воспользуемся достаточно конкретным определением понятия разработки данных, предложенным Симоудисом (Simoudis, I996).
Разработка данных - процесс извлечения из больших баз данных достоверной, предварительно неизвестной, комплексной и значимой информации и использование ее для принятия ответственных бизнес-решений.
Разработка данных связана с анализом данных и использованием программных технологий поиска скрытых и неожиданных закономерностей и взаимосвязей в существующих наборах данных. Основная задача разработки данных заключается в обнаружении именно скрытой и неожиданной информации, поскольку не имеет смысла вести поиск закономерностей и связей, которые и так интуитивно понятны. Закономерности и связи идентифицируются путем обнаружения существующих фундаментальных правил и свойств данных,
Для проведения связанного с разработкой данных анализа обычно используются те данные и методы, которые способны дать наиболее точный и надежный результат, что обычно требует обработки большого объема данных. Процесс анализа начинается с разработки оптимального представления структуры выборки данных, по ходу которой приобретаются исходные знания. Полученные знания затем пополняются за счет использования расширенного набора данных, при условии, что более крупный набор данных имеет ту же структуру, что и полученная ранее выборка денных.
Значительную отдачу от разработки данных получат те компании, которые вложат существенные инвестиции в создание хранилища данных. Хотя разработка данных все еще остается сравнительно новой технологией, она уже используется во многих отраслях промышленности. В таблице 4 перечислены примеры приложений, в которых используется технология разработки данных и которые предназначены для применения в таких областях, как розничная торговля, маркетинг, банковская сфера, страхование и медицина.
Таблица 4. Примеры приложений технологии разработки данных
Розничная торговля и маркетинг
Обнаружение закономерностей в покупках, сделанных клиентами
Поиск ассоциативных связей среди демографических характеристик клиентов
Прогнозирование реакции на кампанию рассылки почтовых материалов
Анализ потребительской корзины
Банковская сфера
Обнаружение закономерностей в мошенническом использовании кредитных карточек
Поиск постоянных клиентов
Прогнозирование клиентов, которые, по-видимому, изменят свою принадлежность к кредитной карточной системе
Определение средних трат по кредитный карточкам для разных групп клиентов
Страхование
Определение тех клиентов, которые купят новые страховые полисы
Медицина
Определение характеристик поведения пациентов с целью планирования их приемов Поиск успешных терапевтических процедур при различных заболеваниях