
10.3. Стадии реализации Data Mining в организации
Как начать внедрение технологии data mining, не теряя ее ценных возможностей
Уоррен Торнтуэйт (Warren Thornthwaite).
Модель процессов Data Mining
Основные фазы Data Mining
Фаза 1 — Бизнес-фаза
Выделяются бизнес-возможности и проводится их оценка с учетом доступных данных.
Этап 1 - Понимание бизнеса. Важно выявить список возможностей, которые могут оказать существенное влияние на бизнес, и проранжировать их.
Этап 2 - Понимание данных. Далее, надо описать бизнес-цели так, чтобы можно было дать их количественную оценку - список факторов, влияющих на цели.
-
Например, понятие «повышение продаж» — слишком общее, но «сокращение ежемесячного уровня ухода клиентов» — уже более точный параметр. Что подсказывает возможный уход клиента? Как определить, что кто-то заинтересуется данным продуктом? Обсуждая эти факторы, нужно преобразовать их в специальные атрибуты, представимые в удобной форме.
-
Бизнес-возможности и задачи понимания данных соединяются: чтобы выявить возможности, их надо соотнести с реалиями мира данных. Кроме того, данные сами по себе могут дать информацию о бизнес-возможностях
Выбор самой приоритетной цели и формирование соответствующего списка переменных.
Этап 3 - Возможность Data Mining.
-
Исследование наборов данных, которые могут быть связаны с обсуждаемыми возможностями. На этом этапе цель состоит в проверке того, что данные, необходимые для поддержки бизнес-возможности, доступны и не содержат ошибок, а, следовательно, их можно использовать.
Фаза 2 — Data mining
Этап 1 - Подготовка данных:
1) Первая задача на этом этапе состоит в построении ситуативных выборок (data mining case sets).
-
Хорошо спроектированное и разработанное многомерное ХД — прекрасный источник ситуативных данных (case data). В идеале, многие переменные, выявленные на этапе поиска бизнес-возможности, уже существуют в виде атрибутов ХД.
Процесс построения ситуативных выборок обычно включает запросы и преобразования, которые генерируют структуру данных, состоящую из отдельных наблюдений, или ситуаций (cases), которые затем передаются в приложение data mining.
-
Задача эта чаще всего похожа на обычное извлечение, преобразование и загрузку (ETL), которые применяются для построения самого ХД. ETL-инструменты хорошо подходят для создания ситуативных выборок, так как все задачи поиска и очистки компонентов можно объединить в одной ETL-операции.
-
Если сохранить data mining case sets в отдельной базе, то можно управлять этими таблицами независимо от Хранилища.
2) Формируются ТРИ НАБОРА исходных данных:
-
Обучающая выборка. Используется в качестве входных данных алгоритма для разработки исходной модели.
-
Оценочная выборка. Используется для того, чтобы убедиться, что алгоритм создал модель, которая имеет широкое применение, а не привязана к обучающей выборке.
-
Тестовая выборка. Данные, не включенные в обучающую выборку. Часто их называют скрытыми. Применяются для проверки точности и эффективности модели
Этап 2 – Построение модели – включает 3 стадии
-
выявление закономерностей (свободный поиск);
-
Проверка достоверности найденных закономерностей (стадия валидации).
-
применение выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).
-
анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.
Свободный поиск (Discovery)
Свободный поиск определяется как процесс исследования исходной БД на предмет поиска скрытых закономерностей без предварительного определения гипотез относительно вида этих закономерностей.
-
Сама программа берет на себя инициативу в деле поиска интересных аномалий, или шаблонов, в данных, освобождая аналитика от необходимости обдумывания и задания соответствующих запросов.
-
Этот подход особенно ценен при исследовании больших БД, имеющих значительное количество скрытых закономерностей, большинство из которых было бы упущено при непосредственном поиске путем прямых запросов пользователя.
Стадия свободного поиска, как правило, должна включать в себя
-
1) генерацию закономерностей,
-
2) проверку их достоверности на множестве данных, не принимавшихся в расчет при их формулировании. ТЕСТОВАЯ ВЫБОРКА
Прогностическое моделирование (Predictive Modeling)
На второй стадии ИАД, используются плоды работы первой, то есть найденные в БД закономерности применяются для предсказания неизвестных значений (ОЦЕНОЧНАЯ ВЫБОРКА):
-
при классификации нового объекта мы можем с известной уверенностью отнести его к определенной группе результатов рассмотрения известных значений его атрибутов;
-
при прогнозировании динамического процесса результаты определения тренда и периодических колебаний могут быть использованы для вынесения предположений о вероятном развитии процесса в будущем.
Анализ исключений (Forensic Analysis)
Предметом данного анализа являются аномалии в раскрытых закономерностях, то есть необъясненные исключения.
-
Чтобы найти их, следует сначала определить норму (стадия свободного поиска), а за тем выделить ее нарушения.
-
Возможно, им найдется логическое объяснение, которое также может быть оформлено в виде закономерности.
-
Но может также статься, что мы имеем дело с ошибками в исходных данных, и тогда анализ исключений может использоваться в качестве инструмента очистки сведений в хранилище данных.
Этап 3 – Сравнение полученных моделей для оценки прогнозов и выбор лучшей модели
Обычно для этого используются специальные инструменты (см. отдельный материал)
Фаза 3 — Операционная фаза
Этап 1 - Запуск модели data mining в действие, оценка ее влияния на бизнес и поддержка.
Важно помнить, что по мере изменения ситуации во внешнем мире поведения и связи, отражаемые в модели, устаревают. Почти все модели data mining необходимо переобучать или полностью перепроектировать на каком-то этапе.
Этап 2 – Документирование модели. Метаданные
Конечная модель data mining должна быть детально задокументирована. Специалист по data mining обязан точно знать, как была создана модель, чтобы объяснить ее ценность, избежать повторения ошибок и при необходимости воссоздать ее. Для каждой модели data mining необходимо хранить электронную таблицу, в которой содержатся следующие параметры:
-
название модели; дата создания; обучающие и тестовые выборки; алгоритмы;
-
настройки параметров; входные и прогнозируемые переменные; результаты.
Электронная таблица должна содержать определения входящих наборов данных, указания на источники данных и названия ETL-модулей, применявшихся для создания входящих наборов. Подход позволит успешно интегрировать DM с системой ХД/BI.
Инструментальные средства Data Mining
Инструменты data mining включают:
-
1) Обеспечение мощных аналитических алгоритмов. Однако аналитические «машины» обрабатывают только небольшую часть всех задач DM-проекта. Фаза 2, этап 2
-
2) Средства подготовки данных. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Обычно применяются различные инструменты ETL. Фаза 2, этап 1
-
3) Средства оценки моделей. Фаза 2, этап 3.
Сферы применения Data Mining
Задача "Выдавать ли кредит клиенту?"
Эту задачу также называют анализом кредитоспособности клиента или "Выдавать ли кредит клиенту?".
-
Задача "Выдавать ли кредит клиенту?" при помощи методов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернувшие и не вернувшие кредит); на основе группы клиентов, не вернувших кредит, определяются основные "черты" потенциального неплательщика; при поступлении информации о новом клиенте определяется его класс ("вернет кредит", "не вернет кредит").
Задача привлечения новых клиентов банка.
С помощью инструментов Data Mining возможно провести классификацию на "более выгодных" и "менее выгодных" клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы.
Другие задачи сегментации клиентов.
Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому - эффективной, предлагая различным группам клиентов те виды услуг, в которых они нуждаются.
Задача управления ликвидностью банка. Прогнозирование остатка на счетах клиентов.
Проводя прогнозирования временного ряда с информацией об остатках на счетах клиентов за предыдущие периоды, применяя методы Data Mining, можно получить прогноз остатка на счетах в определенный момент в будущем. Полученные результаты могут быть использованы для оценки и управления ликвидностью банка.
Задача выявления случаев мошенничества с кредитными карточками.
Для выявления подозрительных операций с кредитными карточками применяются так называемые "подозрительные стереотипы поведения", определяемые в результате анализа банковских транзакций, которые впоследствии оказались мошенническими. Для определения подозрительных случаев используется совокупность последовательных операций на определенном временном интервале. Если система Data Mining считает очередную операцию подозрительной, банковский работник может, ориентируясь на эту информацию, заблокировать операции с определенной карточкой.
Страхование
Страховой бизнес связан с определенным риском. Здесь задачи, решаемые при помощи Data Mining, сходны с задачами в банковском деле.
Информация, полученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам клиентов.
Телекоммуникации
В сфере телекоммуникаций достижения Data Mining могут использоваться для решения задачи, типичной для любой компании, которая работает с целью привлечения постоянных клиентов, - определения лояльности этих клиентов. Необходимость решения таких задач обусловлена жесткой конкуренцией на рынке телекоммуникаций и постоянной миграцией клиентов от одной компании в другую. Как известно, удержание клиента намного дешевле его возврата. Поэтому возникает необходимость выявления определенных групп клиентов и разработка наборов услуг, наиболее привлекательных именно для них. В этой сфере, так же как и во многих других, важной задачей является выявление фактов мошенничества.
Электронная коммерция
В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web-сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов. Технология Data Mining для электронной коммерции тесно связана с технологией Web Mining.
Промышленное производство
Особенности промышленного производства и технологических процессов создают хорошие предпосылки для возможности использования технологии Data Mining в ходе решения различных производственных задач.
Технический процесс по своей природе должен быть контролируемым, а все его отклонения находятся в заранее известных пределах;
т.е. здесь мы можем говорить об определенной стабильности, которая обычно не присуща большинству задач, встающих перед технологией Data Mining.
Основные задачи Data Mining в промышленном производстве:
-
комплексный системный анализ производственных ситуаций;
-
краткосрочный и долгосрочный прогноз развития производственных ситуаций;
-
выработка вариантов оптимизационных решений;
-
прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса;
-
обнаружение скрытых тенденций и закономерностей развития производственных процессов;
-
прогнозирование закономерностей развития производственных процессов;
-
обнаружение скрытых факторов влияния;
-
обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния;
-
анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик;
-
выработку оптимизационных рекомендаций по управлению производственными процессами;
-
визуализацию результатов анализа, подготовку предварительных отчетов и проектов допустимых решений с оценками достоверности и эффективности возможных реализаций.
Маркетинг
В сфере маркетинга Data Mining находит очень широкое применение.
Основные вопросы маркетинга "Что продается?", "Как продается?", "Кто является потребителем?"
В разделе, посвященной задачам классификации и кластеризации, подробно описано использование кластерного анализа для решения задач маркетинга, как, например, сегментация потребителей.
Розничная торговля
В сфере розничной торговли, как и в маркетинге, применяются:
-
алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). Выявление таких правил помогает размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров и их размещения на складах и т.д.
-
использование временных последовательностей, например, для определения необходимых объемов запасов товаров на складе.
-
методы классификации и кластеризации для определения групп или категорий клиентов, знание которых способствует успешному продвижению товаров.