- •Лекция 1. Введение в Data Mining
- •Отличия Data Mining от других методов анализа данных
- •1. Применение технологии Data Mining для решения бизнес-задач Банковское дело. Data Mining используется в банковской сфере для решения задач:
- •Фондовый рынок. Задачи фондового рынка, решаемые при помощи Data Mining:
- •2. Применение Data Mining для решения задач государственного уровня
- •Лекция 3. Задачи Data Mining. Классификация и кластеризация. Одними из основных задач анализа данных являются классификация и кластеризация. Задача классификации
- •Процесс классификации
- •Методы, применяемые для решения задач классификации
- •Точность классификации: оценка уровня ошибок
- •Оценивание классификационных методов
- •Задача кластеризации
- •Оценка качества кластеризации
- •Практика применения кластерного анализа в маркетинговых исследованиях
- •Этап 3. Подготовка данных
- •Определение необходимого количества данных - следует учитывать, являются ли данные упорядоченными или нет.
- •3. Предварительная обработка данных – необходима для обеспечения качественного анализа
- •4. Очистка данных - выявление и удаление ошибок и несоответствий в данных с целью улучшения качества данных.
- •Этапы очистки данных:
- •Лекция 4. Деревья решений.
- •Преимущества деревьев решений:
- •Процесс конструирования дерева решений
- •Критерий расщепления
- •Большое дерево не означает, что оно "подходящее"
- •Сокращение дерева или отсечение ветвей
- •Алгоритмы
- •Алгоритм cart
Оценка качества кластеризации
Оценка качества кластеризации может быть проведена на основе следующих процедур:
ручная проверка;
установление контрольных точек и проверка на полученных кластерах;
определение стабильности кластеризации путем добавления в модель новых переменных;
создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации.
Процесс кластеризации зависит от выбранного метода и является итеративным. Он может включать множество экспериментов по выбору разных параметров: меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Но эксперименты не самоцель - конечная цель кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.
Применение кластерного анализа
Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации.
В медицине используется кластеризация заболеваний, лечения заболеваний, их симптомов, таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д. В маркетинге это задача сегментации конкурентов и потребителей. В менеджменте - разбиение персонала на различные группы, классификация потребителей и поставщиков и др. В медицине - классификация симптомов. В социологии - разбиение респондентов на однородные группы.
Кластерный анализ в маркетинговых исследованиях применяется достаточно широко - как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. Решаются вопросы о группах клиентов, продуктов и т.д.
Важная задача - анализ поведения потребителя: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение.
Другая важная задача - позиционирование - определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.
Кластерный анализ удобен и для анализа клиентов компании. Все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет сократить объекты анализа, и индивидуально подойти к каждой группе клиентов.
Практика применения кластерного анализа в маркетинговых исследованиях
Приведем некоторые известные статьи, посвященные применению кластерного анализа для маркетинговых исследований:
1971г. - статья о сегментации клиентов по сфере интересов на основе данных, характеризующих предпочтения клиентов;
1974г. - статья Секстона про идентификацию групп семей - потребителей продукта, в результате были разработаны стратегии позиционирования бренда.
1981г. - статья, где проводился анализ поведения покупателей новых автомобилей на основе данных факторных нагрузок, полученных при анализе набора переменных.
Выводы:
Несмотря на кажущуюся похожесть задачи классификации и кластеризации решаются разными способами и при помощи разных методов. Различие задач - в исходных данных.
Классификация - наиболее простая задача Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения входных и выходных (целевых) переменных.
Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.
Задача классификации решается при помощи различных методов, наиболее простой - линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных.
Распространенные методы решения задачи кластеризации: метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. Сложностью кластеризации является необходимость ее оценки.
Процесс Data Mining. Начальные этапы
Процесс Data Mining состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.
Процесс Data Mining неразрывно связан с процессом принятия решений.
Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется.
Традиционный процесс Data Mining включает следующие этапы:
анализ предметной области;
постановка задачи;
подготовка данных;
построение моделей;
проверка и оценка моделей;
выбор модели;
применение модели;
коррекция и обновление модели.
Рассмотрим первые три этапа процесса Data Mining.
Этап 1. Анализ предметной области
Исследование - это процесс познания предметной области, объекта или явления с определенной целью. Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения исследователя, закономерных отношений между показателями данных свойств.
Предметная область - это мысленно ограниченная область реальной действительности, подлежащая описанию или моделированию и исследованию.
Предметная область состоит из объектов, различаемых по свойствам и находящихся в определенных отношениях между собой или взаимодействующих каким-либо образом.
Предметная область - это часть реального мира, она бесконечна и содержит как существенные, так и не значащие данные, с точки зрения проводимого исследования.
Исследователю необходимо уметь выделить существенную их часть. Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь клиента, вплоть до того, имеет ли работу супруг, есть ли у клиента несовершеннолетние дети, каков уровень его образования и т.д. Для решения другой задачи банковской деятельности эти данные будут абсолютно неважны. Существенность данных, таким образом, зависит от выбора предметной области.
В процессе изучения предметной области должна быть создана ее модель. Знания из различных источников должны быть формализированы при помощи каких-либо средств. Это могут быть текстовые описания предметной области или специализированные графические нотации.
Существует большое количество методик описания предметной области: методика структурного анализа SADT, IDEF0, диаграммы потоков данных Гейна-Сарсона, методика UML и другие. Модель предметной области описывает процессы, происходящие в предметной области, и данные, которые в этих процессах используются.
От того, насколько верно смоделирована предметная область, зависит успех дальнейшей разработки приложения Data Mining.
Этап 2. Постановка задачи
Постановка задачи Data Mining включает шаги:
формулировка задачи;
формализация задачи.
Постановка задачи включает также описание статического и динамического поведения исследуемых объектов.
Технология Data Mining не может заменить аналитика и ответить на те вопросы, которые не были заданы. Поэтому постановка задачи является необходимым этапом процесса Data Mining, на этом этапе мы определяем, какую же задачу необходимо решить. Иногда этапы анализа предметной области и постановки задачи объединяют в один этап.
