Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Попова О.А. Управление данных.doc
Скачиваний:
3
Добавлен:
01.05.2025
Размер:
782.85 Кб
Скачать

5.2. Технология Data Mining

В англоязычной среде термин Data Mining имеет несколько определений и дословно переводится как «добыча данных» или «раскопка данных». Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно с некоторой степенью обобщения считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

Наиболее общее определение Data Mining можно сформулировать следующим образом.

Определение. Data Mining – это обнаружение в «сырых» данных ранее неизвестных нетривиальных, практически полезные и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Из определения следует, что Data Mining представляет собой технологию обнаружения знаний, а, следовательно, новой информации. К такой информации предъявляется ряд требований.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Информация должна быть логически понятна и доступна для интерпретации.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Дело в том, что человеческий разум сам по себе не приспособлен для  восприятия больших массивов разнородной информации.

Современные технологии Data Mining (discovery-driven data mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. В постановке задачи Data Mining для специалистов нет ничего нового. Они на протяжении нескольких последних десятков лет решали подобные задачи ("поиск эмпирических закономерностей", "эвристический поиск в сложных средах", "индуктивный вывод" и т. п.). Но  только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивной переработки грозят превратиться в никому не нужные свалки. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными любому человеку.

Сферы применения

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing).

Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10—70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [1]. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining.

Розничная торговля

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

  • анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

  • исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?"

  • создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров. Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

  • выявление мошенничества с кредитными карточками.

  • сегментация клиентов

  • прогнозирование изменений клиентуры.

В области телекоммуникаций  характерен растущий уровень конкуренции. Здесь методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удержать существующих клиентов и привлечь новых. В число типичных мероприятий входят следующие:

  • анализ записей о подробных характеристиках вызовов

  • выявление лояльности клиентов.  Страхование

Страховые компании в течение многих лет накапливают большие объемы данных. Здесь большое поле деятельности для методов Data Mining:

  • выявление мошенничества.

  • разработка новых страховых продуктов.

  • анализ риска. Другие приложения в бизнесе

Data Mining  может применяться во множестве других областей:

Все отрасли могут воспользоваться методами Data Mining для выявления отдельных сегментов своей клиентуры. Data Mining дает предприятиям возможность учитывать намного больше параметров, чем это делалось на основе традиционных методах хранения неструктурированной информации;

  • развитие автомобильной промышленности. При сборке автомобилей производители начинают учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;

  • политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;

поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.

Основные методы и задачи Data Mining

Data Mining – это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов:

Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от других, которые вошли в другие кластеры.

Ассоциация – выявление закономерностей между связанными событиями. Примеров такой закономерности служит правило, указывающее, что из события Х следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

Последовательные шаблоны – установление закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события Х спустя время t последует событие Y.

Можно говорить еще о задаче анализа отклонений – выявление наиболее нехарактерных шаблонов, например, при анализе мошеннических схем.

Классификация отличается от задачи регрессии тем, что в классификации на выходе присутствует переменная дискретного вида, называемая классом. Решение задачи классификации сводится к определению объекта по его входным характеристикам, при этом множество классов, к которым может быть отнесен объект, известно заранее. В задаче регрессии выходной переменной является непрерывное поле – множество действительных чисел, например, сумма продаж К задаче регрессии сводится, в частности, прогнозирование временного ряда на основе исторических данных.

Кластеризация отличается от классификации тем, что выходная переменная не требуется, а число кластеров, в которое необходимо сгруппировать все множество данных, может быть неизвестным. Выходом кластеризации является не готовый ответ (например – плохо/удовлетворительно/хорошо), а группы похожих объектов – кластеров. Кластеризация указывает только на «схожесть» объектов и не более того, для объяснения образовавшихся кластеров необходима их дополнительная интерпретация .

Перечислим наиболее известные применения этих задач в экономике.

Классификация используется в случае, если заранее известны классы отнесения объектов, например отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это отнесение клиента по каким-то признакам к одной из групп риска.Кластеризация может использовать для сегментации и построения профилей клиентов. При достаточно болом количестве клиентов становится трудно подходить к каждому индивидуально, поэтому их удобно объединить в группы – сегменты с однородными признаками. Выделять сегменты по географическому расположению. После кластеризации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыть, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных предпочтений.

Регрессия используется для установления зависимостей в факторах. Например, в задаче прогнозирования зависимой величины являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Или, например, при кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества.

Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ней бутылочку соуса.

Последовательные шаблоны могут быть использованы при планировании продаж или предоставлении услуг. Они похожи на ассоциации, но в анализе добавляется временной показатель, т.е. важна последовательность совершения операций. Например, если заемщик взял потребительский кредит, то с вероятностью 60% через полгода он оформит кредитную карту.

Ассоциации и последовательные шаблоны иногда объединяют в одну задачу, называемую анализом связей (link analisys).

Для решения вышеперечисленных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как математика, статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В общем случае не принципиально, каким именно алгоритмом будет решаться одна из пяти задач Data Mining, главное иметь метод решения для каждого класса задач. На сегодня наиболее распространение в Data Mining получили методы машинного обучения: деревья решений, нейронные сети, ассоциативные правила и т.д.

Определение. Машинное обучение (англ.: Machine Learning) – обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных.

Общая постановка задачи обучения следующая. Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов – пар вида «обьект-ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, т.е. построить модель, способную для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определенным образом вводится критерий качества. Ниже приводится схема, которая иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами DM.

Рис. 9. Схема, иллюстрирующая некоторые популярные бизнес-задачи, которые решаются алгоритмами DM.