Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1484

.pdf
Скачиваний:
6
Добавлен:
07.01.2021
Размер:
1.2 Mб
Скачать

3.2.3. Основные методы и задачи Data Mining

Data Mining – это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов:

1.Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

2.Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

3.Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от других, которые вошли в другие кластеры.

4.Ассоциация – выявление закономерностей между связанными событиями. Примеров такой закономерности служит правило, указывающее, что из события Х следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

5.Последовательные шаблоны – установление закономерно-

стей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события Х спустя время t последует событие Y.

Можно говорить еще о задаче анализа отклонений – выявление наиболее нехарактерных шаблонов, например, при анализе мошеннических схем.

Классификация отличается от задачи регрессии тем, что в классификации на выходе присутствует переменная дискретного вида, называемая классом. Решение задачи классификации сводится к определению объекта по его входным характеристикам, при этом множество классов, к которым может быть отнесен объект, известно заранее. В задаче регрессии выходной переменной является непрерывное поле – множество действительных чисел, например, сумма продаж (рис. 7). К задаче регрессии сводится, в частности, прогнозирование временного ряда на основе исторических данных.

61

Вход 1

 

Класс

 

 

Алгоритм

«Плохой

 

заемщик»

…..

классификации

 

 

 

Вход N

 

 

 

 

Вход 1 Сумма

Алгоритм продаж регрессии

…..

Вход N

Рис. 7. Иллюстрация задачи регрессии

Кластеризация отличается от классификации тем, что выходная переменная не требуется, а число кластеров, в которое необходимо сгруппировать все множество данных, может быть неизвестным. Выходом кластеризации является не готовый ответ (например – плохо/удовлетворительно/хорошо), а группы похожих объектов – кластеров. Кластеризация указывает только на «схожесть» объектов и не более того, для объяснения образовавшихся кластеров необходима их дополнительная интерпретация (рис. 8).

Вход 1

 

Номер

 

 

Алгоритм

кластера

 

 

….

кластеризации

 

 

 

Вход N

 

 

 

 

Рис. 8. Иллюстрация задачи кластеризации

Перечислим наиболее известные применения этих задач в экономике.

Классификация используется в случае, если заранее известны классы отнесения объектов, например отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо катего-

62

рии. При кредитовании это отнесение клиента по каким-то признакам к одной из групп риска.

Кластеризация может использовать для сегментации и построения профилей клиентов. При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально, поэтому их удобно объединить в группы – сегменты с однородными признаками. Выделять сегменты по географическому расположению. После кластеризации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных предпочтений.

Регрессия используется для установления зависимостей в факторах. Например, в задаче прогнозирования зависимой величины являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Или, например, при кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества.

Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ней бутылочку соуса.

Последовательные шаблоны могут быть использованы при планировании продаж или предоставлении услуг. Они похожи на ассоциации, но в анализе добавляется временной показатель, т.е. важна последовательность совершения операций. Например, если заемщик взял потребительский кредит, то с вероятностью 60% через полгода он оформит кредитную карту.

Ассоциации и последовательные шаблоны иногда объединяют в одну задачу, называемую анализом связей (link analisys).

Для решения вышеперечисленных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как математика, статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В общем случае не принципиально, каким именно алгоритмом будет решаться одна из пяти задач Data Mining, главное иметь метод

63

решения для каждого класса задач. На сегодня наиболее распространение в Data Mining получили методы машинного обучения: деревья решений, нейронные сети, ассоциативные правила и т.д.

Определение. Машинное обучение (англ.: Machine Learning) – обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных.

Общая постановка задачи обучения следующая. Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов – пар вида «обьект-ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, т.е. построить модель, способную для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определенным образом вводится критерий качества. Ниже приводится схема, которая иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмамиDM (рис. 9).

Бизнес-решения

 

Анализ событий

 

Маркетинговая

 

Анализ рисков

 

Почтовые

 

Анализ рыночной

 

сегментация

 

Скоринг

 

рассылки

 

корзины

 

 

 

 

Профайлинг

 

Прогнозирование

 

Борьба с

 

Стимулирование

 

Анализ аварий

 

 

 

мошенничеством

 

спроса

 

 

 

 

 

 

 

 

 

Оптимизация

 

 

 

 

 

 

Ассоциация

Кластеризация Регрессия

Последовательные

Классификация

шаблоны

 

 

 

 

 

 

 

 

 

 

 

 

 

Анализ

Сферическая

Нейронные Деревья

последовательностей

кластеризация

 

сети

решений

Рис. 9. Схема, иллюстрирующая некоторые популярные бизнес-задачи, которые решаются алгоритмами DM

64

3.3. Технология KDD

Несмотря на большое количество разнообразных бизнес-задач почти все они могут решаться по единой методике. Эта методика, за-

родившаяся в 1989 г., получила название Knowledge Discovery in Databases – извлечение знаний из баз данных. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Методика не зависит от предметной области, это набор атомарных операций, и, комбинируя их, можно получить нужное решение. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и позволяющие обнаруживать закономерности и знания (рис. 10).

Источники

данных

Источники Выборка данных данных

Источники

данных

Очистка

Источники данных

Трансфор- мация Источники

данных

Data

Mining Источники данных

Интерпретация

Рис. 10. Этапы KDD

Определение. Knowledge Discovery in Databases (KDD) – это процесс получения из данных знаний в виде зависимостей, правил, моделей и состоящий, как правило, из следующих этапов: отбор, очи-

65

стка, трансформация, моделирование и интерпретация полученных результатов.

Кратко рассмотрим последовательность шагов, выполняемых на каждом

Выборка данных. Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. Здесь необходимо активное участие экспертов для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данных были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки: запросы, фильтрация данных и сэмплинг. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

Очистка данных. Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся: заполнение пропусков, поиск аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

Трансформация данных. Этот шаг необходим для тех методов, которые нуждаются в том, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычислить агрегированные показатели. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, квантование, сортировка, группировка и прочие.

Трансформация данных. Этот шаг необходим для тех методов, которые нуждаются в том, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требует специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычислить агрегированные показатели. К задачам трансформации данных относятся: скользящее окно, приведение временных интервалов, квантование, сортировка, группировка и прочие.

66

Data Mining. На этом шаге строятся аналитические модели. Интерпретация. В случае, когда извлеченные знания непрозрачны

для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания аналитика. Именно аналитик может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

Пример. Пусть требуется получить прогноз объемов продаж на следующий месяц. Имеется сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующий шагом будет предобработка собранных данных: их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Имея ее, можно получить прогноз, подав на вход модели историю продаж. Зная прогнозное значение, его можно использовать, например, в приложениях оптимизации для лучшего размещения товара на складе.

Нередко KDD отождествляют с Data Mining. Более правильно считать Data Mining шагом процесса KDD.

Подавляющее большинство бизнес-задач сводится к процессу KDD. Фактически ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.

В KDD и Data Mining нет ничего принципиально нового. Специалисты в различных областях человеческого знания на протяжении нескольких последних десятков лет решали подобные задачи. Однако, в последние несколько лет интеллектуальная составляющая бизнеса стала возрастать, и для распространения технологий KDD и Data Mining создались все необходимые и достаточные условия. Предпосылками к этому явилось следующее:

1.Развитие технологий автоматизированной обработки информации создало основу для учета сколь угодно большого количества факторов и достаточного объема дынных.

2.Возникла проблема острой нехватки специалистов с высокой квалификацией в области статистики и анализа данных. Это потребо-

67

вало создания технологий обработки и анализа, доступных для специалистов любого профиля за счет применения методов визуализации

исамообучающихся алгоритмов.

3.Возникла объективная потребность в тиражировании знаний. Полученные в процессе KDD и Data Mining результаты являются формализованным описанием некоего процесса, а, следовательно, поддаются автоматической обработке и повторения на новых данных.

4.На рынке появились программные продукты, поддерживающие технологии KDD и Data Mining, – аналитические платформы. С их помощью стало возможным создавать полноценные аналитические решения.

3.4. Ситуационные центры как технологии принятия корпоративных решений

В настоящее время активно развиваются технологии поддержки принятия корпоративных решений. Среди них особое место занимает технология «ситуационных центров».

Ситуационный центр (комната, визионариум) – это специально оборудованное помещение, где собираются лица, заинтересованные в принятии различных управленческих решений.

Ситуационный центр это технология принятия корпоративных решений, совокупность методов и подходов для решения сложных многокритериальных междисциплинарных задач, которая аккумулирует средства сбора и анализа информации, инструменты прогнозирования и построения возможных моделей развития и визуального представления результатов в виде, который будет максимально удобен и полезен для первых лиц принимающих решение.

Ситуационный центр это инструмент для тех, кто не может и не должен копаться в многочисленных сводках и отчетах, но обязан видеть картину подчиненного ему хозяйства в целом, уметь оценить текущую ситуацию и принять оптимальное решение.

Поиск способов принятия эффективных решений в корпорациях, особенно в условиях экономической неустойчивости, заставляет искать новые технологии поддержки принятия групповых решений.

Деятельность корпораций в условиях экономической неустойчивости, вызванной дефолтами, кризисом банковской системы, неплатежами, протестной активностью населения, управленческими ошибками властей, неполнотой правовой базы, оттоком иностранных инвесторов и пр., требует нестандартных подходов к поиску механизмов

68

принятия эффективных корпоративных решений. При этом российская специфика управления экономикой характеризуется сложностью информационного пространства, появлением большого объема финансовой информации и потока информации из СМИ.

Сегодня к ситуационным центрам проявляется больший интерес. СЦ позволяют быстро «погрузить» участников процесса принятия решений в рассматриваемую проблему, «научить их говорить» на одном языке, помочь разобраться в проблеме, правильно сформулировать запросы к внешним источникам информации и совместно подготовить хорошее (не обязательно наилучшее) решение. Такие комнаты популярны за рубежом – там они работают во властных структурах, в больших корпорациях и банках. В России создается и уже используется ряд ситуационных комнат (центров): Президента РФ, Совета Безопасности, МЧС. Начинают создаваться ситуационные центры и в субъектах России. Правда, в России такие центры разрабатываются с большой оглядкой на зарубежный опыт. С одной стороны, это правильно – не надо «изобретать велосипед», с другой – совсем не учитывается российская информационная и коммуникационная специфика. В итоге, получаемая отдача далека от желаемой.

Ситуационные комнаты (ситуационные центры) – это специальное рабочее место для одного или группы специалистов, специально оборудованное для оперативного построения и «проигрывания» сценариев, быстрой оценки проблемной ситуации на основе использования специальных методов обработки больших объемов знаний и информации. В редуцированном виде ситуационные комнаты – это совсем не обязательно компьютеризованное помещение. Известные комнаты для «мозгового штурма» со столом, классной доской и мелом – это тоже ситуационные комнаты. Главное в ситуационной комнате – правильно подобрать информацию и организовать интеллектуальную активность специалистов.

Эффект от компьютеризации ситуационных комнат во многом зависит от развитости используемых методов сбора информации, структурирования данных, построения сценариев и применяемых технологий. Большой объем достоверной информации о различных аспектах ситуации – признак устойчивости ее динамики, залог эффективности принимаемых корпоративных решений. На ней можно построить надежную классическую модель развития ситуации. В неустойчивые же периоды развития экономики собрать большой объем достоверной информации практически невозможно. В этом случае

69

особого внимания заслуживают некоторые подобласти методов искусственного интеллекта.

3.4.1. Режимы работы ситуационных центров

Технология работы ситуационных центров учитывает специфику принятия групповых решений и отличается от других акцентированием внимания на компонентах, непосредственно связанных с творческими процессами принятия решений. Данная технология предполагает работу в следующих режимах:

а) наглядное отображение на экране текущей актуальной информации: из филиалов корпорации, информационных агентств, органов власти, с объектов управления и пр. (проблемный мониторинг);

б) запланированное заслушивание и обсуждение аналитических докладов по проблемным ситуациям для принятия соответствующих решений (плановое обсуждение проблем);

в) оперативное принятие и контроль исполнения решений по непредвиденным, кризисным, чрезвычайным проблемам с подключением групп экспертов (чрезвычайный режим).

В каждом из перечисленных режимов использование СПР может быть локальным и, чаще, распределенным. В последнем случае СПР состоит из территориально взаимосвязанных компонентов.

Проблемный мониторинг является одним из режимов работы СЦ. В корпорации нужна своя система слежения за финансовой, инвестиционной и другой ситуацией. Для этого создаются технологии проблемного мониторинга, режим которого предназначен для постоянного наглядного слежения за ситуацией с целью текущего информирования руководителей корпорации, а в случае необходимости – акцентирования их внимания на актуальных и настораживающих событиях. Мониторинговый режим, как правило, регламентируется выбранной, но часто изменяющейся тематикой и относительно постоянным набором источников информации.

«Мониторить» можно даже кризисные процессы, ведь для решения проблемы всегда надо за что-то «зацепиться», иметь хотя бы ка- кие-то индикаторы, по которым можно оценивать поведение исследуемой ситуации. Когда задача мониторинга понятна, его организация включает: выделение внутренней и внешней сфер, благоприятных и негативных факторов, определение источников информации. Труднее организовать мониторинг в малознакомых ситуациях, когда не понятно, с чего начать.

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]