Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА - копия - копия.doc
Скачиваний:
20
Добавлен:
27.11.2019
Размер:
625.15 Кб
Скачать

СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА

DATA MINING

Корпоративная база данных любого современного пред­приятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в по­добной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведе­ний, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать ис­точником дополнительной, гораздо более ценной информа­ции, которую нельзя получить на основе одной конкретной за­писи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными. При­мерами подобной информации являются сведения о том, ка­кая категория клиентов чаше всего вовремя не отдает предос­тавленный кредит и насколько велик риск невозврата, как за­висят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая часть покупателей одного конкретного товара приобретает другой конкрет­ный товар и т.п.

Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе ри­сков, и ценность ее для предприятия очень высока. Видимо, поэтому процесс ее поиска и получил название Data Mining.

Data mining — это процесс автоматического выделения действительной, эффективной, ранее неизвестной и совер­шенно понятной информации из больших баз данных и ис­пользование ее для принятия ключевых бизнес-решений. Цель этого процесса — представить данные в виде, четко отражаю­щем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для пла­нирования бизнеса (например, динамику распределения рис­ков и вероятность финансовых махинаций либо зависимость их от каких-то характеристик потребителя).

Вот несколько из множества определений Data Mining:

Data Mining — это процесс выделения из данных неявной и неструктурированной информации и представления ее в ви­де, пригодном для реализации.

Data Mining — это процесс анализа, выделения и представ­ления детализированных данных неявной конструктивной ин­формации для решения проблем бизнеса (NCR).

Data mining — это процесс выделения, исследования и мо­делирования больших объемов данных для обнаружения неиз­вестных до этого структур с целью достижения преимуществ в бизнесе (SAS Institute).

Data mining — это процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в резуль­тате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс приме­нение статистических и математических методов (Gartner Group).

Data mining — это процесс обнаружения в сырых данных ранее не известных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (G. Piatetsky-Shapiro, GTE Labs).

Data mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от характера получаемой информации. Некоторые методы перечислены ниже:

объединение (association, иногда используют термин affini­ty, означающий сходство, структурную близость) — выделение структур, повторяющихся во временной последовательности. Обнаруживает правила, по которым присутствие одного набо­ра элементов коррелирует с другим. Этот метод часто приме­няется для анализа рыночной корзины пакетов продуктов, при разработке каталогов, перекрестном маркетинге. Цель — най­ти закономерности среди большого числа транзакций. Эта ин­формация может использоваться для модификации располо­жения полок и последовательности товаров в торговом зале.

(Классический пример из американской жизни: в одном из универсамов обнаруокияи, что по субботам молодые отцы, купив памперсы и исполнив таким образом свою миссию, покупают пи­во. Расположив полку с пивом рядом с полкой памперсов, универ­сам в четыре раза увеличил продажу пива по субботам).

  • Анализ временных рядов (sequence-based analysis, другое название — sequential association) позволяет найти вре­менные закономерности между транзакциями. Напри­мер, можно ответить на вопрос, покупки каких товаров предшествуют покупке данного вида продукции. Ис­пользуется при анализе целевых рынков, управлении гибкостью цен, управлении циклом работы с заказчиком (Customer Lifecycle Management);

кластеризация (clustering) — группировка записей, име­ющих одинаковые характеристики, например, по близо­сти значений полей. Используется для сегментации рынка и сегментации заказчиков. Могут использоваться ста­тистические методы либо нейросети. Кластеризация час­то рассматривается как первый необходимый шаг для дальнейшего анализа данных;

  • классификация (classification) — отнесение записи к од­ному из заранее определенных классов. Используется, например, при оценке рисков при выдаче кредита;

  • оценивание (estimation);

  • нечеткая логика (fuzzy logic);

  • статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;

  • генетические алгоритмы (genetic algorithms) (см. PC Week/RE, № 19/99, с. 19);

  • фрактальные преобразования (fractal-based transforms);

  • нейронные сети (neural networks) — данные пропускают­ся через слои узлов, «обученных» распознаванию тех или иных структур (см. PC Week/RE, № 13/99, с. 26). Исполь­зуются для анализа предпочтений и целевых рынков, удержания заказчиков, а также для обнаружения мошен­ников.

К Data Mining можно добавить еще визуализацию дан­ных — построение графического образа из данных, использо­вание цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к Data Mining примы­кают деревья решений и параллельные базы данных.

Преимущества

Традиционная математическая статистика, долгое время остававшаяся основным инструментом анализа данных, равно как и средства оперативной аналитической обработки данных (online analytical processing, OLAP), не всегда могут успешно применяться для решения таких задач. Обычно статистичес­кие методы и OLAP используются для проверки заранее сфор­мулированных гипотез. Однако нередко именно формулиров­ка гипотезы оказывается самой сложной задачей при реализа­ции бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производит­ся методами, не использующими никаких априорных предпо­ложений об этих подвыборках. Если при статистическом ана­лизе или при применении OLAP обычно формулируются во­просы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining, как правило, подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечива­ет более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.

Особенности

Важная особенность Data Mining — нестандартность и не­очевидность разыскиваемых шаблонов. Иными словами, сред­ства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить та­кие взаимозависимости самостоятельно и строить гипотезы об их характере.

Согласно В. А. Дюку1, выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

  • ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вмес­те с другим);

  • последовательность — высокая вероятность цепочки свя­занных во времени событий (например, в течение опреде­ленного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);

  • классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);

  • кластеризация — закономерность, сходная с классифи­кацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в про­цессе обработки данных;

-временные закономерности — наличие шаблонов в дина­мике поведения тех или иных данных (типичный при­мер — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Применение

Сфера применения Data Mining ничем не ограничена, она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня заинтересовали банки, страховые компании и коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных. Опыт многих таких предприятий показывает, что отдача от исполь­зования Data Mining может достигать 1000%. Например, изве­стны сообщения об экономическом эффекте, в 10—70 раз пре­высившем первоначальные затраты от 350 до 750 тыс. дол. Из­вестны сведения о проекте в 20 млн дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Вели­кобритании.

Data Mining представляет большую ценность для руково­дителей и аналитиков в их повседневной деятельности. Дело­вые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.