- •Преимущества
- •Особенности
- •Применение
- •Банковское дело
- •Страхование
- •Первичный контакт (звонок по телефону или письмо) и приглашение на собеседование
- •Второе собеседование (уточнения и выяснение)
- •Испытательный срок
- •Психологическое тестирование
- •Собеседования
- •Полиграф
- •Графология
- •Что такое мошенничество
- •Почему воруют
- •Как бороться
- •Необходимые мероприятия
- •Подсистема противодействия
- •Служебные расследования
- •В процессе поступления товара
- •В процессе производства
- •В процессе реализации
- •Источники данных
- •Силы деловой разведки
- •Значение деловой разведки
- •Задачи управления безопасностью, идентификация и классификация источников угроз, оптимизация управления безопасностью
- •Кибернетические подходы к управлению безопасностью компании, создание оптимальной структуры сб открытого типа
- •Формирование структуры безопасности фирмы в зависимости от алгоритма функционирования и способов защиты от явных угроз
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ АНАЛИЗА
DATA MINING
Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными. Примерами подобной информации являются сведения о том, какая категория клиентов чаше всего вовремя не отдает предоставленный кредит и насколько велик риск невозврата, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая часть покупателей одного конкретного товара приобретает другой конкретный товар и т.п.
Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока. Видимо, поэтому процесс ее поиска и получил название Data Mining.
Data mining — это процесс автоматического выделения действительной, эффективной, ранее неизвестной и совершенно понятной информации из больших баз данных и использование ее для принятия ключевых бизнес-решений. Цель этого процесса — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику распределения рисков и вероятность финансовых махинаций либо зависимость их от каких-то характеристик потребителя).
Вот несколько из множества определений Data Mining:
Data Mining — это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для реализации.
Data Mining — это процесс анализа, выделения и представления детализированных данных неявной конструктивной информации для решения проблем бизнеса (NCR).
Data mining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур с целью достижения преимуществ в бизнесе (SAS Institute).
Data mining — это процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (Gartner Group).
Data mining — это процесс обнаружения в сырых данных ранее не известных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (G. Piatetsky-Shapiro, GTE Labs).
Data mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от характера получаемой информации. Некоторые методы перечислены ниже:
объединение (association, иногда используют термин affinity, означающий сходство, структурную близость) — выделение структур, повторяющихся во временной последовательности. Обнаруживает правила, по которым присутствие одного набора элементов коррелирует с другим. Этот метод часто применяется для анализа рыночной корзины пакетов продуктов, при разработке каталогов, перекрестном маркетинге. Цель — найти закономерности среди большого числа транзакций. Эта информация может использоваться для модификации расположения полок и последовательности товаров в торговом зале.
(Классический пример из американской жизни: в одном из универсамов обнаруокияи, что по субботам молодые отцы, купив памперсы и исполнив таким образом свою миссию, покупают пиво. Расположив полку с пивом рядом с полкой памперсов, универсам в четыре раза увеличил продажу пива по субботам).
Анализ временных рядов (sequence-based analysis, другое название — sequential association) позволяет найти временные закономерности между транзакциями. Например, можно ответить на вопрос, покупки каких товаров предшествуют покупке данного вида продукции. Используется при анализе целевых рынков, управлении гибкостью цен, управлении циклом работы с заказчиком (Customer Lifecycle Management);
кластеризация (clustering) — группировка записей, имеющих одинаковые характеристики, например, по близости значений полей. Используется для сегментации рынка и сегментации заказчиков. Могут использоваться статистические методы либо нейросети. Кластеризация часто рассматривается как первый необходимый шаг для дальнейшего анализа данных;
классификация (classification) — отнесение записи к одному из заранее определенных классов. Используется, например, при оценке рисков при выдаче кредита;
оценивание (estimation);
нечеткая логика (fuzzy logic);
статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;
генетические алгоритмы (genetic algorithms) (см. PC Week/RE, № 19/99, с. 19);
фрактальные преобразования (fractal-based transforms);
нейронные сети (neural networks) — данные пропускаются через слои узлов, «обученных» распознаванию тех или иных структур (см. PC Week/RE, № 13/99, с. 26). Используются для анализа предпочтений и целевых рынков, удержания заказчиков, а также для обнаружения мошенников.
К Data Mining можно добавить еще визуализацию данных — построение графического образа из данных, использование цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к Data Mining примыкают деревья решений и параллельные базы данных.
Преимущества
Традиционная математическая статистика, долгое время остававшаяся основным инструментом анализа данных, равно как и средства оперативной аналитической обработки данных (online analytical processing, OLAP), не всегда могут успешно применяться для решения таких задач. Обычно статистические методы и OLAP используются для проверки заранее сформулированных гипотез. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда.
В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих подвыборках. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining, как правило, подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.
Особенности
Важная особенность Data Mining — нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.
Согласно В. А. Дюку1, выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:
ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);
последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);
классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;
-временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.
Применение
Сфера применения Data Mining ничем не ограничена, она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня заинтересовали банки, страховые компании и коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных. Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10—70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Известны сведения о проекте в 20 млн дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.
Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.