
- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
10.10. Бизнес-приложения методов иад
В первую очередь ИАД сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.
ИАД представляет большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов ИАД они могут получить ощутимые преимущества в конкурентной борьбе. Рассмотрим примеры успешного применения методов ИАД.
Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризированные системы контроля. Вот типичные задачи, которые можно решать с помощью ИАД в сфере розничной торговли:
Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.
Исследование временных шаблонов помогает торговым предприятиям ринимать решения о создании торговых запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит батарейки и пленку?»
Создание прогнозирующих моделей дает возможность торговым пред приятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров, или посещающих распродажи. Эти знания нужны для разработки точно направленных экономичных мероприятий по продвижению товаров.
Имеются данные об эффективном применении методов ИАД в области телекоммуникационного сервиса, страхования, банковского дела.
Достижения технологии ИАД используются в банковском деле для решения следующих распространенных задач.
Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк способен выявить некоторые стереотипы такого мошенничества. Например, можно установить, что одним из предупреждающих сигналов служат многочисленные транзакции в магазинах бытовой электроники в течение короткого периода времени. Полученное знание банк может использовать в своих действующих системах путем запрещения подтверждения транзакции, совпадающей со стереотипом мошенничества, без предварительной беседы с покупателем.
Сегментация клиентов. Разбивая клиентов на различные категории, банки могут сделать свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов. Например, банк может предлагать одну совместную (affinity) карточку клиентам, которые часто путешествуют, и другую — клиентам, которые всегда вовремя оплачивают свои счета за покупки по кредитным карточкам. Сегментацию полезно также использовать для определения, какие конкретно отделения с наибольшей вероятностью получат прибыль от отдельных рекламных акций
Прогнозирование изменений клиентуры. ИАД помогает банкам строить прогнозные модели ценности своих клиентов и соответственным образом обслуживать каждую категорию. Для этого банк выясняет характер потребностей своих сегодняшних прибыльных клиентов и с помощью методов ИАД определяет общие черты, которыми они обладали несколько лет назад. Затем он выявляет клиентов, имеющих эти черты сегодня, считая их вероятными прибыльными клиентами в ближайшем будущем.
Банк может включить указанных клиентов в целевые программы удерживания клиентов, например, предлагая специальные сделки или вводя штрафные санкции за отказ от дальнейших услуг.
Страхование. Страховые компании в течение многих лет накапливают большие объемы данных. Здесь большое поле деятельности для методов ИАД:
выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями в случаях, когда требуемая сумма достаточно высока, например, при возмещении ущерба.
разработка новых видов сервиса. ИАД даст возможность выявить наиболее выгодные комбинации категорий клиентов, вариантов полисов и их покрытия. Знание таких комбинаций необходимо для разработки новых продуктов и более точной «настройки» существующих продуктов для продажи в будущем.
анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховые агентства могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания проверила заявления, по которым были выплачены значительные суммы за последние два года. При этом обнаружилось, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Телекоммуникации. В области телекоммуникаций характерен растущий уровень конкуренции. Здесь методы ИАД помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удержать существующих клиентов и привлечь новых.
Приведем пример. Телефонная компания обеспокоена низким спросом на мобильные телефоны. Требуется проведение целевой рекламной кампании. Имеется описание клиентов в широком спектре атрибутов, а также информация о динамике предоставления услуг. Требуется выявить круг потенциальных покупателей. Задачи о росте уровня доходов, определении причин снижения роста прибыли и множества других могут решаться только на основе достоверной исторической информации из Хранилища Данных, и при этом требуют инструментария, методологии, а также квалифицированных специалистов. В число типичных мероприятий входят следующие:
Анализ записей о подробных характеристиках вызовов. Назначение такого анализа — выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг.
Выявление лояльности клиентов. Некоторые клиенты все время меняют провайдеров, пользуясь программами новых компаний, стимулирующими появление новых клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.
В качестве директора по маркетингу вы можете получить доступ к большому количеству информации о ваших перспективных клиентах, их возрасте, поле, кредитной истории и использовании телефона на протяжении длительного времени. Проблема заключается в том, что вам не известны их будущие потребности в телефонной связи. Вы бы хотели сконцентрироваться на тех потенциальных клиентах, которые имели в прошлом большой объем использования телефонной связи
Цель прогнозирования — сделать некоторые рассчитанные предположения относительно потенциальных клиентов. Например, простая модель для телекоммуникационной компании может выглядеть следующим образом: 98% моих клиентов — это те, которые зарабатывают более $60000/год, тратят более $80 на международные (междугородние) переговоры. Эта модель далее может быть применена к перспективным данным, чтобы сделать заключение относительно информации о собственности клиента, к которой компания в настоящее время не имеет доступа. Располагая такой моделью, можно целенаправленно проводить рекламную компанию среди потенциальных клиентов. Целевой маркетинг является блестящим источником данных для этого типа моделирования.
В области маркетинга исчерпывающие хранилища данных, которые интегрируют операционные данные о клиентах, поставщиках и рынке порождают информационный взрыв. Конкуренция требует своевременного и сложного анализа интегрированного взгляда на данные. Реляционная и OLAP технологии позволяют пользователю лучше ориентироваться в массивах данных информационных хранилищ, однако этого недостаточно.
Способ взаимодействия компаний с их клиентами существенно изменился за последние несколько лет. Клиент не гарантирует своих стабильных связей с бизнесом. В результате компании обнаружили, что им необходимо лучше понимать их клиентов и быстро реагировать на их потребности. Чтобы преуспеть, компании должны действовать с опережением с учетом следующих факторов.
Сжатый цикл маркетинга. Сократилось время между возникновением потребности и ее исполнением. Иначе клиент может уйти к другой компании.
Возрастание стоимости маркетинга. Растут цены на печать, почтовые расходы, специальные предложения.
Значительно растет число модификаций продуктов.
4. Конкуренты выбирают узкий сегмент и лучше организуют в нем работу. Методы ИАД могут, например, говорить о том, что женатые мужчины с детьми вдвое чаще водят автомобиль некоторой специфической модели, чем женатые мужчины без детей. Если вы— директор по маркетингу, эта информация может быть вам очень полезна.
ИАД использует статистические модели и модели обучения, чтобы предсказать поведение покупателя. ИАД помогает проводить маркетинговую компанию более точно и также проводить компанию более тесно с потребностями, нуждами и отношениями покупателей и потенциальных покупателей.
Если необходимая информация существует в базе данных, процесс ИАД может моделировать виртуально любую активность. Ключ заключается в том, чтобы найти образы, релевантные текущим проблемам бизнеса. Типичные вопросы, на которые дает ответ ИАД — это следующие: какие клиенты наиболее вероятно откажутся от обслуживания их сотовых телефонов. Какова вероятность, что покупатель приобретет по крайней мере на $100 товаров из конкретного каталога, присланного по почте? Какие потенциальные покупатели более вероятно реагируют на конкретное предложение? Ответ на эти вопросы может помочь сохранить покупателей и увеличить долю положительных ответов компании, что в свою очередь увеличивает покупки, кросс-продажи и отдачу от инвестиций (return on investment (ROI)).
В ИАД предсказание обеспечивается моделью, которая обычно называется score (значимость) (счет очков).
Значимость (обычно числовая величина) приписывается каждой записи в базе данных и указывает правдоподобие, что клиент, записи о котором была приписана значимость, проявит некоторое конкретное поведение.
Компании по предоставлению кредитных карточек могут обрабатывать свои огромные хранилища данных, чтобы идентифицировать клиентов, которые наиболее вероятно заинтересованы в новом кредитном продукте. Последние проекты указывают на более чем 20-кратное уменьшение почтовых расходов по сравнению с обычным подходом.
Диверсифицированная транспортная компания с большим объемом продаж может применить DM для идентификации наилучших перспектив для своих служб. Используя DM для анализа опыта собственных покупателей, компания может построить уникальную сегментацию, идентифицирующую атрибуты перспективных покупателей.
Компания оптовых перевозок может применить DM-технологию для оптимизации маршрутов перевозок.