Скачиваний:
89
Добавлен:
02.05.2014
Размер:
836.61 Кб
Скачать
    1. Разработка прототипа системы поддержки решений

На рис. 3.9 показан прототип системы поддержки решений, основанной на диаграмме влияния, рекомендующей, должен ли агент осуществлять продвижение ТДП или нет. Как только модель байесовской сети предсказывает вероятность быть нетейкером. информация появляется на рис. 3.9 в овале «Предсказанная вероятность». Модель обучения байесовской сети предсказывает вероятность в непрерывной шкале. Позднее она дискретизируется для использования в выполнении рекомендаций. Узел «предсказанная вероятность» на рис. 3.9 связан динамически с моделью обучения байесовской сети.

Рис.3.9. Прототип системы поддержки принятия решений для продвижения ТДП

Событие быть фактически тейкером или нетейкером представлено в узле «Тейкер или нетейкер» при заданном узле «Предсказанная вероятность». Вероятность быть нетейкером калибруется, Hcrauib3yj фактическое отношение быть нетейкером в каждой дециле (5 колонка таблицы 3.3). Стрелка от узла «Предсказанная вероятность» к узлу решения «предлагать или нет клиенту услугу» означает, что предсказанная вероя-ность является доступной в момент решения.

В данной таблице значения в колонке 6 равны значениям в колонке 5, поделенным на 29,5%.

Узел «статус покупателя» представляет неопределенность того, что клиент может оставить AT&T в зависимости от того, предлагается или нет план ТДП и является ли в действительности клиент тейкером или нетейкером. Фактическая стоимость времени рекламной компании определяется соответствующей вершиной, соответственно тому, предлагается или нет ТДП и стоимостью проведения рекламы в расчете на один контакт.

Таблица 3. 3

Узел «ежемесячный уровень использования доллара» позволяет представить влияние дохода, связанного с решением. Функция ценности, которую мы хотим максимизировать, зависит от стоимости предложения и ожидаемого дохода клиентов.

В таблице 3.4, где суммированы результаты, касающиеся ТДП-продвижения, показано следующее: если среднемесячный пакет услуг, потребляемых клиентом, велик (больше, чем $х2/мес), тогда предлагайте ТДП независимо от предсказанной вероятности и стоимости предложения, поскольку потенциальный выигрыш от сохранения данного клиента перевешивает стоимость рекламной компании.

Таблица 3.4

Оптимальные рекомендации

Если ежемесячный пакет услуг, потребляемых клиентом, умеренный (от $x1 до $х2/мес), тогда:

  • предлагайте ТДП, когда стоимость предложения мала ($Y0;

  • предлагайте ТДП только тогда, когда стоимость предложения является умеренной и предсказанная вероятность (или вероятность быть нетейкером) меньше, чем z2;

  • не предлагайте ТДП, если стоимость рекламной компании высока ($Y3). Если ежемесячный пакет услуг, потребляемых клиентом, мал (меньше, чем $х1/мес), тогда предлагайте ТДП только тогда, когда стоимость предложения мала ($Y1) и предсказанная вероятность меньше, чем z1.

Эти рекомендации поясняют работу программы для системы поддержки решений. Например, если у некоторого конкретного клиента ежемесячный потребляемый пакет услуг велик, можно не беспокоиться о предсказании вероятности обучаемой моделью байесовской сети, но делать предложение все время. Если у конкретного клиента размер потребляемого пакета услуг мал, нужно воспользоваться предсказанием байесовской сети только в том случае, когда стоимость предложения мала.

В качестве второго примера успешного применения технологии Data Mining рассмотрим применение техники добычи данных для проблемы перекрестных продаж. В настоящее время в условиях жесткой конкуренции в области индустрии сервиса использование баз данных становится все более обычным делом. Базы данных о клиентах используются как для сохранения прежних клиентов, так и для привлечения новых. Большинство компаний предлагают более одной услуги или продукта, поскольку им известно больше об их существующих клиентах из данных, собранных о них. Предлагая клиентам продукты и услуги, которых у них ранее не было, компании рассматривают это как способ достижения быстрого увеличения прибылей.

Использовались следующие признаки клиента:

  • Household Insurance — страхование домовладения;

  • Mortrage Protection — страхование ипотечного кредитования;

  • Idemnity Bond — долговременное обязательство;

  • Commercial Contents Insurance — страхование коммерческих сделок.

«Перекрестные продажи» — это термин, означающий попытку продать продукт существующему клиенту компании, причем этот клиент не является в настоящее время покупателем такого продукта или потребителем такой услуги.

Проблема в том, чтобы, анализируя базу данных клиентов, выяснить, какая категория клиентов может стать покупателем нового продукта. Техника автоматического анализа может выявить полезные знания, которые помогут эксперту решить проблему.

Рассмотрим следующий сценарий. Банк хочет продвинуть на рынок продукт А существующим клиентам, которые не являются в настоящее время покупателями продукта А. В базе данных клиентов банк имеет два типа клиентов:

Клиенты типа 1: имеют продукт А.

Клиенты типа 2: не имеют продукт типа А.

На первый взгляд, это похоже на проблему классификации, однако для классификации необходимо иметь три типа покупателей:

  • клиенты типа 1 — имеют продукт А,

  • клиенты типа 2 — отказались покупать продукт А,

  • клиенты типа 3 — не имеют продукта А и не отказывались его приобретать.

Первый тип клиентов составляет положительные примеры, второй — отрицательные примеры и третий тип составляет целевое множество данных. Для нашей проблемы мы имеем только положительные примеры и целевое множество данных. Таким образом, нам скорее необходим не алгоритм классификации, а алгоритм ассоциации, чтобы открыть характеристические правила, определяющие характеристики, преобладающие в некоторой группе записей, описывающих клиентов, имеющих продукт А. При наличии таких правил, клиенты в целевом наборе данных с аналогичными характеристиками могут явиться целью кампании по продвижению товара. Характеристические правила в отличие от правил классификации обладают способностью объяснять эксперту в предметной области, как работают их бизнес-планы в реальном мире.

Основываясь на открытых знаниях, эксперты могут интенсифицировать свои усилия для проведения рекламной кампании среди клиентов. Следующая стадия процесса перекрестных продаж — использование правил. Работа выполнялась в сотрудничестве с финансовыми институтами в Исландии над проектом, включающим кросс-продажи.

Поиск характеристических правил для клиентов, определяющих тип потенциальных покупателей, осуществлялся путем отбора из базы данных 100000 записей. Каждая из них содержала свыше 80 атрибутов для каждого клиента. Атрибуты включают персональные данные клиентов (возраст, семейное положение, род занятий), а также сведения о продуктах и услугах, приобретаемых клиентом.

Алгоритм извлечения знаний основывается на алгоритме «Правило ассоциации свидетельств» (ПАС) (Evidence Based Association Rule). В дополнение к простым синтаксическим ограничениям алгоритм позволяет обнаруживать и в дальнейшем включать ограничения зависимостей атрибутов (Attribute Dependency Constraints). Например, правило, которое содержит выражение, относящееся к типу СЧЕТ. В дополнение к этому, алгоритм ПАС может открывать знания для многозначных атрибутов, а не только для бинарных атрибутов. Он может обрабатывать также пропущенные значения. Алгоритм ПАС требует, чтобы значения атрибутов были дискретны. Поэтому границы интервалов дискретизации для атрибутов предоставляются экспертами в предметной области. Кроме того, специалисты в предметной области обеспечивают иерархию значений домена для некоторых атрибутов (иерархические классификаторы). Для каждого продукта или вида услуг из файла информации о покупателе извлекается положительное подмножество записей, т.е. записи, соответствующие покупателю, приобретшему продукт. Каждое из этих подмножеств анализировалось по отдельности, чтобы открыть характеристические правила для соответствующего продукта.

Число характеристических правил, открытых алгоритмом, может контролироваться с помощью порогового значения минимальной поддержки, при которой правило может оказаться полезным. Чем выше этот порог, тем меньшее количество правил обнаруживается. Вначале устанавливалось высокое значение порога; а затем итеративно оно снижалось и отбирались атрибуты, которые казались интересными на предыдущей итерации.

Характеристические правила описывают множества данных, состоящие из множества положительных примеров. Важной проблемой является отсев генерируемых правил с использованием иерархического классификатора и связей атрибутов. Мера полезности правила зависит обычно от характера проблемы. Мы использовали в качестве меры значимости отклонение характеристических правил для целевого продукта от нормы. «Нормой» в нашем случае является величина поддержки этих характеристик в базе данных целиком.

Таким образом, мы определяем полезность характеристики С:

где Sp — поддержка характеристики С в положительных примерах базы данных, So — поддержка характеристики в полной базе данных. Выражение max{So, Sp} называется нормализующим фактором, поскольку он нормализует меру полезности в интервале [-1, 1].

Рассмотрим следующий пример правила, открытого в базе данных:

IF HOUSEHOLD INSURANCE = Y

THEN MARITAL STATUS = M AND JOINT CONSUMER = Y

AND COMMISION AGENT = NO BROKER

WITH SUPPORT = 68,3% AND INTEREST = 0,194,

а также правило

IF HOUSEHOLD INSURANCE = Y

THEN MARITAL STATUS = S

AND JOINT CONSUMER = N

AND COMMISION AGENT = NO BROKER WITH SUPPORT 21,3% AND

INTEREST =-0,251.

Первое правило гласит: 61,3% клиентов, имеющих страховку домовладения, женаты/замужем, имеют совместный счет, приобрели свою страховку непосредственно в финансовом учреждении. Мера полезности вычислена как разность между этим значением и поддержкой этих характеристик в пределах полной базы данных покупателей, поделенное на 68,3% — нормализующий коэффициент полезности. Следовательно, только 55,02% записей полной базы данных удовлетворяет этим характеристикам.

Рис 3.10. Перекрестное продажи с использованием добычи данных

Второе правило констатирует: 21,3% держателей Household Insurance — страхование домовладения являются одинокими, не имеющими Joint account (совместного счета), а приобрели свою страховку непосредственно в финансовом учреждении. В этом случае 28,44% записей базы данных удовлетворяет этим условиям. Вывод, который можно сделать из двух этих правил: почтовые предложения по страхованию домовладения дают больший эффект для женатых клиентов, имеющих совместный счет в сравнении с одинокими клиентами, не имеющими совместного счета Это может иметь место вследствие того способа, которым предполагается страхование домовладения, что делает его менее привлекательным для одиноких клиентов.

Рассмотрим вопросы дискретизации для трех различных типов атрибутов: дискретные неупорядоченные атрибуты, дискретные упорядоченные атрибуты, непрерывные атрибуты.

Дискретные неупорядоченные атрибуты. Рассмотрим почтовые коды, не имеющие определенного упорядочения в силу своей природы. Однако основываясь на знании предметной области, можно наложить географическую структуру на них. Далее можно искать зависимости в пределах таких географических или территориальных объединений (или других группировок), вытекающих из иерархического классификатора.

Дискретные упорядоченные атрибуты. Шаг дискретизации может быть определен последовательным укрупнением интервалов по мере выявления значимых зависимостей.

Непрерывные атрибуты. Рассмотрим в качестве примера рис. 3.11. Из рис. 3.11 видно, что оптимальные интервалы [0, 2000], [2001,18000], [18000, 28000.

Рис 3.11. Адаптивная дискретизация непрерывных переменных

В частности, путем нахождения подходящих интервалов было найдено следующее правило:

IF HOUSEHOLD INSURANCE = Y

THEN AGE = [22,37] AND FAMILY JNCOME_PROTECTION = Y

WITH SUPPORT = 39,11% AND ITEREST = 0,971.

Рассмотрим теперь добычу данных применительно к выбору регрессионной модели. Алгоритм добычи данных должен комбинировать две процедуры — одна состоит в генерировании гипотез и вторая — в тестировании гипотез на значимость (полезность). Отбор наилучших моделей по некоторой мере их «интересное™» называется их интересностъ-филътрацией Очевидно, полный перебор неэффективен, так как надо перебирать подмножества при наличии сотен или тысяч переменных. Множественная регрессия — обычный метод испытания гипотез, выраженных в виде функций. Уровень продаж часто предсказывается при помощи модели множественной экспоненциальной регрессии. В то время как испытание гипотезы с множественной регрессией и подгонка функции регрессии к данным является хорошо определенной процедурой, поиск хорошей или даже лучшей гипотезы не является тривиальным.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике