Скачиваний:
142
Добавлен:
02.05.2014
Размер:
836.61 Кб
Скачать

3.6. Байесовская сеть

Байесовская сеть — это направленный ациклический граф, в котором каждая вершина — случайная переменная Типичная байесовская сеть, использованная в нашем анализе показана на рис. 3.8.

В сети используется специальная структура для целей классификации; затем делаются рекомендации, основанные на уверенности, адаптируемой применительно к новым наблюдениям. Узел, в предсказании которого мы заинтересованы, обозначаем как к или первичный узел (прайм-узел). Другие переменные — это переменные, объясняющие профиль пользователя и обозначающиеся как X = (x1,x2,..-,xn) или полевые вершины (листья). Полевые вершины связаны согласно вероятностным соотношениям между ними. Вероятностная информация хранится в форме маргинальных распределений на прайм-вершинах и в виде условных распределений на полевых вершинах. Непосредственный доступ к р(/х) часто невозможен вследствие ограничений данных и памяти. Однако доступ к условной вероятности р(х/) и маргинальной вероятности р() получить легче путем анализа предварительно классифицированных обучающих данных.

Рис 3.8. Типичная байесовская сеть

После этого условные вероятности p(/x) могут быть вычислены применением правила Байеса. Как только создана байесовская сеть, можно предсказывать реакцию пользователя на предложение ТДП, основанное на доступной информации, описывающей поведение клиента. Исторически реализация байесовского классификатора в полном объеме нереализуема из-за необходимости обработки большого объема данных. Однако аппроксимация идеального байесовского классификатора путем использования модели байесовской сети возможна.

ARPI система, разработанная первоначально для обучения байесовской сетевой модели на очень больших наборах данных, представляет собою сие- ^ тему обучения машины с учителем. В ней применяется эвристическая аппроксимация полного байесовского классификатора в парадигме байесовской сети с использованием меры энтропии (взаимной информации) для выполнения отбора зависимостей. Чтобы получить полезную аппроксимацию полной структуры условных вероятностей, ARPI-система использует взаимную информацию как для отбора переменных, так и для отбора зависимостей. Этот подход позволяет уменьшить время обучения — существенный фактор при обработке больших наборов данных. Чтобы отбирать переменные и зависимости используются параметры Тx и Тхх, которые изменяются в интервале от 0 до 1 (диагональ матрицы — вес зависимости). Тхх — параметр для выбора зависимостей между полевыми вершинами; Тx — параметр для выбора переменных (полевых вершин). Тx и Тхх итеративно подбираются пользователем, чтобы достичь максимума различающей силы. ARPI конструирует графически байесовскую сеть за следующие четыре шага.

1. ARPI анализирует входную базу данных и определяет ее переменные. Если прайм-вершины хранят непрерывные величины, то определяется класс выходов либо посредством дискретизации, либо путем оценки ядра функции распределения. ARPI затем сканирует базу данных для идентификации выходных множеств данных для каждой переменной. Для непрерывных переменных либо оценивается ядро функции распределения, либо производится их дискретизация.

2. ARPI выбирает переменные, которые должны присутствовать в модели байесовской сети. Если взаимная информация между прайм-вершиной и любым другим узлом сети или I(,хi) равна нулю, это означает, что переменная хi не помогает классифицировать прайм-вершину. С другой стороны, I(,хi) будет принимать более высокое значение, если и хi, имеют функциональную взаимосвязь.

На этом основании отбираются переменные в порядке убывания взаимной информации, пока сумма взаимной информации отобранных переменных не превзойдет в Тx раз полную взаимную информацию.

  1. ARPI отбирает зависимости между переменными, отобранными на шаге 2; вычисляет условную взаимную информацию I(xi,xj/) между парами первоначально выбранных переменных. Эти связи-кандидаты ранжируются, и связи с наивысшим рангом отбираются, пока кумулятивное значение не превосходит в Тхх раз полную условную взаимную информацию. Направленность этих связей основывается на взаимной информации переменных, определенных на шаге 2, так что связь идет от переменной с более высоким рангом к переменной с менее высоким рангом.

  2. ARPI оценивает Рг(), Рг(хi/С(хi)), используя подсчет частот, где С(хi) представляет родителей вершины хi

Создание данных для обучения выполняется в три этапа:

  1. готовится набор данных для обучения байесовской сети по существующей базе данных (обработка данных);

  2. происходит обучение байесовской сети с использованием ARPI-модели (обучение модели);

  3. измеряется дискриминирующая способность модели байесовской сети обучения (оценка характеристик).

Для практического опробования данной методики использована база данных маркетинга AT&T, содержащая историю реакции клиентов на предложение тарифного дисконтного плана (ТДП), а также профили клиентов. Из базы данных «Маркетинг» отобраны 37124 предложений ТДП записей в течение 1995 года в определенном регионе. Предполагалось, что эти данные содержат хорошие предикторы, эффективно различающие тейкеров и нетейкеров предложений ТДП. Мы называем клиентов, приобретающих ТДП «тейкерами», а не приобретающих ТДП — «нетейкерами». Из 37124 клиентов в базе данных 26172 приобрели ТДП и 10952 не приобрели ТДП, т.е. априорная вероятность быть нетейкером составила 0,295.

База данных маркетинга в этом анализе содержала почти 300 переменных для каждого клиента, из них 30 переменных предварительно отобраны для создана набора данных, как наиболее релевантные переменные (полевые узлы). Из этих 30 переменных имелись непрерывные переменные (например, ежемесячное использование телефона в долларах) и категориальные переменные, например, географическое расположение, информация о датах. Информация — конкретный клиент, тейкер или нетейкер, — также включена в набор данных как двоичная переменная.

Подготовленный набор данных разделили на два различных набора данных: обучающий набор и экзаменационный набор (тестовый набор). Обучающий набор использован для создания байесовской сети обучения. Тестовые данные используются, чтобы оценить характеристики разработанной модели обучения

В нашем примере мы выбрали 90% набора данных для обучения и 10% для тестирования. Таким образом, обучающий набор содержит 33411 записей и тестовый набор содержал 3713 записей, причем вероятность быть нетейкером равнялась 29,5% для обоих наборов. В результате сконструирована байесовская сеть с 12 переменными и параметрами Тx = 0,95 и Тхх = 0,25.

Основываясь на модели байесовской сети обучения, для тестовых данных прогнозировалась вероятность быть нетейкером, т.е. специфичная информация о покупателе из тестовых данных была использована для распространения информации на байесовской сети и предсказания вероятности быть нетейкером Чтобы оценить вероятность предсказания необходимо измерить дискриминирующую силу. Тестовые данные были упорядочены в соответствии с оценкой вероятности быть нетейкером.

Для каждого дециля рассчитана средняя вероятность (3-я колонка таблицы 3). Затем число нетейкеров (4-я колонка в таблице 3 рассчитана для каждого дециля в упорядоченном наборе данных. 6-я колонка в таблице 3 рассчитана делением значения в 5-й колонке на 29.5%, чтобы показать степень дискриминации в каждом дециле. Кумулятивный индекс, показывающий процент охваченных нетейкеров также вычислен (7-я колонка в таблице 3). Если бы мы могли сделать совершенное дискриминирующее предсказание, все нетейкеры принадлежали бы к верхней части упорядоченного набора данных. Таблица 3 показывает, что для первого из децилей упорядоченного набора данных процент нетейкеров составляет 60% (таким образом, рост в сравнении с априорным значением (29,5%) составляет 203,8%). Эта таблица показывает, что почти 71% нетейкеров можно охватить вплоть до пятого дециля в упорядоченном наборе данных.

Байесовская модель обучения может быть использована для классификации, основанной на предсказании вероятности. Если классификация совершенна, легко рекомендовать оптимальное решение, основанное на нем. Т.е. если клиент классифицирован как нетейкер, тогда ему не предлагают ТДП, в противном случае — предлагают. В результате удается сберечь средства от неуспешного предложения. Следовательно, при наличии совершенной классификации, модель байесовской сети можно использовать непосредственно как систему поддержки решений. В реальности эта совершенная процедура вряд ли возможна. Лучше всего использовать предсказанную вероятность как вход процесса принятия решений, а не результаты классификации. Поскольку модель обучения байесовской сети основана на теории вероятностей, предсказанная вероятность может быть удачно связана с диаграммой влияния.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике