Скачиваний:
99
Добавлен:
02.05.2014
Размер:
908.29 Кб
Скачать

Знание, определяющее варианты решений, доступные в q

5.5. Распространение уверенности в деревьях

Байесовская сеть уверенности— ориентированный ациклический граф (ОАГ), в котором узлы представляют пропозициональные высказывания (или переменные), а дуги означают существование прямых причинных свя­зей между смежными предложениями, а интенсивность этих связей опреде­ляется условной вероятностью каждой из переменных при условии извест­ных значений вершин — родителей.

Сети такого рода могут быть использованы, чтобы представить порожде­ние знаний экспертом в данной предметной области. Рассмотрим распро­странение влияния новой информации на изменение состояний узлов сети таким образом, -что когда восстановится равновесие, каждому предложению будет приписана мера уверенности, совместимая с аксиомами теории веро­ятностей. Рассмотрим также трудности, которые возникают при попытке применить методы теории вероятностей для обработки знаний эксперта.

Предположим, что знания представлены совместным распределением ве­роятностей Р(х1...,хn) на множестве пропозициональных переменных. Зада­ча вывода следствий из наблюдений состоит в том, чтобы вычислить вероят­ности малого подмножества h1...,hk переменных, называемых гипотезами, обусловленных группой означенных переменных, называемых показаниями или свидетельствами. Тогда вычисление P(h1,...,hn/x1...,xn) является обыч­ной вычислительной задачей.

Однако такая схема вычислений представляет весьма искаженную карти­ну методов логического вывода человека. Рассмотрим, как закодировать произвольную плотность вероятности Р(х1...,хn) на компьютере. Если нам необходимо иметь дело с n предложениями, тогда чтобы запомнить Р(х1.. .,хn) в явном виде, нам необходимо иметь таблицу с 2 n элементами.

Вычисление маргинального распределения Р(хi) потребует суммирования P(x1,...xn) по всем 2n-1 комбинациям остальных n-1 переменных. Человек, в отличие от описанного, использует вероятностные суждения на малом числе предложений (главным образом, условных двухместных высказываниях) относительно зависимости или независимости двух суждений.

Предположим, мы решили представить наше понимание некоторой про­блемы при помощи графа, в котором вершины представляют предложения и дуги связывают те предложения, которые мы рассматриваем как логически зависимые. Теперь мы хотим приписать дуге вес, который будет обозначать силу и тип зависимости между связанными предложениями. При этом мы встретимся с двумя проблемами — совместности и неполноты. Выберем произвольный порядок d на переменных х1,...,хn и запишем

В этой формуле каждый сомножитель содержит только одну переменную слева от черты. Предположим, нам дан ориентированный ациклический граф, в котором стрелки, указывающие на каждый узел, исходят из множест­ва Si-родительских вершин, о которых говорят, что они непосредственно влияют на хi, и мы хотим указать силу этого влияния. Если под непосредственными родителями мы подразумеваем множество переменных, которые после того как мы зафиксируем их значения будут экранировать хi от влия­ния всех других предшественников xi (т.е. P(xi /Si) = Р{хi 1.. .,xi-1).

Тогда формула подразумевает, что достаточно приписывать значения от­ношениям родитель-ребенок. Нам необходимо только заменить условные вероятности P(xi /Si ) некоторой функцией F(xt / Si ) и убедиться, что выполня­ются условия:

где суммирование простирается на все значения хi, причем

составляет совместное распределение вероятностей, которое поддерживает оцениваемые величины. Другими словами, если мы вычислим условные вероятности P(xi /Si), определяемые Р(х1...,хп), то исходные оценки F(xi /Si) будут восстановлены.

Например, граф зависимости рис. 5.6 будет иметь распределение вида

В экспертных системах вместо численного представления Р(х1...,хп) мы имеем только интуитивное понимание главных ограничений предметной области. В данном случае требуется, чтобы в дополнение к переменной xi эксперт указал множество £,• переменных, которые непосредственно влияют на хi.

После того как сеть уверенности или причинная сеть построена, ее мож­но использовать, чтобы представить знания в данной области, и она может быть использована для интерпретации конкретных исходных данных. Про­цесс интерпретации конкретных данных и вычисления их влияния на мно­жество гипотез и наконец выбор наиболее вероятных гипотез.

В сети после поступления данных х апостериорная уверенность в А и В не связана более с P(A/B), но с Р(А/В,х), которая может быть совершенно иной. Это различие между Р(А/В,х) и Р(А/В) предполагает, что веса связи более не остаются фиксированными, но подвергаются постоянной регули­ровке по мере того, как поступают новые свидетельства. Процесс вывода должен идти не только сверху вниз, но и снизу вверх (диагностика).

Мы покажем, что когерентный и стабильный процесс может быть выпол­нен посредством локальных механизмов распространения. Таким образом, представим вершины графа в виде упорядоченного множества переменных х12,...,хn, так что каждая переменная соответствует стрелке из подмножест­ва Sj переменных, являющихся «непосредственными причинами» xj, т.е. Sj есть множество предшественников, удовлетворяющих P(xi/Sj) = Р(хi/хi,х2,...xi-1). Полное описание модели может быть получено специфика­цией для каждого xi — величины P(xi/Si).

В случае независимых значений переменной х, распределение вероятно­стей для (х1,...,хn) может быть представлено в виде произведения одномер­ных плотностей условных вероятностей:

(5.5)

Байесовская сеть уверенности удовлетворяет следующему условию ОАГ- отделения: если все пути между xi и xj «заблокировать» подмножеством S переменных, тогда xi не зависит от xj, при условии, что даны значения переменных S.

Путь блокирован S, если он содержит элементы S, заключенные между двумя расходящимися или последовательными стрелками или, наоборот, содержит две стрелки, сходящиеся в узле хк, и ни хк, ни один из его нижестоящих узлов, не содержится в S. На рис. 5.6, например, х2 и х3 независимы, если даны либо {х1}, либо {х14}. Как только построена байесовская сеть, она может быть использована как машина для интерпретации, а именно, вновь поступающая информация включается в параллельном виде в процесс распространения возбуждения по сети, которое движется по сети до устой­чивого состояния, причем каждой переменной приписывается мера уверен­ности, совместимая с аксиомами исчисления вероятностей. Входящая ин­формация может быть двух видов: специфические данные и виртуальные данные. Специфические данные соответствуют непосредственно наблюдае­мым данным, которые подтверждают с определенностью значения некото­рых переменных, приписанных сети. Виртуальные данные соответствуют суждениям, которые влияют на уверенность некоторых переменных в сети. Такие величины моделируются вспомогательными (dummy) вершинами, представляющими косвенные (undisclosed) наблюдения, связанными с пере­менными, на которые непосредственно воздействуют наблюдения.

Рис. 5.6. Типичная байесовская сеть, представляющая распределение

Р(Х1,...,Х„)

Мы вначале рассмотрим сеть влия­ния в виде байесовского причинного дерева, т.е. граф, в котором каждый узел за исключением одного, называемого «корень», имеют только одну входящую связь. Мы допускаем, что каждый узел представляет многомерную случайную переменную, которая может представ­лять собрание взаимно исключающих гипотез (h1, h2,...,hm) или данные наблюдений В = (В1 В2.... ВП1) (например, объем прибыли: высокий, средний, низкий). Пусть переменные будут обозначаться заглавными буквами, например, А1,

А2,..., Аn.

Каждая ориентированная связь А В квантифицируется фиксированнойматрицей условной вероятности М(В/А) с элементами М(В/А)ij= P(Bj/Aj). Обычно направленность стрелки обозначает, что А представляет множество гипотез о причинах и В — множество последствий или проявлений этих гипотез.

Если В разделяет А и С, тогда это интерпретируется так, что А и С ус­ловно независимы при условии данного В по отношению к этому распреде­лению. Интуитивно мы понимаем, что связь от А к В означает, что А непосредственно влияет на В или является причиной В. Концептуально априорное совместное распределение вероятностей для всех переменных в байесовском причинном дереве определяется априорным распределением вероятностей для самой верхней начальной вершины и вероятностями переходов от каждой вершины к ее сыновьям. Это априорное распределение мо­жет корректироваться и превращаться в апостериорное распределение по мере поступления значений конкретной переменной.

Ясно, что априорные вероятности для отдельных вершин могут быть получены поэтапно при движении по дереву шаг за шагом сверху вниз. Этот пошаговый процесс, очевидно, включает только локальные вычисления, мы движемся от каждой вершины к ее сыновьям, не учитывая совместное распределение для вершин, которые затрагивают большое количество вершин дерева. Перл показала, что апостериорные распределения для индивидуальных вершин могут быть получены аналогичным образом. Ниже мы предпо­лагаем для простоты, что переменные, значения которых мы наблюдаем, представлены терминальными узлами.

Пример 5.1. Рассмотрим ситуацию, когда некоторый совет на основании мнений группы экспертов рассматривает и принимает решение по выбору одного из трех вариантов инвестиционных проектов. Пусть Ai, i = 1, 2, 3 представляет проект, признанный советом лучшим, Bj, j = 1, 2, 3 проект, рекомендованный группой экспертов, Сk — значения экономических характе­ристик проектов, k = 1, 2, 3. Пусть наша цель заключается в предсказании решения совета. Взаимосвязь между этими категориями имеет вид АВ—>С.А генерирует ожидаемые значения В, В генерирует ожидаемые значения С, однако А не имеет влияния на С, коль скоро нам известно значение В. Чтобы описать ситуацию, когда решение совета совпадает с рекомендацией группы экспертов, мы можем использовать матрицу

Таким образом, пусть 0,9 — вероятность того, что решение, принятое со­ветом, совпадает с рекомендацией группы экспертов, 0,1 — вероятность то­го, их решения разойдутся. Пусть Ск — возможные категории (типы) эконо­мических показателей. Чтобы представить зависимость между мнением группы экспертов и экономическими показателями вариантов инвестицион­ных проектов P(Ck/Bj), удовлетворяющую условию

Каждое правило в этой матрице представляет собою правило типа «если то»: «если группой экспертов был признан лучшим проект Bj, тогда ожида­ется, что значения экономических показателей будут принадлежать к кате­гории Сk с надежностью P(Ck/Bj)».

Заметьте, что стрелки в байесовской сети идут от причин к следствиям, таким образом обозначая ограничения физического мира. Связь В С будет определять относительную степень уверенности в том, что каждый из проектов может характеризоваться изучаемыми экономическими показателями.

Например, заключение группы экспертов может иметь вид списка Р(Сs/В) = (0,80; 0,6; 0,50), который говорит о том, что с уверенностью 0,8 можно ска­зать, данные экономические показатели соответствуют проекту В1, с уверен­ностью 0,6 — проекту В2, с уверенностью 0,50 — проекту В3. Заметьте, что эти числа не обязательно в сумме должны составлять единицу.

Входная информация может быть двух видов: специфические свидетельства и виртуальные свидетельства. Специфические свидетельства соответст­вуют непосредственным наблюдениям. Виртуальные свидетельства являют­ся свидетельствами, основанными на опосредованных наблюдениях.

Все поступающие свидетельства как специфические, так и виртуальные мы будем обозначать D (data), и они будут придавать значения переменным, соответствующим свидетельствам. Мы будем проводить различие между фиксированными условными вероятностями, которые маркируют связи, на­пример, Р(А/В) и динамическими значениями редактируемых вероятностей узлов. Последние будут обозначаться ВЕL (Аi), что отражает полную веру, приписанную предложению А = Ai всеми данными, полученными до на­стоящего времени. Таким образом,

где D — комбинация значений всех означенных (инстанциированных) пере­менных.

Рис. 5.7. Фрагмент дерева,

иллюстрирующий разбиение данных.

Рассмотрим фрагмент дерева, представлен­ный на рис.5.7. Уверенность в различных зна­чениях В зависит от трех различных множеств данных, а именно: данных от дерева с корнем в В, от дерева с корнем в С и от дерева, которое расположено выше А. Однако поскольку А отделяет В от всех переменных за исключени­ем тех, которые являются потомками В, влия­ние последних двух источников информации на В полностью учитывается их комбиниро­ванным эффектом на А.

Более строго: пусть DB обозначает данные, содержащиеся в дереве с корнем в В и DB — данные, содержащиеся в остальной части сети. Мы имеем:

(5.8)

которое также приводит к условной независимости

(5.9)

поскольку предложение С = Ск является частью DB+.

Предположим, мы хотим найти уверенность индуцируемую в В некоторыми данными

D = DB+ DB+. По теореме Байеса, учитывая (5,9), мы получим:

(5.10)

где — нормализующая константа.

Формула (5.10) является обобщением формулы Байеса для бинарных пе­ременных:

(5.11)

где — отношение правдоподобия (5.12)

- априорные шансы. (5.13)

В нашем примере пусть DB- представляет результаты изучения экономических показателей проектов, DB+ — представляет все другие факторы, учи­тываемые группой экспертов и советом. Таким образом, P(Bi/DB+) будет обо­значать нашу априорную (до изучения экономических показателей) уверен­ность, что i-ый проект будет рекомендован группой экспертов и P(DB-/Bj) — будет представлять отчет, подготовленный группой экспертов. Приняв, как и ранее значение вектора P(DB-/B;) = (0,80; 0,60; 0,50) и предполагая, что мы имеем P(Bi/DB+) = (0,60; 0,30; 0,10), наша полная вера в утверждение В = Вi определяется соотношением:

BEL(B)=P(DB-)P(B/DB+)=(0,80; 0,60; 0,50)(0,60; 0,30; 0,10)=(0,48; 0,18; 0,05).

Результат получен покомпонентным умножением векторов.

Равенство (5.10) обобщает (5.11) в двух направлениях. Во-первых, оно позволяет рассматривать небинарные переменные для случая, когда получение количественных оценок Р(х/h) часто представляет трудную интеллектуальную задачу, кроме того, нарушается условная независимость гипотез, т.е.

Во-вторых, она определяет некоторый эквивалент элемента априорной вероятности для каждой промежуточной вершины в дереве даже после получения некоторых входных данных.

В обычных схемах байесовского редактирования данных часто возможно рекурсивное использование апостериорных шансов по мере того как новые априорные данные поступили. Однако этот метод работает только в случае независимости входных данных, при условии редактируемой гипотезы h, и неприменим к сети, поскольку только те переменные, которые отделены oт других h, являются гарантированно условно независимыми.

Таким образом, значение формулы (5.10) в том, чтобы показать, что правило произведения, аналогичное (5.11), применимо к любой вершине в сеть без требования отделения априорных утверждений.

Однако мультипликативная роль априорной вероятности была припи­сана только той части дерева, которая находится выше редактируемой переменной, т.е. исключая данные, собираемые от нижестоящих вершин. Корень является единственной вершиной, которая требует оценки априорных вероятностей, и, поскольку она не имеет вершины выше, D+root следует интерпретировать как фундаментальные знания, которые остаются необъясненными.

Равенство (5.10) предполагает, что вероятностное распределение каждой переменной в сети может быть вычислено, если узлы, соответствующие этой переменной, содержат параметры:

(5.14)

(5.15)

i) — представляет казуальную поддержку или поддержку предвидения, прилагаемую к Вi предшественниками В, и i) представляет диагностическую или ретроспективную поддержку Bi, получаемую от нижестоящих вершин. Полная схема веры в Вi будет получена слиянием этих двух под­держек через произведение

В — событие векторное В=(В1...,Вn)

Рис. 5.8. Поддерево графа

В то время как два скалярных параметра (E) и O (h) были достаточны для бинарных переменных, n-значная переменная необходима для двух n-кортежей:

(5.16)

(5.17)

Чтобы показать, как информация от нескольких нижестоящих вершин сливается в узле В, заметим, что данные в (5.15) могут быть разделены на несвязные подмножества D1-, D2-, ..., Dm-, по одному на каждое поддерево, исходящее из В (общее число потомков равно m) (рис. 5.8).

Поскольку В «разделяет» эти поддеревья, выполняется требование условной независимости:

(5.18)

так что i) может быть сформировано как произведение элементов P(Dk -i), если они поступили на процессор В как сообщения от вершин-детей. Например, если в нашем примере с экономическими показателями проектов P(D1-/B)=(0,80; 0,60; 0,50) и P(D2-/B) = (0,30; 0,50; 0,90) представляет два отчета, выпущенные двумя независимыми группами экспертов, тогда сводный диагностический отчет будет содержать следующие оценки (В), при­менимые к возможным состояниям В:

Это в сочетании с ранее полученными данными казуальной поддержки (В) = (0,60; 0,30; 0,10) дает итоговую уверенность (веру):

(5.19)

Таким образом, мы видим, что в каждой вершине байесовского дерева слияние всех входящих данных является чисто мультипликативным.

Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.

Оставленные комментарии видны всем.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике