- •Глава 5. Иис принятия решений в условиях неопределенности ириска
- •5.1. Методы ситуационного анализа и их роль в принятии решения
- •5.2. Оценка уровня риска и байесовский подход к ее уточнению
- •Инвестиционный портфель
- •Оценка портфельного риска
- •Классификация рисков при осуществлении сделок на рынке ценных бумаг
- •Современные подходы к выбору портфеля ценных бумаг. Особенности конформного подхода
- •Примеры оптимизации
- •5.3. Подход «среднее-дисперсия». Модель Марковитца
- •Эффективная граница
- •Бета и индекс модели. Индексная модель шарпа
- •5.4. Использование дерева решений с применением формулы Байеса
- •Диаграмма влияния
- •Структуризация диаграммы влияния
- •Знание, определяющее варианты решений, доступные в q
- •5.5. Распространение уверенности в деревьях
- •Механизм распространения
Знание, определяющее варианты решений, доступные в q

5.5. Распространение уверенности в деревьях
Байесовская сеть уверенности— ориентированный ациклический граф (ОАГ), в котором узлы представляют пропозициональные высказывания (или переменные), а дуги означают существование прямых причинных связей между смежными предложениями, а интенсивность этих связей определяется условной вероятностью каждой из переменных при условии известных значений вершин — родителей.
Сети такого рода могут быть использованы, чтобы представить порождение знаний экспертом в данной предметной области. Рассмотрим распространение влияния новой информации на изменение состояний узлов сети таким образом, -что когда восстановится равновесие, каждому предложению будет приписана мера уверенности, совместимая с аксиомами теории вероятностей. Рассмотрим также трудности, которые возникают при попытке применить методы теории вероятностей для обработки знаний эксперта.
Предположим, что знания представлены совместным распределением вероятностей Р(х1...,хn) на множестве пропозициональных переменных. Задача вывода следствий из наблюдений состоит в том, чтобы вычислить вероятности малого подмножества h1...,hk переменных, называемых гипотезами, обусловленных группой означенных переменных, называемых показаниями или свидетельствами. Тогда вычисление P(h1,...,hn/x1...,xn) является обычной вычислительной задачей.
Однако такая схема вычислений представляет весьма искаженную картину методов логического вывода человека. Рассмотрим, как закодировать произвольную плотность вероятности Р(х1...,хn) на компьютере. Если нам необходимо иметь дело с n предложениями, тогда чтобы запомнить Р(х1.. .,хn) в явном виде, нам необходимо иметь таблицу с 2 n элементами.
Вычисление маргинального распределения Р(хi) потребует суммирования P(x1,...xn) по всем 2n-1 комбинациям остальных n-1 переменных. Человек, в отличие от описанного, использует вероятностные суждения на малом числе предложений (главным образом, условных двухместных высказываниях) относительно зависимости или независимости двух суждений.
Предположим, мы решили представить наше понимание некоторой проблемы при помощи графа, в котором вершины представляют предложения и дуги связывают те предложения, которые мы рассматриваем как логически зависимые. Теперь мы хотим приписать дуге вес, который будет обозначать силу и тип зависимости между связанными предложениями. При этом мы встретимся с двумя проблемами — совместности и неполноты. Выберем произвольный порядок d на переменных х1,...,хn и запишем
![]()
В этой формуле каждый сомножитель содержит только одну переменную слева от черты. Предположим, нам дан ориентированный ациклический граф, в котором стрелки, указывающие на каждый узел, исходят из множества Si-родительских вершин, о которых говорят, что они непосредственно влияют на хi, и мы хотим указать силу этого влияния. Если под непосредственными родителями мы подразумеваем множество переменных, которые после того как мы зафиксируем их значения будут экранировать хi от влияния всех других предшественников xi (т.е. P(xi /Si) = Р{хi /х1.. .,xi-1).
Тогда формула подразумевает, что достаточно приписывать значения отношениям родитель-ребенок. Нам необходимо только заменить условные вероятности P(xi /Si ) некоторой функцией F(xt / Si ) и убедиться, что выполняются условия:

где суммирование простирается на все значения хi, причем
![]()
составляет совместное распределение вероятностей, которое поддерживает оцениваемые величины. Другими словами, если мы вычислим условные вероятности P(xi /Si), определяемые Р(х1...,хп), то исходные оценки F(xi /Si) будут восстановлены.

Например, граф зависимости рис. 5.6 будет иметь распределение вида
![]()
В экспертных системах вместо численного представления Р(х1...,хп) мы имеем только интуитивное понимание главных ограничений предметной области. В данном случае требуется, чтобы в дополнение к переменной xi эксперт указал множество £,• переменных, которые непосредственно влияют на хi.
После того как сеть уверенности или причинная сеть построена, ее можно использовать, чтобы представить знания в данной области, и она может быть использована для интерпретации конкретных исходных данных. Процесс интерпретации конкретных данных и вычисления их влияния на множество гипотез и наконец выбор наиболее вероятных гипотез.
В сети после поступления данных х апостериорная уверенность в А и В не связана более с P(A/B), но с Р(А/В,х), которая может быть совершенно иной. Это различие между Р(А/В,х) и Р(А/В) предполагает, что веса связи более не остаются фиксированными, но подвергаются постоянной регулировке по мере того, как поступают новые свидетельства. Процесс вывода должен идти не только сверху вниз, но и снизу вверх (диагностика).
Мы покажем, что когерентный и стабильный процесс может быть выполнен посредством локальных механизмов распространения. Таким образом, представим вершины графа в виде упорядоченного множества переменных х1,х2,...,хn, так что каждая переменная соответствует стрелке из подмножества Sj переменных, являющихся «непосредственными причинами» xj, т.е. Sj есть множество предшественников, удовлетворяющих P(xi/Sj) = Р(хi/хi,х2,...xi-1). Полное описание модели может быть получено спецификацией для каждого xi — величины P(xi/Si).
В случае независимых значений переменной х, распределение вероятностей для (х1,...,хn) может быть представлено в виде произведения одномерных плотностей условных вероятностей:
![]()
(5.5)
Байесовская сеть уверенности удовлетворяет следующему условию ОАГ- отделения: если все пути между xi и xj «заблокировать» подмножеством S переменных, тогда xi не зависит от xj, при условии, что даны значения переменных S.
Путь блокирован S, если он содержит элементы S, заключенные между двумя расходящимися или последовательными стрелками или, наоборот, содержит две стрелки, сходящиеся в узле хк, и ни хк, ни один из его нижестоящих узлов, не содержится в S. На рис. 5.6, например, х2 и х3 независимы, если даны либо {х1}, либо {х1,х4}. Как только построена байесовская сеть, она может быть использована как машина для интерпретации, а именно, вновь поступающая информация включается в параллельном виде в процесс распространения возбуждения по сети, которое движется по сети до устойчивого состояния, причем каждой переменной приписывается мера уверенности, совместимая с аксиомами исчисления вероятностей. Входящая информация может быть двух видов: специфические данные и виртуальные данные. Специфические данные соответствуют непосредственно наблюдаемым данным, которые подтверждают с определенностью значения некоторых переменных, приписанных сети. Виртуальные данные соответствуют суждениям, которые влияют на уверенность некоторых переменных в сети. Такие величины моделируются вспомогательными (dummy) вершинами, представляющими косвенные (undisclosed) наблюдения, связанными с переменными, на которые непосредственно воздействуют наблюдения.
Рис.
5.6.
Типичная байесовская сеть, представляющая
распределение
Р(Х1,...,Х„)

А2,..., Аn.
Каждая
ориентированная связь А
В квантифицируется фиксированнойматрицей
условной вероятности М(В/А) с элементами
М(В/А)ij=
P(Bj/Aj).
Обычно направленность стрелки обозначает,
что А представляет множество гипотез
о причинах и В — множество последствий
или проявлений этих гипотез.
Если В разделяет А и С, тогда это интерпретируется так, что А и С условно независимы при условии данного В по отношению к этому распределению. Интуитивно мы понимаем, что связь от А к В означает, что А непосредственно влияет на В или является причиной В. Концептуально априорное совместное распределение вероятностей для всех переменных в байесовском причинном дереве определяется априорным распределением вероятностей для самой верхней начальной вершины и вероятностями переходов от каждой вершины к ее сыновьям. Это априорное распределение может корректироваться и превращаться в апостериорное распределение по мере поступления значений конкретной переменной.
Ясно, что априорные вероятности для отдельных вершин могут быть получены поэтапно при движении по дереву шаг за шагом сверху вниз. Этот пошаговый процесс, очевидно, включает только локальные вычисления, мы движемся от каждой вершины к ее сыновьям, не учитывая совместное распределение для вершин, которые затрагивают большое количество вершин дерева. Перл показала, что апостериорные распределения для индивидуальных вершин могут быть получены аналогичным образом. Ниже мы предполагаем для простоты, что переменные, значения которых мы наблюдаем, представлены терминальными узлами.
Пример
5.1. Рассмотрим
ситуацию, когда некоторый совет на
основании мнений
группы экспертов рассматривает и
принимает решение по выбору одного из
трех вариантов инвестиционных проектов.
Пусть Ai,
i
= 1, 2, 3 представляет
проект, признанный советом лучшим, Bj,
j
= 1, 2, 3 проект, рекомендованный
группой экспертов, Сk
—
значения экономических характеристик
проектов, k
= 1, 2, 3. Пусть наша цель заключается в
предсказании решения
совета. Взаимосвязь между этими
категориями имеет вид А
В—>С.А
генерирует ожидаемые значения В, В
генерирует ожидаемые значения С, однако
А не имеет влияния на С, коль скоро нам
известно значение В. Чтобы описать
ситуацию, когда решение совета совпадает
с рекомендацией группы экспертов,
мы можем использовать матрицу

Таким образом, пусть 0,9 — вероятность того, что решение, принятое советом, совпадает с рекомендацией группы экспертов, 0,1 — вероятность того, их решения разойдутся. Пусть Ск — возможные категории (типы) экономических показателей. Чтобы представить зависимость между мнением группы экспертов и экономическими показателями вариантов инвестиционных проектов P(Ck/Bj), удовлетворяющую условию
![]()
Каждое правило в этой матрице представляет собою правило типа «если то»: «если группой экспертов был признан лучшим проект Bj, тогда ожидается, что значения экономических показателей будут принадлежать к категории Сk с надежностью P(Ck/Bj)».
Заметьте,
что стрелки в байесовской сети идут от
причин к следствиям, таким
образом обозначая ограничения физического
мира. Связь В
С
будет определять
относительную степень уверенности в
том, что каждый из проектов
может характеризоваться изучаемыми
экономическими показателями.
Например, заключение группы экспертов может иметь вид списка Р(Сs/В) = (0,80; 0,6; 0,50), который говорит о том, что с уверенностью 0,8 можно сказать, данные экономические показатели соответствуют проекту В1, с уверенностью 0,6 — проекту В2, с уверенностью 0,50 — проекту В3. Заметьте, что эти числа не обязательно в сумме должны составлять единицу.
Входная информация может быть двух видов: специфические свидетельства и виртуальные свидетельства. Специфические свидетельства соответствуют непосредственным наблюдениям. Виртуальные свидетельства являются свидетельствами, основанными на опосредованных наблюдениях.
Все поступающие свидетельства как специфические, так и виртуальные мы будем обозначать D (data), и они будут придавать значения переменным, соответствующим свидетельствам. Мы будем проводить различие между фиксированными условными вероятностями, которые маркируют связи, например, Р(А/В) и динамическими значениями редактируемых вероятностей узлов. Последние будут обозначаться ВЕL (Аi), что отражает полную веру, приписанную предложению А = Ai всеми данными, полученными до настоящего времени. Таким образом,
![]()
где D — комбинация значений всех означенных (инстанциированных) переменных.

Рис. 5.7. Фрагмент дерева,
иллюстрирующий разбиение данных.
Рассмотрим фрагмент дерева, представленный на рис.5.7. Уверенность в различных значениях В зависит от трех различных множеств данных, а именно: данных от дерева с корнем в В, от дерева с корнем в С и от дерева, которое расположено выше А. Однако поскольку А отделяет В от всех переменных за исключением тех, которые являются потомками В, влияние последних двух источников информации на В полностью учитывается их комбинированным эффектом на А.
Более строго: пусть DB обозначает данные, содержащиеся в дереве с корнем в В и DB — данные, содержащиеся в остальной части сети. Мы имеем:
(5.8)
которое также приводит к условной независимости
(5.9)
поскольку предложение С = Ск является частью DB+.
Предположим, мы хотим найти уверенность индуцируемую в В некоторыми данными
D
= DB+
DB+.
По теореме Байеса, учитывая (5,9), мы
получим:
(5.10)
где
—
нормализующая константа.
Формула (5.10) является обобщением формулы Байеса для бинарных переменных:
![]()
(5.11)

где — отношение правдоподобия (5.12)
![]()
- априорные шансы. (5.13)
В нашем примере пусть DB- представляет результаты изучения экономических показателей проектов, DB+ — представляет все другие факторы, учитываемые группой экспертов и советом. Таким образом, P(Bi/DB+) будет обозначать нашу априорную (до изучения экономических показателей) уверенность, что i-ый проект будет рекомендован группой экспертов и P(DB-/Bj) — будет представлять отчет, подготовленный группой экспертов. Приняв, как и ранее значение вектора P(DB-/B;) = (0,80; 0,60; 0,50) и предполагая, что мы имеем P(Bi/DB+) = (0,60; 0,30; 0,10), наша полная вера в утверждение В = Вi определяется соотношением:
BEL(B)=
P(DB-)P(B/DB+)=
(0,80; 0,60; 0,50)(0,60; 0,30; 0,10)=
(0,48; 0,18; 0,05).
Результат получен покомпонентным умножением векторов.
Равенство (5.10) обобщает (5.11) в двух направлениях. Во-первых, оно позволяет рассматривать небинарные переменные для случая, когда получение количественных оценок Р(х/h) часто представляет трудную интеллектуальную задачу, кроме того, нарушается условная независимость гипотез, т.е.
![]()
Во-вторых, она определяет некоторый эквивалент элемента априорной вероятности для каждой промежуточной вершины в дереве даже после получения некоторых входных данных.
В обычных схемах байесовского редактирования данных часто возможно рекурсивное использование апостериорных шансов по мере того как новые априорные данные поступили. Однако этот метод работает только в случае независимости входных данных, при условии редактируемой гипотезы h, и неприменим к сети, поскольку только те переменные, которые отделены oт других h, являются гарантированно условно независимыми.
Таким образом, значение формулы (5.10) в том, чтобы показать, что правило произведения, аналогичное (5.11), применимо к любой вершине в сеть без требования отделения априорных утверждений.
Однако мультипликативная роль априорной вероятности была приписана только той части дерева, которая находится выше редактируемой переменной, т.е. исключая данные, собираемые от нижестоящих вершин. Корень является единственной вершиной, которая требует оценки априорных вероятностей, и, поскольку она не имеет вершины выше, D+root следует интерпретировать как фундаментальные знания, которые остаются необъясненными.
Равенство (5.10) предполагает, что вероятностное распределение каждой переменной в сети может быть вычислено, если узлы, соответствующие этой переменной, содержат параметры:

(5.14)
(5.15)
(Вi)
—
представляет казуальную поддержку или
поддержку предвидения, прилагаемую
к Вi
предшественниками В,
и
(Вi)
представляет диагностическую
или ретроспективную поддержку Bi,
получаемую от нижестоящих вершин.
Полная схема веры в Вi
будет получена слиянием этих двух
поддержек через произведение
![]()

В — событие векторное В=(В1...,Вn)
Рис. 5.8. Поддерево графа
В
то время как два скалярных параметра
(E)
и O
(h)
были
достаточны для
бинарных переменных, n-значная
переменная необходима для двух
n-кортежей:
(5.16)
(5.17)
Чтобы показать, как информация от нескольких нижестоящих вершин сливается в узле В, заметим, что данные в (5.15) могут быть разделены на несвязные подмножества D1-, D2-, ..., Dm-, по одному на каждое поддерево, исходящее из В (общее число потомков равно m) (рис. 5.8).
П
оскольку
В «разделяет» эти поддеревья, выполняется
требование условной
независимости:
(5.18)
так
что
(Вi)
может быть сформировано как произведение
элементов P(Dk
-/Вi),
если они поступили на процессор В как
сообщения от вершин-детей. Например,
если в нашем примере с экономическими
показателями проектов P(D1-/B)=(0,80;
0,60; 0,50) и P(D2-/B)
= (0,30; 0,50; 0,90) представляет два отчета,
выпущенные двумя независимыми группами
экспертов, тогда сводный
диагностический отчет будет содержать
следующие оценки
(В), применимые к возможным состояниям
В:
![]()
(В)
= (0,60; 0,30; 0,10) дает итоговую уверенность
(веру):

(5.19)
Таким образом, мы видим, что в каждой вершине байесовского дерева слияние всех входящих данных является чисто мультипликативным.
