Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
GLAVA_2.DOC
Скачиваний:
75
Добавлен:
15.03.2015
Размер:
2.64 Mб
Скачать

2.1.2. Представление знаний с использованием байесовской сети доверия и

условная независимость событий

Рассмотрим фрагмент представления медицинской БЗ, в которой можно выделить заболевания, симптомы их проявления, а также факторы риска, влияющие на возник-новение заболеваний. Пусть некоторая упрощённая модель имеет вид:

Рис 2.4. Фрагмент медицинской БЗ на основе БСД.

Эта модель соответствует следующему набору медицинских знаний:

  • Одышка [o]может быть вследствие туберкулёза[t], рака лёгких[r]или бронхита[b], а также вследствие ни одного из перечисленных заболеваний или более, чем одного.

  • Визит в Азию [a]повышает шансы туберкулёза [t].

  • Курение [k]– фактор риска, как для рака[r], так и бронхита[b].

  • Результаты рентгена, определяя затемнённость в лёгких не позволяют различить рак [r]и туберкулёз[t], так же как не определяет факт наличия или отсутствия одышки [o].

Последний факт представляется в графе промежуточной переменной (событием) [t r]. Эта переменная соответствует логической функции «или» для двух родителей ([t]и[r]) и она означает наличие либо одной, либо двух болезней или их отсутствие.

Важное понятие байесовской сети доверия – это условная независимость случай-ных переменных, соответствующих вершинам графа.

Две переменные AиBявляются условно независимыми при данной третьей вершинеC, если при известном значенииC, значениеBне увеличивает информа-тивность о значенияхA, то естьp ( A  B, C ) = p ( A  C ).

Если имеется факт, что пациент курит, то мы устанавливаем наши доверия относительно рака и бронхита. Однако наши доверия относительно туберкулёза не изменяются. То есть условно не зависит, от [k]при данном пустом множестве переменныхp ( t  k ) = 0.

Поступления положительного результата рентгена пациента повышают наши доверия относительно туберкулёза и рака, но не относительно бронхита. То есть [b]– условно не зависит от[x]при данномk p ( t  x, k ) = p ( b  k ).

Однако, если бы знали также, что у пациента учащённое дыхание [o], то рентгеновские результаты также имели бы воздействие на наше доверие относительно бронхита. То есть[b]условно зависит от[x]при данныхo иk.

Логический вывод в байесовской сети доверия означает вычисление условных вероятностей для некоторых переменных при наличии информации (свидетельств) о других переменных. При этом для распространения вероятностей используется теорема Байеса.

      1. Процесс рассуждения в байесовских сетях доверия

Следует отметить, что следствием байесовской теоремы является то, что она поддерживает оценку графа в обоих направлениях. Процесс рассуждения в ЭС сопровождается распространением по сети вновь поступивших свидетельств.

Введение в байесовские сети доверия новых данных приводит к возникновению переходного процесса распространения по байесовской сети доверия вновь поступившего свидетельства. После завершения переходного процесса каждому высказыванию (ассоциированному с вершинами графа) приписывается апостериорная вероятность:

,

где D – объединения всех поступивших в систему данных;

Vji– композиционные высказывания, составленные из элементарных, то есть{значениеXiестьVji };

Xi– пропозиционные переменные (то есть переменные, значениями которых являются высказывания), определяющие состояние вершин байесовской сети доверия.

    1. Диаграммы влияния

Диаграммы влияния– это байесовские сети доверия, расширенные понятиямиполезности(utility)ирешения (decisions). Если байесовские сети доверия содержали только один тип вершин, которые мы назовём «вершинами шансов», и которые соответствовали состоянию случайных переменных, то в диаграммах влияния используются ещё, как минимум, два типа вершин:

  • «вершины решения», обозначаемые в диаграммах влияния прямоугольниками;

  • «вершины полезности», обозначаемые в диаграммах влияния в виде ромба;

Каждая вершина полезности задаёт локальную функцию полезности, которая свя-зывает каждую комбинацию состояний её родителей с полезностью. Общая функция полезности определяется как сумма локальных функций. Вершины полезности не имеют наследников (следовательно, стрелка может быть направлена только к ним).

Вершины решений содержат перечень альтернатив, комбинации которых зада-ют общее дерево решений. Временное старшинство при этом задаётся дугами сети:

  • стрелка от случайной переменной (вершины шансов) к переменной решения (вершине решения)

указывает, что значение случайной переменной известно на момент принятия решения;

  • стрелка от переменной решения к какой-либо другой переменной

указывает, что принятое решение влияет на состояния. случайной переменной или на значения локальной функции полезности.

При этом сеть должна оставаться ациклической.

Каждая вершина пользы (полезности) содержит функцию полезности, которая связывает каждую конфигурацию состояния её родителей с полезностью. Вершины полезности не имеют наследников( а, следовательно, стрелка может быть направлена только к ним - см. ниже )

Принимая решение мы исходим вероятности конфигурации сети. Поэтому можно вычислить ожидаемую полезность каждой альтернативы и выбрать альтернативу с наибольшей ожидаемой полезностью. Это принцип максимальной ожидаемой полезности.

Диаграмма влияния может содержать несколько вершин полезности. При этом общая функция полезности представляет собой сумму всех локальных функций полезности.

(2.3)

Процесс принятия решения с использованием диаграмм влияния будет осущест-вляться в следующем порядке:

  • после наблюдения значений переменных, которые являются родителями первой вершины решения мы хотим знать максимальную полезность для альтернатив;

  • ЭС вычислит эти полезности в предположении, что все будущие решения будут сделаны оптимально, используя все имеющиеся свидетельства в момент каждого решения.

Рассмотрим пример с небольшим числом переменных (вершин), но довольно-таки сложным взаимодействием между ними. Диаграмма влияния моделирующая процесс принятия решения о бурении нефтяной скважины будет иметь вид:

Нефтяники должны принять решение о бурении скважины. Предварительная экспертиза геологов выявила следующее распределение вероятности состояния нефтяного пласта:

P (H= «сухое») = 0,5 ; P (H= «влажное») = 0,3 ; P (H= «мокрое») = 0,2.

Однако решение о бурении может быть более точным, если предварительно провести дополнительную сейсморазведку, на которую надо затратить $10000. Её результатом будет геологическая структура участка: закрытая (хорошо), открытая (средняя), отсутствие (плохо).

Разведанная структура, наряду с состоянием нефтяного пласта определяет условные вероятности для результатов сейсмического теста по решению о бурении скважины:

Стоимость бурения$70000. Если принимается решение о бурении ожидаемый доход (то есть стоимость найденной нефти минус цена бурения) будет:

Таблица 2.5.

На основе приведённых данных и диаграммы влияния (см. выше) вычисляется полезность, связанная с сейсморазведкой – $22500 и полезность её непроведения –$20000. Таким образом оптимальной стратегией является: проведение разведки, а затем решение бурить или нет на основе полученных сейсмотестов.

2.3. Основные преимущества и недостатки байесовских сетей

Топологию байесовской сети можно рассматривать как абстрактную базу знаний, которая содержит целый ряд других установочных параметров, в виду того, что она представляет общую структуру причинных процессов в предметной области, а не специфические детали.

Байесовская сеть позволяет полностью описать предметную область. Каждый элемент, входящий в совместное распределение вероятностей, может быть вычис-лен, исходя из информации в сети. Вхождение объединенных элементов в единое целое — это вероятность конъюнкции конкретных значений переменных, т.е. каждое такое вхождение представляется функцией соответствующих элементов таблиц условных вероятностей байесовской сети. Значит, таблицы условных вероятностей обеспечивают разложение целого на составные части.

Основанная на причинно - следственных отношениях технология построения сети гарантирует, что сеть является нециклической.

Другое важное свойство байесовских сетей заключается в том, что они не содержат никаких избыточных значений вероятности, за исключением, возможно, одного вхождения в каждую строку каждой таблицы условных вероятностей. Это означает, что ни специалист по технике представления и использования знаний, ни эксперт не могут создать сеть доверия, которая бы нарушала аксиомы вероятности.

В тех случаях, когда предметная область хорошо изучена, известны аналитиче-ские зависимости, накоплен солидный багаж теоритических знаний, байесовские сети пердпочтительнее для решения задач распознавания образов, нежели ней-ронные сети, так как последние требуют обязательного формирования обучающей выборки, от величины объёма которой напрямую зависит точность будущих реше-ний. На основе байесовских сетей можно, не нарушая аксиом, реализовать гибкий логический вывод, когда система сама может устанавливать маршрут вывода опти-мальным образом. В нейронных же сетях маршрут вывода всегда устанавливается заранее и является неизменным. Однако, если информации о предметной области

недостаточно и она может быть получена опытным путём, то безусловно приме-нение нейронных сетей - лучший вариант.

Вместе с тем, определённым недостатком байесовских сетей считается огромное ко-

личество условных и априорных вероятностей, которые приходится устанавливать экс-пертам на этапе предварительного исследования предметной области, а также слож-ность вычислений апостериорных вероятностей при условно зависимых свидетель-ствах, тогда как предположение об условной независимости свидетельств снижает точность решения. В результате нашли широкое применение методы приближён-ных рассуждений, такие как , например, EMYCIN, в котором логическим посылкам приписываются коэффициенты определённости, на основании которых ведётся расчёт коэффициентов определённости вершин сети вывода, отображающих логи-ческие заключения. Сети выводаEMYCIN требуют от эксперта установления значи-тельно меньшего объёма количественных характеристик модели, чем байесовские сети, однако в отличие от последних не имееют столь прочного математического базиса, основываясь фактически на эвристике. Совершенствование вычислительных средств, разработка новых расчётных алгоритмов способствовали укреплению пози-

ций методов точного вероятностного рассуждения.

2.4. Байесовские сети как одно из направлений современных ЭС

Выбор байесовских сетей в качестве ЭС по сравнению с другими направлениями их построения обусловлен рядом причин.

  1. Логический вывод в байесовских сетях доверия является трактуемым с вычислительной точки зрения, так как теория, лежащая в его основе, имеет аксиоматическое обоснование, отработанное в течение последних десятилетий. В то время, как системы, основанные на теории нечётких множеств, на теории функций доверия, теории Демпстера - Шефера не имеет строгого математического обоснования и в большинстве случаев используют эвристические процедуры ( ЭС типа MYCIN, EMYCINи т.д.).

  2. Показано, что психологически проще выполнять субъективное вероятностное оценивание причинно-следственных связей.

  3. Несмотря на то, что теорию вероятности зачастую критикуют с точки зрения её использования в «знаниях», она не нарушает общих представлений о «замкнутом мире» объектов.

Одними из наиболее распространённых для современных ПЭВМ программных систем, реализующих теорию байесовских сетей доверия, являются:

  • MSBNфирмыMicrosoft

  • HuginфирмыHugin AIS, Дания

Приведём краткое описание системы Hugin.

Huginявляется программой реализацией системы принятия решений на основе байесовских сетей доверия. Имеет две версииProfessionalиExplorer и функционирует в средеOS Windows’95, Windows NT,а также имеет версиюUNIX.

Объём памяти, используемый при компилировании сети, зависит от числа вер-

шин, общего числа состояний и сложности структуры сети. Так сеть средней структурной сложности, содержащая около 500 вершин, требует до 20 Мб вирту-альной памяти.

Hugin Explorer имеет развитый интерфейс и позволяет достаточно просто создавать базы знаний и фактов. Использует два основных режима работы:

  1. режим редактирования и построения причинно-следственной сети, а также заполнения таблиц условных вероятностей, являющихся количественным описанием БЗ.

  2. режим расчёта вероятностных оценок для принятия решения по всем событиям, входящим в причинно-следственную сеть. Расчёты могут осуществляться как на основе классической теории Байеса, так и на основе методов теории возможностей.

Данная ИЭС имеет все основные функции любой информационной системы, включая такие как: хранение данных, вывод на принтер всех элементов ИЭС, диагностика ошибок в работе.

Hugin Explorer имеет бесплатную демо-версию, так называемую Hugin Light, обладающего всеми функциональными возможностями оригинала, но с наложен-ными ограничениями на общее число состояний и размер ТУВ вершин сети, не позволяющими решать какие-либо реальные задачи.

На рис. 2.6 и рис. 2.7 изображён вид главного окна приложения в режимах редактирования и расчёта сети соответственно.

Рис. 2.6. Окно Hugin Explorerв режиме редактирования.

Рис. 2.7. Окно Hugin Explorerв режиме расчёта.

Hugin Professional – это пакет, состоящий изHugin Runtime, обладающего всеми

функциональными возможностями Hugin Explorer, и библиотеки Hugin API, предна-значенной для встраиванияHugin-механизма вывода на базе байесовской сети в

проблемно - ориентированные прикладные программы: поставляется с С - программ-

ным интерфейсом и одним дополнительным интерфейсом на выбор из С ++ -,Java - и ActiveX- сервер для Visual Basic.

ИЭС Hugin может оперировать как с дискретными, так и с непрерывными случайными переменными, заданными вершинами сети. Однако при построении БСД, содержащих как непрерывные, так и дискретные причинно-следственные свя-зи, существует ряд ограничений:

1) дискретные переменные не могут иметь непрерывных родителей;

  1. непрерывные переменные должны иметь нормальный закон распределения, условный на значениях родителей;

  2. распределение непрерывной переменной Yс дискретными родителямиI и непрерывными родителямиZ является нормальным распределением

P( Y  I = i, Z = z ) = N( my (mi , mz ), y (i)), гдеmy линейно зависит от непрерывных родителей, аy не зависит от непре-рывных родителей. Однако иmy ,иyзависят от дискретных родителей. Это огра-ничение гарантирует возможность точного вывода.

Следует отметить, что перечисленные ограничения не позволяют решать серьёз-ные задачи с использованием непрерывных случайных переменных.

Ещё одно ограничение касается диаграмм влияния: в сети обязательно должен существовать путь, содержащий все вершины решения, что не позволяет задавать деревья решений, а позволяет только цепочки. В проектируемой системе данный недостаток планируется устранить.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]