Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 391

.pdf
Скачиваний:
6
Добавлен:
30.04.2022
Размер:
1.12 Mб
Скачать

связей наряду с увеличением возможностей сети поднимает вопрос о динамической устойчивости сети; сложность алгоритмов функционирования сети (в том числе, например, введение нескольких типов синапсов – возбуждающих, тромозящих и др.) также способствует усилению мощи НС. Вопрос о необходимых и достаточных свойствах сети для решения того или иного рода задач представляет собой целое направление нейрокомпьютерной науки. Так как проблема синтеза НС сильно зависит от решаемой задачи, дать общие подробные рекомендации затруднительно. В большинстве случаев оптимальный вариант получается на основе интуитивного подбора.

Оригинальность нейросетей состоит в способности к обучению по примерам, составляющих обучающее множество. Процесс обучения нейросетей рассматривается как настраивание архитектуры и весовых коэффициентов синаптических связей в соответствии с данными обучающего множества так, чтобы эффективно решать поставленную задачу. Под обучением сети понимается итеративный процесс вычисления весов wi , позволяющих получать выходные

значения на сети с заданной точностью. Чтобы вычислить веса, необходимо иметь тестовые наборы значений входов и соответствующих им выходов. Такие наборы называются обучающей выборкой. Изменение значений весов может происходить с некоторым заданным шагом, либо по некоторому закону распределения случайной величины. Изменение происходит в направлении градиента в пространстве весов. Возможны две ситуации: через несколько шагов расчета сеть пришла в устойчивое состояние (веса wi шаг от шага не меняются), либо зациклилась. Один цикл

обучения называется эпохой. Способность решать конкретную задачу зависит от структуры сети (количества нейронов и видов связей), качества входных данных и мощности машины.

61

По результатам обучения выполняют контрастирование – удаление лишних элементов сети, не влияющих на решение.

Существуют три парадигмы обучения: "с учителем", "без учителя" (самообучение) и смешанная. В первом случае нейронная сеть располагает правильными ответами (выходами сети) на каждый входной пример. Веса настраиваются так, чтобы сеть производила ответы как можно более близкие к известным правильным ответам. Усиленный вариант обучения с учителем предполагает, что известна только критическая оценка правильности выхода нейронной сети, но не сами правильные значения выхода. Обучение без учителя не требует знания правильных ответов на каждый пример обучающей выборки. В этом случае раскрывается внутренняя структура данных или корреляции между образцами в системе данных, что позволяет распределить образцы по категориям. При смешанном обучении часть весов определяется посредством обучения с учителем, в то время как остальная получается с помощью самообучения.

Кроме того все множество различных алгоритмов обучения, делится на два больших класса: детерминистские и стохастические. В первом из них подстройка весов представляет собой жесткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу.

Теория обучения рассматривает три фундаментальных свойства, связанных с обучением по примерам: емкость, сложность образцов и вычислительная сложность. Под емкостью понимается, сколько образцов может запомнить сеть, и какие функции и границы принятия решений могут быть на ней сформированы. Сложность образцов определяет число обучающих примеров, необходимых для достижения способности сети к обобщению. Слишком малое число примеров может вызвать "переобученность" сети, когда она хорошо функционирует на примерах обучающей выборки, но плохо - на тестовых примерах, подчиненных тому же

62

статистическому распределению. Известны 4 основных типа правил обучения: коррекция по ошибке, машина Больцмана, правило Хебба и обучение методом соревнования.

При использовании правила коррекции по ошибке для каждого входного примера задан желаемый выход d. Реальный выход сети y может не совпадать с желаемым. В этом случае используется сигнал (d-y) для модификации весов, обеспечивающей постепенное уменьшение ошибки. Обучение имеет место только в случае, когда перцептрон ошибается. Известны различные модификации этого алгоритма обучения.

Хеббом была предложена модель обучения без учителя, в которой синаптическая сила (вес) возрастает, если активированы оба нейрона, источник и приемник. Таким образом, часто используемые пути в сети усиливаются и феномен привычки и обучения через повторение получает объяснение.

В искусственной нейронной сети, использующей обучение по Хэббу, наращивание весов определяется произведением уровней возбуждения передающего и принимающего нейронов. Это можно записать как

wij(n+1) = w(n) + αOUTi OUTj,

(7)

где wij(n) – значение веса от нейрона i к нейрону j до подстройки,

wij(n+1) – значение веса от нейрона i к нейрону j после подстройки, α – коэффициент скорости обучения,

OUTi – выход нейрона i и вход нейрона j, OUTj – выход нейрона j.

Обучение Больцмана представляет собой стохастическое правило обучения, которое следует из информационных теоретических и термодинамических принципов. Целью обучения Больцмана является такая

63

настройка весовых коэффициентов, при которой состояния видимых нейронов удовлетворяют желаемому распределению вероятностей. Обучение Больцмана может рассматриваться как специальный случай коррекции по ошибке, в котором под ошибкой понимается расхождение корреляций состояний в двух режимах .

При соревновательном обучении выходные нейроны соревнуются между собой за активизацию. Это явление известно как правило "победитель берет все". Подобное обучение имеет место в биологических нейронных сетях. Обучение посредством соревнования позволяет кластеризовать входные данные: подобные примеры группируются сетью в соответствии с корреляциями и представляются одним элементом.

При обучении модифицируются только веса "победившего" нейрона. Эффект этого правила достигается за счет такого изменения сохраненного в сети образца (вектора весов связей победившего нейрона), при котором он становится чуть ближе ко входному примеру. Сеть никогда не перестанет обучаться, если параметр скорости обучения не равен 0. Некоторый входной образец может активизировать другой выходной нейрон на последующих итерациях в процессе обучения. Система считается устойчивой, если ни один из примеров обучающей выборки не изменяет своей принадлежности к категории после конечного числа итераций обучающего процесса. Один из способов достижения стабильности состоит в постепенном уменьшении до 0 параметра скорости обучения. Однако это искусственное торможение обучения вызывает другую проблему, называемую пластичностью и связанную со способностью к адаптации к новым данным.

Практическое применение ИНС очень широко. Обученные сети реализуются аппаратно, в виде выполненных по специальному заказу микросхем и встраиваются в разнообразные изделия. ИНС в том или ином виде есть во всех

64

современных математических пакетах. Существует большое количество нейростимуляторов, выполненных отдельно. Однако, существуют и недостатки, например, недостаточное математическое обоснование (не всегда возможно объяснить, как работает та или иная сеть) или проблема информационной емкости сети.

2.7. Вероятностные методы

Широкий класс подходов использует в качестве меры близости альтернатив вероятностные оценки. Рассмотрим возможности использования теории вероятности для разработки баз знаний интеллектуальных систем и организации вывода.

Вероятность события классически определяется как отношение случаев в которых данное событие происходит к общему числу наблюдений. Однако возможны и другие определения. В настоящее время существует несколько интерпретаций теории вероятностей. Рассмотрим три наиболее доминирующих взгляда.

Объективистский взгляд. Заключается в том, что рассматривает вероятность отношения исходов ко всем наблюдениям в течении длительного времени. Другими словами этот подход основан на законе больших чисел, гарантирующим то, что при наличии достаточно большого количества наблюдений частота исходов, интересующего события будет стремиться к объективной вероятности.

Персонофицированный, субъективисткий или основанный на суждениях взгляд. Заключается в том, что вероятностная мера рассматривается как степень доверия того, как отдельная личность судит об истинности некоторого высказывания. Этот взгляд постулирует, что данная личность имеет в некотором смысле отношение к этому событию. Но это не отрицает возможности того, что две приемлемые личности могут иметь различные степени доверия для одного и того же

65

суждения. Термин “байесовкий” часто используется как синоним субъективной вероятности.

Необходимый или логический. Характеризуется тем, что вероятностная мера расширяется на множество утверждений, имеющих логическую связь такую, что истинность одного из них может выводиться из другого. Другими словами вероятность измеряет степень доказуемости логически выверенного заключения. Такой взгляд можно рассматривать как расширение обычной логики.

Эти вероятностные интерпретации используют и различные схемы вывода. Так как в интеллектуальных системах базы знаний накапливают человеческие знания, поэтому для представления знаний экспертов с учетом вероятностей наиболее подходящими являются интерпретация на основе субъективных доверий. В результате чего и большинство современных ЭС, использующих теорию вероятностей, являются “байесовскими”.

Рассмотрим некоторые фундаментальные понятия теории вероятностей. Пусть А - некоторое событие реального мира. Совокупность всех элементарных событий называется выборочным пространством или пространство событий ( ). Вероятность события А, обозначается р(А) и каждая вероятностная функция р должна удовлетворять трем

аксиомам:

 

 

1. Вероятность любого

события

А является

неотрицательной, т.е.:

 

 

p(A) 0 для

A

(7)

Вероятность всех событий выборочного пространства равна 1, т.е.:

p( ) 1.

(8)

3. Если k событий А1, А2, … , Аk являются взаимно независимыми (т.е. не могут подойти одновременно), то

66

вероятность, по крайней мере, одного из этих событий равна сумме отдельных вероятностей, или:

 

 

 

k

 

p(A1 A2 ...

Ak )

 

p(Ai)

(9)

 

 

 

i 1

 

Аксиомы 1 и 2 можно объединить, что дает:

 

1 p(A) 0

для

A .

(10)

Это утверждение показывает, что вероятность любого события находится между 0 и 1. По определению, когда р(А) = 0, то событие А никогда не произойдет. В том случае и когда р(А) = 1 , то событие А должно произойти обязательно.

Дополнение к А, обозначаемое (¬A), содержит совокупность всех событий в за исключением А. Т.к. А и ¬A являются взаимонезависимыми (т.е. А ¬A= то из

аксиомы 3 следует:

 

р(А) + р(¬A) = р(А ¬A) = р( ) = 1 .

(11)

Переписывая это равенство в виде р(¬A) = 1 – р(А), мы получает путь для получения р(¬A) из р(А).

Предположим теперь, что В некоторое другое событие. Тогда вероятность того, что произойдет А при условии, что произошло В записывается в виде р(А | B) и называется условной вероятностью события А при заданном событии В.

Вероятность того, что оба события А и В произойдут

р(А В) называется совместной вероятностью событий А и В.

Условная вероятность р(А|B) равна отношению совместной вероятности р(А В) к вероятности события В, при условии, что она не равна 0, т. е.:

p(A B)

p(A|B)

 

.

(12)

 

 

p(B)

 

Аналогично условная вероятность события В при условии А, обозначаемая р(В | А) равна:

67

p(B A)

p(B|A)

 

.

(13)

 

 

p(A)

 

и таким образом:

 

 

 

p(B A) p(B|A) p(A) .

(14)

Так, как совместная вероятность коммутативна (т.е. от перестановки мест сумма не меняется), то:

p(A B) p(B A) p(B|A) p(A) . (15)

Подставляя это равенство в ранее полученное выражение для условной вероятности р(А| В ) получим правило Байеса:

p(B|A) p(A)

p(A|B)

 

.

(16)

 

 

p(B)

 

В ряде случае наше знание того, что произошло событие В, не влияет на вероятность события А (или наоборот А на В). Другими словами, вероятность события А не зависит от того, что произошло или нет событие В, так что:

р(А | В) = р(А) и р(В | А) = р(В) .

(17)

В этом случае говорят, что события А и В являются независимыми.

Приведенные выше соотношения предполагают определенную связь между теорией вероятностей и теорией множеств. Если А и В являются непересекающимися множествами, то объединение множеств соответствует сумме вероятностей, а пересечение – произведению вероятностей, т.

е.:

68

 

р(А В) = р(А) + р(В)

и р(А В) = р(А) * р(В) (18)

Без предположения независимости эта связь является

неточной и формулы

должны

содержать

дополнительные

члены

включения

и

исключения

(так например,

р(А В)=р(А)+р(В)–р(А В) ). Продолжая теоретико – множественное обозначение В можно записать как:

В = ( В А) ( В ¬A)

(19)

Так как это объединение явно непересекающееся, то:

р(В)=р((В А) (В ¬A))=р(В А)+ р(В ¬A) = (20) = р(В|А) р(А) + р(В|¬A)р(В)

Возвращаясь к обозначению событий, а не множеств, последнее равенство может быть подставлено в правило Байеса:

p(B|A) p(A)

p(A|B)

 

.

(21)

 

 

p(B|A) p(A) P(B| A) p( A)

 

Это равенство является основой для использования теории вероятности в управлении неопределенностью. Оно обеспечивает путь для получения условной вероятности события В при условии А. Это соотношение позволяет интеллектуальным системам управлять неопределенностью и “делать вывод вперед и назад”.

Рассмотрим случай, когда все правила в интеллектуальной системе (например, экспертной системе) отражаются в форме: «Если < H является истинной > То < E будет наблюдаться с вероятностью р.

Очевидно, если H произошло, то это правило говорит о том, что событие E происходит с вероятностью p. Но что будет, если состояние H неизвестно, а E произошло? Использование

69

теоремы Байеса позволяет вычислить вероятность того, что H истинно. Замена «A» и «B» на «H» и «E» не существенна для формулы Байеса, но с её помощью мы можем покинуть общую теорию вероятности и перейти к анализу вероятностных вычислений в ЭС. В этом контексте:

H

событие,

заключающееся

в

том,

что

данная гипотеза верна;

 

 

 

 

E

событие,

заключающееся

в

том,

что

наступило определённое доказательство (свидетельство), которое может подтвердить правильность указанной гипотезы.

Переписывая формулу Байеса в терминах гипотез и свидетельств, получим:

p(H|E)

p(E|H) p(H)

 

. (22)

 

 

p(E|H) p(H) p(E| H) p( H)

Это равенство устанавливает связь гипотезы со свидетельством и, в то же время, наблюдаемого свидетельства с пока ещё не подтверждённой гипотезой. Эта интерпретация предполагает также определение априорной вероятности гипотезы p(H), назначаемой H до наблюдения или получения некоторого факта.

В экспертных системах вероятности, требуемые для решения некоторой проблемы, обеспечивается экспертами и запоминается в базе знаний. Эти вероятности включают:

-априорные вероятности всех возможных гипотез p(H);

-условные вероятности возникновения свидетельств при

условии существования каждой из гипотез p(E H).

Так, например, в медицинской диагностике эксперт должен задать априорные вероятности всех возможных болезней в некоторой медицинской области. Кроме того, должны быть определены условные вероятности проявления тех или иных симптомов при каждой из болезней. Условные вероятности должны быть получены для всех симптомов и

70