Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
85
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 2. ФИЗИОЛОГИЧЕСКАЯ МОДЕЛЬ ВОСПРИЯТИЯ

47

можно изложить так, чтобы, действуя сообразно этим правилам, каждый раз получать требуемый результат.

Однако во многих случаях учитель, проводящий обучение, не может сформулировать правило, по кото­ рому он действует, и тогда первый способ обучения неприменим и обучение проводят на примерах. Так, нельзя указать четких правил для такого, казалось бы, простого случая, как различение рукописных знаков.

В этом случае при обучении пользуются вторым ме­ тодом. Обучающемуся показывают рукописные знаки и сооб­ щают, какие это буквы, т. е. к каким классам данные знаки относятся. В результате у ученика вырабатываются нуж­ ные понятия, он приобретает умение правильно относить каждую новую букву к тому или иному классу. Точно так же студентов-медиков учат диагностировать заболевания.

Возможность использования такого метода обучения определяется заложенным в человеке внутренним меха­ низмом построения правила, позволяющего распознавать нужные понятия.

§2. Физиологическая модель восприятия

В1957 году американский физиолог Ф. Розенблатт предпринял попытку технически реализовать физиологи­ ческую модель восприятия. Он исходил из предположения, что восприятие осуществляется сетью нейронов. Согласно распространенной и наиболее простой модели нейрона (модели Мак-Калока — Питса), нейрон — это нер­ вная клетка, которая име­

ет несколько входов —

 

 

дендритов и один выход —

 

 

аксон. Входы бывают либо

 

 

возбуждающие, либо тор­

 

 

мозящие. Нейрон возбуж­

 

 

дается и посылает импуль­

 

 

сы в том случае, если число

Рис. 1.

 

сигналов, пришедших по

 

 

возбуждающим входам, превосходит число сигналов, при­

 

шедших по тормозящим входам нейрона. Модель восприя­

 

тия состоит из рецепторного слоя S, слоя преобразующих ^

 

нейронов А и слоя реагирующих нейроЬов $г^И^біІЧная

і

 

* нау но-техза вэскея

]

» био;- тгѳня CCC i’ i

18

ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА

Внешнее раздражение воспринимается рецепторами. Каждый рецептор связан с одним или несколькими ней­ ронами преобразующего слоя, при этом каждый нейрон преобразующего слоя может быть связан с несколькими рецепторами.

Выходы преобразующих (ассоциативных) нейронов в свою очередь соединяются с входами нейронов третьего слоя. Нейроны этого слоя — реагирующие — тоже имеют несколько входов (дендритов) и один выход (аксон), кото­ рый возбуждается, если суммарная величина входных сиг­ налов превосходит порог срабатывания. Но в отличие от нейронов второго слоя, где суммируются сигналы с одним и тем же коэффициентом усиления (но, возможно, разными знаками), для реагирующих нейронов коэффициенты сум­ мирования различны по величине и, возможно, по знаку.

Каждый рецептор может находиться в одном из двух состояний: возбужденном или невозбужденном. В зависи­ мости от характера внешнего раздражения в рецепторном слое образуется тот или иной букет импульсов, который, распространяясь по нервным путям, достигает слоя преоб­ разующих нейронов. Здесь в соответствии с букетом при­ шедших импульсов образуется букет импульсов второго слоя, который поступает на входы реагирующих нейронов.

Восприятие какого-либо объекта определяется воз­ буждением соответствующего нейрона третьего слоя, при­ чем различным букетам импульсов рецепторного слоя мо­ жет соответствовать возбуждение одного и того же реаги­ рующего нейрона. Гипотеза как раз и состоит в том, что коэффициенты усиления реагирующего нейрона подобра­ ны так, чтобы в случае, когда объекты принадлежат к од­ ному классу, отвечающие им букеты импульсов возбуж­ дали бы один и тот же нейрон реагирующего слоя. Напри­ мер, наблюдая какой-нибудь предмет в разных ракурсах, человек отождествляет увиденное, так как каждый раз на различные внешние раздражения реагирует один и тот же нейрон, ответственный за узнавание этого предмета.

Среди огромного числа (порядка ІО10) нейронов чело­ века, обеспечивающих восприятие, лишь некоторая часть занята сформированными уже понятиями, другая служит для образования новых. Формирование нового понятия, по существу, заключается в установлении коэффициентов усиления реагирующего нейрона. Процесс установления

$ 3. ТЕХНИЧЕСКАЯ МОДЕЛЬ. ИЕРСЕНТРОН

19

коэффициентов усиления реагирующих нейронов в схеме описывается Розенблаттом в терминах поощрения и нака­ зания.

Предположим, что появился букет импульсов, соответ­ ствующий вновь вырабатываемому понятию. Если при его появлении нужный реагирующий нейрон не возбудился (пришедший сигнал не отнесен к данному понятию), то реагирующий нейрон «штрафуется»: коэффициенты усиле­ ния тех его входов, по которым проходил импульс, увели­ чиваются на единицу. Если нейрон правильно реагировал на пришедшие импульсы, то коэффициенты усиления не меняются. Если же окажется, что некоторый набор сигна­ лов будет ошибочно отнесен к данному понятию, то нейрон тоже «штрафуется»: в этом случае коэффициенты усиления тех входов, по которым пришел импульс, уменьшаются на единицу. Такая модель восприятия проста и может быть реализована на однородных элементах — пороговых эле­ ментах.

§ 3. Техническая модель. Персептрон

Пороговым называется элемент, имеющий п входов: ж1, ..., хп, и один выход у, причем сигнал на выходе у мо­ жет принимать только два значения, 0 и 1, и связан с вхо­ дами X1, ..., хп соотношением

[

I 1, если 2 К3? > Ьо,

у = *

7

( и )

О, если 2

. і=1

где Хп — коэффициенты усиления сигналов хг, ...

..., ж", а А,0 — величина порога срабатывания элемента. Моделью преобразующего нейрона может служить по­ роговый элемент, у которого Хг = + 1, а моделью реаги­ рующего нейрона служит пороговый элемент, у которого

коэффициенты К — некоторые настраиваемые числа. Техническую модель зрительного анализатора Розенб-

латт назвал персептроном (от слова «персепция» — восприятие). Первый, рецепторный слой 5 модели

20

ГЛ. I. ПЕРСПЕТРОН РОЗЕНБЛАТТА

Розенблатта состоял из набора 400 фотоэлементов, которые образовывали полз рецепторов (20 х 20). Сигнал с фотоэле­ ментов поступал на входы пороговых элементов—нейронов преобразующего слоя (элементов А). Всего в модели Ро­ зенблатта было 512 элементов. Каждый элемент А имел 10 входов, которые случайным образом были соединены с ре­ цепторами — фотоэлементами. Половина входов считалась тормозящими и имела коэффициент усиления — 1, а другая половина — возбуждающими с коэффициентом усиления 1. Порог срабатывания нейрона принимался равным нулю. Наконец, сигналы с выходов элементов А поступали на входы реагирующего нейрона — элемента R (см. рис. 1).

Персептрон предназначался для работы в двух режи­ мах: в режиме обучения и в режиме эксплуатации. В режи­ ме обучения у персептрона по описанному выше прин­ ципу вырабатывались величины коэффициентов Ях, ..., Хп реагирующих нейронов. В ходе эксплуатации персептрон классифицировал предъявленные ему ситуации: если воз­ буждался р-й реагирующий элемент и не возбуждались остальные Л-элементы, то ситуация относилась к р-му классу. Эта машина, получившая название «Марк-1», была создана для экспериментальной проверки способности персептрона образовывать понятия.

§ 4. Математическая модель

Появление машины, способной образовывать новые по­ нятия, оказалось чрезвычайно интересным не только для физиологов, но и для представителей других областей зна­ ний и в первую очередь для математиков. Ведь как только стала ясна схема будущей экспериментальной установки, персептрон перестал быть только техническим аналогом физиологического феномена, он стал математической мо­ делью процесса восприятия.

Определение закона образования нового понятия — вы­ работка коэффициентов усиления каждого из элементов R — означало задание алгоритма, решающего некоторую формальную задачу.

Идея персептрона была осуществлена технически в ма­ шине «Марк-1». Однако для моделирования процесса вос­ приятия вовсе нет необходимости строить специальную ма­ шину. Схема персептрона легко реализуется на ЦВМ, до-

§ 4. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ

21

статочпо написать соответствующую программу. В даль­ нейшем изучение феномена восприятия пошло по пути мо­ делирования обучающихся машин средствами ЦВМ, т. е. по пути создания обучающихся программ.

Обратимся к математической модели персептрона:

1.В рецепторном поле образуется сигнал, соответству­ ющий внешнему раздражителю, который изображается некоторым вектором х. Розенблатт отмечает, что каждое нервное окончание передает достаточно простой сигнал — либо посылает импульс, либо не посылает его. Это означа­ ет, что вектор X бинарный, т. е. его координаты могут при­ нимать только два значения: 0 и 1.

2.Букет импульсов распространяется до тех пор, пока

спомощью нейронов второго слоя не будет преобразован в новый букет импульсов (бинарный вектор х преобразуется в бинарный вектор у). Розенблатт уточняет характер пре­ образований у = / (х):

а) преобразование осуществляется пороговыми элемен­ тами;

б) входы преобразующих пороговых элементов соеди­ нены с рецепторами случайно.

3.Считается, что персептрон относит входной вектор к р-му понятию, если возбуждается р-й реагирующий нейрон и не возбуждаются другие реагирующие нейроны. Фор­

мально это означает,

что для вектора у = (у1,

ут) вы­

полняется

система неравенств:

 

 

2

МУ > о,

т

 

 

2 MjP <С 0

для всех t ф р.

г = 1

 

І = 1

 

 

В этих неравенствах М> •••>

— коэффициенты усиле­

ния f-ro реагирующего нейрона.

 

 

4.Формирование понятий в схеме Розенблатта сводится

кобразованию коэффициентов (весов) каждого из элемен­ тов R. Процедура построения весов элементов R такова.

Пусть к данному моменту существуют некоторые веса

элементов й и ..., ^ веса p-то элемента Rp. В момент времени х для классификации на вход персептрона посту­ пает сигнал, описываемый вектором хт. Вектор хт может

22

ГЛ. I. ПЕРСЕПТРОНРОЗЕНБЛАТТА

либо соответствовать понятию р, либо не соответствовать ему. Рассмотрим оба этих случая.

С л у ч а й п е р в ы й . Вектор х соответствует по­ нятию р. Тогда правильной реакцией элемента R p на сиг­ нал X должно быть возбуждение, т. е. должно выполнять­ ся неравенство

т

2 М У > о.

1=1

Если веса элемента R p обеспечивают правильную реак­ цию на вектор х, то они не меняются. Если же веса не обес­ печивают правильной реакции элемента R p, т. е. они тако­ вы, что

m

2 м у < о,

і = 1

то веса элемента R p изменяются по правилу

Я? (новое) = Xf (старое) + у1 (і = 1, 2, ..., т).

С л у ч а й в т о р о й . Вектор х не соответствует по­ нятию р. Тогда элемент R p не должен возбудиться, т. е. должно выполниться неравенство

т

2 М У С о.

І = 1

Если веса элемента R p обеспечивают правильную реак­ цию этого элемента на вектор х, то они не меняются. Если же веса элемента R p не обеспечивают правильной реак­ ции, т. е.

т

2 м у > о,

2=1

то веса Xf, ..., Я„ изменяются по правилу

Я? (новое) = Я? (старое) — у1 {і = 1, 2, .... т).

При обучении аналогично меняются веса всех элементов R персептрона.

i 5. ОБОБЩЕННАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ

23

§ 5. Обобщенная математическая модель

Ф. Розенблатт надеялся, что его персептрон моделиру­ ет существенные черты человеческого восприятия, в осо­ бенности восприятия зрительных образов. Он полагал, что персептрон легко можно будет обучить узнаванию одного и того же изображения независимо от масштаба изображе­ ния, существенных сдвигов его в рецепторном поле и дру­ гих преобразований, при которых человек относит изобра­ жение к одному и тому же понятию. Иными словами, пред­ полагалось, что персептрон будет узнавать предметы инвариантно по отношению к определенным группам пре­ образований.

В действительности же теоретические и эксперименталь­ ные исследования персептрона Ф. Розенблатта показали его неспособность к такому обобщению.

Последовали всевозможные усложнения схемы пер­ септрона. Строились персептроны с большим числом ней­ ронных слоев, допускалась настройка коэффициентов уси­ ления не только на верхнем слое, но и на промежуточных уровнях, предлагалось вводить перекрестные и обратные связи.

Теоретическое исследование таких сложных персептронных схем чрезвычайно затруднительно. На практике же при распознавании зрительных образов эти модели ока­ зались малоэффективными, в конце концов от них приш­ лось отказаться и пойти другим путем.

Основная идея нового направления состоит в том, что­ бы, опираясь на известные свойства зрительных образов, найти такую систему признаков или, общее, такой язык описания изображения, которые уже сами по себе обеспе­ чивают инвариантность по отношению к требуемым преоб­ разованиям. Таким образом, при построении обучающего­ ся устройства закладываются априорные сведения отно­ сительно того, по каким именно преобразованиям должна достигаться инвариантность.

Если предположить, что физиологическая модель чело­ веческого восприятия действительно аналогична персептрону, то следует допустить, что связи преобразующих А- элементов с рецепторами (а вероятнее, нескольких слоев таких элементов) отнюдь не случайны, а построены имен­ но так, чтобы обеспечить новое описание изображения,

24 ГЛ. I. ПЕРСЁПТРОН РОЗЁНВЛАТТА

содержащее уже требуемые инварианты. Математически эго означает, что преобразование

У = / (я)

таково, что среди координат вектора у есть такие, которые не меняются при определенных преобразованиях век­ тора X.

Возможно, что человек вовсе и не учится находить эти инварианты. Способность использовать их дана ему от рождения и заложена в «схеме» зрительного анализатора, возникшего в процессе эволюции. Во всяком случае экспе­ рименты с персептронами, где в процессе обучения выби­ ралось и отображение у = / (х), не доказали способности персептрона к выработке такого рода инвариантов.

Поэтому, оставляя в стороне вопрос о том, как устроено отображение, будем рассматривать более общую схему персептрона. Будем считать, что дано некоторое преобра­

зование у = / (х)

или, в координатной форме,

У1 =

Фі (*), •••, Ут = Ф™ (ж).

Здесь X — входной вектор, соответствующий исходному описанию объекта. Преобразование / (х) ставит ему в соот­ ветствие некоторое новое описание у. Это преобразование выбирается до начала обучения и может быть построено на основании известных сведений о природе данной задачи распознавания.

Координаты вектора у теперь в общем случае — дейст­ вительные числа, не обязательно 0 или 1.

Для простоты будем считать, что различаются всего два понятия. Тогда персептрон отнесет вектор х к первому понятию, если выполнится неравенство

т

 

2 * чФі (*)> 0,

(1.2)

І=1

 

а в противном случае — ко второму.

Такая схема имеет простую геометрическую интерпре­ тацию: в пространстве X задана гиперповерхность

т

 

2 Ѵ р і (х ) = о ,

(1-3)

І=1

§ 6. ТЕОРЕМА НОВИКОВА

25

которая делит пространство на два полупространства. Счи­ тается, что если вектор х находится по одну сторону от по­ верхности (это значит, что для него выполняется неравен­ ство (1.2)), то он соответст­ вует первому понятию, если же по другую от нее сторону, то второму. Та­ кие гиперповерхности на­ зываются разделяющими

(рис. 2).

Для образования ново­ го понятия надо построить соответствующую разделя­ ющую гиперповерхность. Каждой гиперповерхности

(1.3) пространства X в пространстве У с координатами у1 — (х), ..., ут= фт (X) соответствует гиперплоскость

2 Ку1= о.

(1.4)

Введение пространства У позволяет заменять рассмот­ рение разделяющих гиперповерхностей (1.3) разделяющи­ ми гиперплоскостями (1.4). Поэтому пространство векто­ ров Y получило название спрямляющего. В спрямляющем пространстве изучается следующая схема. Каждому объ­ екту ставится в соответствие вектор у = (у1,. .., ут). Этот вектор относится к первому классу, если он лежит по одну сторону от разделяющей гиперплоскости

ТП

2 = о,

і=1

и ко второму, если по другую.

§ 6. Теорема Новикова

Естественно, что первый же вопрос, который возник при изучении персептрона,— насколько эффективен пред­ ложенный Розенблаттом алгоритм построения разделяю­ щей гиперплоскости, т. е. всегда ли с помощью этого алго­ ритма может быть построена гиперплоскость, разделяющая

26

ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА

два

множества векторов уг, ..., у а и у ъ ..., у ь. Конечно,

имеются в виду случаи, когда такая гиперплоскость в принципе существует.

В 1960 году американский ученый А. Новиков показал, что если последовательность, составленную из всех эле­ ментов множеств уj, ..., у а и ух, ..., уь, предъявить персептрону достаточное число раз, то он, в конце концов, раз­ делит ее (конечно, если разделение с помощью гиперплос­ кости в принципе возможно). Это утверждение оказалось чрезвычайно важным для развития теории обучающихся программ. Использованные для его доказательства поня­ тия оказались полезными и при установлении более тон­ ких свойств алгоритмов обучения. Рассмотрим их под­ робнее.

Утверждение Новикова относится к случаю, когда в пространстве Y существует гиперплоскость, проходящая через начало координат и разделяющая два множества

векторов гд, ..., у аи гд, ...,

уь, т. е. когда существует такой

вектор А, что выполняются неравенства

 

і, А) > 0,

і

=

1,

2,

...,

я,

 

{Уи Л) < 0 ,

/

=

1,

2,

...

А

(1.5)

Здесь использовано обозначение

т

(у, Л) = 2 У%-

і=1

Рассмотрим множество W, состоящее из всех векторов Уі, ..., і/„и — уъ ..., — уь. Тогда система неравенств (1.5) примет вид

(у, Л) >■ 0 для всех у е= W.

Если обозначить

 

 

 

^ і’Л)

Р(Л)’

 

т ш

7ХГ =

 

а

 

ро,

 

sup р (Л) =

 

Л*о

 

 

 

то условие разделимости

векторов гд, ...,

у а и уѵ ..., уь

может быть формально выражено так: р0

0,

Соседние файлы в папке книги из ГПНТБ