
книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf§ 2. ФИЗИОЛОГИЧЕСКАЯ МОДЕЛЬ ВОСПРИЯТИЯ |
47 |
можно изложить так, чтобы, действуя сообразно этим правилам, каждый раз получать требуемый результат.
Однако во многих случаях учитель, проводящий обучение, не может сформулировать правило, по кото рому он действует, и тогда первый способ обучения неприменим и обучение проводят на примерах. Так, нельзя указать четких правил для такого, казалось бы, простого случая, как различение рукописных знаков.
В этом случае при обучении пользуются вторым ме тодом. Обучающемуся показывают рукописные знаки и сооб щают, какие это буквы, т. е. к каким классам данные знаки относятся. В результате у ученика вырабатываются нуж ные понятия, он приобретает умение правильно относить каждую новую букву к тому или иному классу. Точно так же студентов-медиков учат диагностировать заболевания.
Возможность использования такого метода обучения определяется заложенным в человеке внутренним меха низмом построения правила, позволяющего распознавать нужные понятия.
§2. Физиологическая модель восприятия
В1957 году американский физиолог Ф. Розенблатт предпринял попытку технически реализовать физиологи ческую модель восприятия. Он исходил из предположения, что восприятие осуществляется сетью нейронов. Согласно распространенной и наиболее простой модели нейрона (модели Мак-Калока — Питса), нейрон — это нер вная клетка, которая име
ет несколько входов — |
|
|
дендритов и один выход — |
|
|
аксон. Входы бывают либо |
|
|
возбуждающие, либо тор |
|
|
мозящие. Нейрон возбуж |
|
|
дается и посылает импуль |
|
|
сы в том случае, если число |
Рис. 1. |
|
сигналов, пришедших по |
|
|
возбуждающим входам, превосходит число сигналов, при |
|
|
шедших по тормозящим входам нейрона. Модель восприя |
|
|
тия состоит из рецепторного слоя S, слоя преобразующих ^ |
|
|
нейронов А и слоя реагирующих нейроЬов $г^И^біІЧная |
і |
|
|
* нау но-техза вэскея |
] |
» био;- тгѳня CCC i’ i
18 |
ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА |
Внешнее раздражение воспринимается рецепторами. Каждый рецептор связан с одним или несколькими ней ронами преобразующего слоя, при этом каждый нейрон преобразующего слоя может быть связан с несколькими рецепторами.
Выходы преобразующих (ассоциативных) нейронов в свою очередь соединяются с входами нейронов третьего слоя. Нейроны этого слоя — реагирующие — тоже имеют несколько входов (дендритов) и один выход (аксон), кото рый возбуждается, если суммарная величина входных сиг налов превосходит порог срабатывания. Но в отличие от нейронов второго слоя, где суммируются сигналы с одним и тем же коэффициентом усиления (но, возможно, разными знаками), для реагирующих нейронов коэффициенты сум мирования различны по величине и, возможно, по знаку.
Каждый рецептор может находиться в одном из двух состояний: возбужденном или невозбужденном. В зависи мости от характера внешнего раздражения в рецепторном слое образуется тот или иной букет импульсов, который, распространяясь по нервным путям, достигает слоя преоб разующих нейронов. Здесь в соответствии с букетом при шедших импульсов образуется букет импульсов второго слоя, который поступает на входы реагирующих нейронов.
Восприятие какого-либо объекта определяется воз буждением соответствующего нейрона третьего слоя, при чем различным букетам импульсов рецепторного слоя мо жет соответствовать возбуждение одного и того же реаги рующего нейрона. Гипотеза как раз и состоит в том, что коэффициенты усиления реагирующего нейрона подобра ны так, чтобы в случае, когда объекты принадлежат к од ному классу, отвечающие им букеты импульсов возбуж дали бы один и тот же нейрон реагирующего слоя. Напри мер, наблюдая какой-нибудь предмет в разных ракурсах, человек отождествляет увиденное, так как каждый раз на различные внешние раздражения реагирует один и тот же нейрон, ответственный за узнавание этого предмета.
Среди огромного числа (порядка ІО10) нейронов чело века, обеспечивающих восприятие, лишь некоторая часть занята сформированными уже понятиями, другая служит для образования новых. Формирование нового понятия, по существу, заключается в установлении коэффициентов усиления реагирующего нейрона. Процесс установления
$ 3. ТЕХНИЧЕСКАЯ МОДЕЛЬ. ИЕРСЕНТРОН |
19 |
коэффициентов усиления реагирующих нейронов в схеме описывается Розенблаттом в терминах поощрения и нака зания.
Предположим, что появился букет импульсов, соответ ствующий вновь вырабатываемому понятию. Если при его появлении нужный реагирующий нейрон не возбудился (пришедший сигнал не отнесен к данному понятию), то реагирующий нейрон «штрафуется»: коэффициенты усиле ния тех его входов, по которым проходил импульс, увели чиваются на единицу. Если нейрон правильно реагировал на пришедшие импульсы, то коэффициенты усиления не меняются. Если же окажется, что некоторый набор сигна лов будет ошибочно отнесен к данному понятию, то нейрон тоже «штрафуется»: в этом случае коэффициенты усиления тех входов, по которым пришел импульс, уменьшаются на единицу. Такая модель восприятия проста и может быть реализована на однородных элементах — пороговых эле ментах.
§ 3. Техническая модель. Персептрон
Пороговым называется элемент, имеющий п входов: ж1, ..., хп, и один выход у, причем сигнал на выходе у мо жет принимать только два значения, 0 и 1, и связан с вхо дами X1, ..., хп соотношением
[
I 1, если 2 К3? > Ьо,
у = * |
7 |
( и ) |
О, если 2
. і=1
где Хп — коэффициенты усиления сигналов хг, ...
..., ж", а А,0 — величина порога срабатывания элемента. Моделью преобразующего нейрона может служить по роговый элемент, у которого Хг = + 1, а моделью реаги рующего нейрона служит пороговый элемент, у которого
коэффициенты К — некоторые настраиваемые числа. Техническую модель зрительного анализатора Розенб-
латт назвал персептроном (от слова «персепция» — восприятие). Первый, рецепторный слой 5 модели
20 |
ГЛ. I. ПЕРСПЕТРОН РОЗЕНБЛАТТА |
Розенблатта состоял из набора 400 фотоэлементов, которые образовывали полз рецепторов (20 х 20). Сигнал с фотоэле ментов поступал на входы пороговых элементов—нейронов преобразующего слоя (элементов А). Всего в модели Ро зенблатта было 512 элементов. Каждый элемент А имел 10 входов, которые случайным образом были соединены с ре цепторами — фотоэлементами. Половина входов считалась тормозящими и имела коэффициент усиления — 1, а другая половина — возбуждающими с коэффициентом усиления 1. Порог срабатывания нейрона принимался равным нулю. Наконец, сигналы с выходов элементов А поступали на входы реагирующего нейрона — элемента R (см. рис. 1).
Персептрон предназначался для работы в двух режи мах: в режиме обучения и в режиме эксплуатации. В режи ме обучения у персептрона по описанному выше прин ципу вырабатывались величины коэффициентов Ях, ..., Хп реагирующих нейронов. В ходе эксплуатации персептрон классифицировал предъявленные ему ситуации: если воз буждался р-й реагирующий элемент и не возбуждались остальные Л-элементы, то ситуация относилась к р-му классу. Эта машина, получившая название «Марк-1», была создана для экспериментальной проверки способности персептрона образовывать понятия.
§ 4. Математическая модель
Появление машины, способной образовывать новые по нятия, оказалось чрезвычайно интересным не только для физиологов, но и для представителей других областей зна ний и в первую очередь для математиков. Ведь как только стала ясна схема будущей экспериментальной установки, персептрон перестал быть только техническим аналогом физиологического феномена, он стал математической мо делью процесса восприятия.
Определение закона образования нового понятия — вы работка коэффициентов усиления каждого из элементов R — означало задание алгоритма, решающего некоторую формальную задачу.
Идея персептрона была осуществлена технически в ма шине «Марк-1». Однако для моделирования процесса вос приятия вовсе нет необходимости строить специальную ма шину. Схема персептрона легко реализуется на ЦВМ, до-
§ 4. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ |
21 |
статочпо написать соответствующую программу. В даль нейшем изучение феномена восприятия пошло по пути мо делирования обучающихся машин средствами ЦВМ, т. е. по пути создания обучающихся программ.
Обратимся к математической модели персептрона:
1.В рецепторном поле образуется сигнал, соответству ющий внешнему раздражителю, который изображается некоторым вектором х. Розенблатт отмечает, что каждое нервное окончание передает достаточно простой сигнал — либо посылает импульс, либо не посылает его. Это означа ет, что вектор X бинарный, т. е. его координаты могут при нимать только два значения: 0 и 1.
2.Букет импульсов распространяется до тех пор, пока
спомощью нейронов второго слоя не будет преобразован в новый букет импульсов (бинарный вектор х преобразуется в бинарный вектор у). Розенблатт уточняет характер пре образований у = / (х):
а) преобразование осуществляется пороговыми элемен тами;
б) входы преобразующих пороговых элементов соеди нены с рецепторами случайно.
3.Считается, что персептрон относит входной вектор к р-му понятию, если возбуждается р-й реагирующий нейрон и не возбуждаются другие реагирующие нейроны. Фор
мально это означает, |
что для вектора у = (у1, |
ут) вы |
||
полняется |
система неравенств: |
|
|
|
2 |
МУ > о, |
т |
|
|
2 MjP <С 0 |
для всех t ф р. |
|||
г = 1 |
|
І = 1 |
|
|
В этих неравенствах М> •••> |
— коэффициенты усиле |
|||
ния f-ro реагирующего нейрона. |
|
|
4.Формирование понятий в схеме Розенблатта сводится
кобразованию коэффициентов (весов) каждого из элемен тов R. Процедура построения весов элементов R такова.
Пусть к данному моменту существуют некоторые веса
элементов й и ..., ^ веса p-то элемента Rp. В момент времени х для классификации на вход персептрона посту пает сигнал, описываемый вектором хт. Вектор хт может
22 |
ГЛ. I. ПЕРСЕПТРОНРОЗЕНБЛАТТА |
либо соответствовать понятию р, либо не соответствовать ему. Рассмотрим оба этих случая.
С л у ч а й п е р в ы й . Вектор х соответствует по нятию р. Тогда правильной реакцией элемента R p на сиг нал X должно быть возбуждение, т. е. должно выполнять ся неравенство
т
2 М У > о.
1=1
Если веса элемента R p обеспечивают правильную реак цию на вектор х, то они не меняются. Если же веса не обес печивают правильной реакции элемента R p, т. е. они тако вы, что
m
2 м у < о,
і = 1
то веса элемента R p изменяются по правилу
Я? (новое) = Xf (старое) + у1 (і = 1, 2, ..., т).
С л у ч а й в т о р о й . Вектор х не соответствует по нятию р. Тогда элемент R p не должен возбудиться, т. е. должно выполниться неравенство
т
2 М У С о.
І = 1
Если веса элемента R p обеспечивают правильную реак цию этого элемента на вектор х, то они не меняются. Если же веса элемента R p не обеспечивают правильной реак ции, т. е.
т
2 м у > о,
2=1
то веса Xf, ..., Я„ изменяются по правилу
Я? (новое) = Я? (старое) — у1 {і = 1, 2, .... т).
При обучении аналогично меняются веса всех элементов R персептрона.
i 5. ОБОБЩЕННАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ |
23 |
§ 5. Обобщенная математическая модель
Ф. Розенблатт надеялся, что его персептрон моделиру ет существенные черты человеческого восприятия, в осо бенности восприятия зрительных образов. Он полагал, что персептрон легко можно будет обучить узнаванию одного и того же изображения независимо от масштаба изображе ния, существенных сдвигов его в рецепторном поле и дру гих преобразований, при которых человек относит изобра жение к одному и тому же понятию. Иными словами, пред полагалось, что персептрон будет узнавать предметы инвариантно по отношению к определенным группам пре образований.
В действительности же теоретические и эксперименталь ные исследования персептрона Ф. Розенблатта показали его неспособность к такому обобщению.
Последовали всевозможные усложнения схемы пер септрона. Строились персептроны с большим числом ней ронных слоев, допускалась настройка коэффициентов уси ления не только на верхнем слое, но и на промежуточных уровнях, предлагалось вводить перекрестные и обратные связи.
Теоретическое исследование таких сложных персептронных схем чрезвычайно затруднительно. На практике же при распознавании зрительных образов эти модели ока зались малоэффективными, в конце концов от них приш лось отказаться и пойти другим путем.
Основная идея нового направления состоит в том, что бы, опираясь на известные свойства зрительных образов, найти такую систему признаков или, общее, такой язык описания изображения, которые уже сами по себе обеспе чивают инвариантность по отношению к требуемым преоб разованиям. Таким образом, при построении обучающего ся устройства закладываются априорные сведения отно сительно того, по каким именно преобразованиям должна достигаться инвариантность.
Если предположить, что физиологическая модель чело веческого восприятия действительно аналогична персептрону, то следует допустить, что связи преобразующих А- элементов с рецепторами (а вероятнее, нескольких слоев таких элементов) отнюдь не случайны, а построены имен но так, чтобы обеспечить новое описание изображения,
24 ГЛ. I. ПЕРСЁПТРОН РОЗЁНВЛАТТА
содержащее уже требуемые инварианты. Математически эго означает, что преобразование
У = / (я)
таково, что среди координат вектора у есть такие, которые не меняются при определенных преобразованиях век тора X.
Возможно, что человек вовсе и не учится находить эти инварианты. Способность использовать их дана ему от рождения и заложена в «схеме» зрительного анализатора, возникшего в процессе эволюции. Во всяком случае экспе рименты с персептронами, где в процессе обучения выби ралось и отображение у = / (х), не доказали способности персептрона к выработке такого рода инвариантов.
Поэтому, оставляя в стороне вопрос о том, как устроено отображение, будем рассматривать более общую схему персептрона. Будем считать, что дано некоторое преобра
зование у = / (х) |
или, в координатной форме, |
У1 = |
Фі (*), •••, Ут = Ф™ (ж). |
Здесь X — входной вектор, соответствующий исходному описанию объекта. Преобразование / (х) ставит ему в соот ветствие некоторое новое описание у. Это преобразование выбирается до начала обучения и может быть построено на основании известных сведений о природе данной задачи распознавания.
Координаты вектора у теперь в общем случае — дейст вительные числа, не обязательно 0 или 1.
Для простоты будем считать, что различаются всего два понятия. Тогда персептрон отнесет вектор х к первому понятию, если выполнится неравенство
т |
|
2 * чФі (*)> 0, |
(1.2) |
І=1 |
|
а в противном случае — ко второму.
Такая схема имеет простую геометрическую интерпре тацию: в пространстве X задана гиперповерхность
т |
|
2 Ѵ р і (х ) = о , |
(1-3) |
І=1
§ 6. ТЕОРЕМА НОВИКОВА |
25 |
которая делит пространство на два полупространства. Счи тается, что если вектор х находится по одну сторону от по верхности (это значит, что для него выполняется неравен ство (1.2)), то он соответст вует первому понятию, если же по другую от нее сторону, то второму. Та кие гиперповерхности на зываются разделяющими
(рис. 2).
Для образования ново го понятия надо построить соответствующую разделя ющую гиперповерхность. Каждой гиперповерхности
(1.3) пространства X в пространстве У с координатами у1 — (х), ..., ут= фт (X) соответствует гиперплоскость
2 Ку1= о. |
(1.4) |
Введение пространства У позволяет заменять рассмот рение разделяющих гиперповерхностей (1.3) разделяющи ми гиперплоскостями (1.4). Поэтому пространство векто ров Y получило название спрямляющего. В спрямляющем пространстве изучается следующая схема. Каждому объ екту ставится в соответствие вектор у = (у1,. .., ут). Этот вектор относится к первому классу, если он лежит по одну сторону от разделяющей гиперплоскости
ТП
2 № = о,
і=1
и ко второму, если по другую.
§ 6. Теорема Новикова
Естественно, что первый же вопрос, который возник при изучении персептрона,— насколько эффективен пред ложенный Розенблаттом алгоритм построения разделяю щей гиперплоскости, т. е. всегда ли с помощью этого алго ритма может быть построена гиперплоскость, разделяющая
26 |
ГЛ. I. ПЕРСЕПТРОН РОЗЕНБЛАТТА |
два |
множества векторов уг, ..., у а и у ъ ..., у ь. Конечно, |
имеются в виду случаи, когда такая гиперплоскость в принципе существует.
В 1960 году американский ученый А. Новиков показал, что если последовательность, составленную из всех эле ментов множеств уj, ..., у а и ух, ..., уь, предъявить персептрону достаточное число раз, то он, в конце концов, раз делит ее (конечно, если разделение с помощью гиперплос кости в принципе возможно). Это утверждение оказалось чрезвычайно важным для развития теории обучающихся программ. Использованные для его доказательства поня тия оказались полезными и при установлении более тон ких свойств алгоритмов обучения. Рассмотрим их под робнее.
Утверждение Новикова относится к случаю, когда в пространстве Y существует гиперплоскость, проходящая через начало координат и разделяющая два множества
векторов гд, ..., у аи гд, ..., |
уь, т. е. когда существует такой |
||||||
вектор А, что выполняются неравенства |
|
||||||
(Уі, А) > 0, |
і |
= |
1, |
2, |
..., |
я, |
|
{Уи Л) < 0 , |
/ |
= |
1, |
2, |
... |
А |
(1.5) |
Здесь использовано обозначение
т
(у, Л) = 2 У%-
і=1
Рассмотрим множество W, состоящее из всех векторов Уі, ..., і/„и — уъ ..., — уь. Тогда система неравенств (1.5) примет вид
(у, Л) >■ 0 для всех у е= W.
Если обозначить |
|
|
|
• |
^ і’Л) |
Р(Л)’ |
|
т ш |
7ХГ = |
|
|
а |
|
ро, |
|
sup р (Л) = |
|
||
Л*о |
|
|
|
то условие разделимости |
векторов гд, ..., |
у а и уѵ ..., уь |
|
может быть формально выражено так: р0 |
0, |