
книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdf1.Если звезда, нереализуемая на одном ЛПЭ, состоит из простых импликантов, то необходимо рассмотреть все группы этих простых импликантов, взятых по (G—1) в группе, и проверить каждую такую группу не реализуе мость на одном ЛПЭ.
2.Если по крайней мере одна из таких групп реализуема на одном ЛПЭ, то нет необходимости рассматривать другие разбиения данной звезды, так как она может быть реализо вана на двух ЛПЭ.
3.Если ни одна из этих групп не реализуема на одном ЛПЭ, то повторяем проверку реализуемости на одном ЛПЭ групп простых импликантов, взятых по (G—2).
4.Эта процедура выполняется до тех пор, пока не бу дут исчерпаны все простые импликанты. Группы, получен
ные на этом этапе и реализуемые на одном ЛПЭ, будут под звездами. Отметим, что этот метод определения подзвезд не обязательно приводит к минимальной порогово-дизъюнк тивной сети ЛПЭ.
В случае не полностью определенной логической функ ции е (xft) неопределенность задания значений логической функции на некоторых наборах переменных можно исполь зовать для минимизации -общего числа ЛПЭ порогово дизъюнктивной сети. Процедура синтеза в данном случае заключается в следующем:
1. Доопределяем функцию е (\k) на всех наборах пере менных, где она принимает произвольные значения.
2.Выполняем процесс синтеза порогово-дизъюнктив ной сети, изложенный для случая полностью определенной логической функции до тех пор, пока не будет установлено, что все звезды и подзвезды реализуемы на одном ЛПЭ.
3.Составляем импликатную таблицу, число строк ко торой равно числу звезд, подзвезд и простых импликантов, полученных на втором шаге процедуры синтеза, а число столбцов — числу наборов функции е (х*). При составле
нии такой таблицы все произвольные значения функции
е(xfe) принимаются равными (— 1).
4.Выбирается наименьшее подмножество записей в таб лице, которое покрывает все единицы функции е (xk). При этом автоматически доопределяются все ее произвольные значения. На этом процесс синтеза заканчивается.
Построение двух выходных слоев СР в виде сети из ЛПЭ
снастраиваемыми коэффициентами может быть осущест влено на основании следующих соображений.
Выше было показано, что два выходных слоя ЛПЭ трех
290
слойной СР являются сами по себе самостоятельной систе мой распознавания принадлежности областей исходного пространства признаков, образованных пересечением ги перплоскостей, к первому или второму классу. В данном случае признаки являются двоичными, а мерность простран ства признаков равна числу ЛПЭ первого слоя многослой ной СР. Именно поэтому для обучения ЛПЭ второго слоя трехслойной СР можно применить любой из методов, из ложенных выше в § 9-1 и 9-2. При этом выбирается число ЛПЭ второго слоя для обеспечения заданной вероятности распознавания принадлежности областей исходного про странства признаков тому или иному классу. Эта вероят ность довольно просто связывается общей вероятностью правильного распознавания при наличии результатов обу чения ЛПЭ первого слоя трехслойной СР. После обучения ЛПЭ второго слоя в данном случае древообразная логиче ская структура третьего слоя может быть проверена на реа лизуемость на одном ЛПЭ третьего слоя.
9-6. Общая методика последовательного синтеза многослойных СР
Изложенная выше методика последовательной настройки трехслойной СР приводит к обобщению на многослойные СР следующим образом:
1. По исходным выборкам настраивается первый слой ЛПЭ многослойной СР. При этом выбираются число ЛПЭ и настраиваемые коэффициенты.
2. Получающаяся в результате настройки первого слоя ЛПЭ логическая функция проверяется на реализуемость на одном ЛПЭ. Если данная функция реализуема на ЛПЭ, то на этом процесс синтеза сети заканчивается.
3.В случае отсутствия реализуемости логической функ ции на одном ЛПЭ аналогично п. 1 производится обучение ЛПЭ второго слоя. При этом выбирается число ЛПЭ и на страиваются коэффициенты.
4.Получающаяся в результате настройки второго слоя ЛПЭ . . . (продолжение аналогично п. 2).
Данная методика легко обобщается на случай много слойной сети из ЛПЭ с континуумом решений. При этом
необходимо отметить следующее. В случае сети из ЛПЭ с континуумом решений число образов первого и второго класса сохраняется при переходе от слоя к слою. При этом в’обученной СР в каждом слое происходит как бы деформа
10* |
291 |
ция распределений классов в смысле их разнесения. При этом критерием качества многослойной СР является уже не только вероятность правильного распознавания на выходе СР, а функция изменения данной вероятности от слоя к слою.
Таким образом, результатом применения предлагаемой методики синтеза многослойных СР является число слоев СР, число ЛПЭ в каждом слое и величины настраиваемых коэффициентов. Данная методика позволяет, следовательно, выбрать на этапе настройки оптимальную или близкую к оптимальной структуру разомкнутой СР в виде много слойной сети из ЛПЭ. Отметим, что в рассмотренной мето дике обучения многослойной СР на каждом шаге обучения вместо ЛПЭ может быть любая из структур, рассмотренных в гл. 7.
Последовательная процедура настройки достаточно про сто обобщается на режим самообучения. В этом случае критерий оптимальности при проведении очередной гипер плоскости есть критерий минимума специальной средней функции риска.
9-7. Метод обучения ЛПЭ первого слоя многослойной СР с континуумом признаков
В данном параграфе кратко рассмотрен алгоритм обу чения первого слоя многослойной СР с континуумом при знаков, а также пути его физической реализации. Методы обучения подобных СР строятся по аналогии с рассмотрен ными выше методами обучения многослойных СР с дискрет ным множеством признаков. Особенность обучения много слойных СР с континуумом признаков проявляется при обучении ЛПЭ первого слоя. В простейшем случае выраже ния для функций a (i) и коэффициентов а0 имеют следую щий вид:
a{\) = tn1{\)— mz (\y,
а |
j т2 (i) di — Гml (i) d\ j . |
|
|
|
|
J |
j |
|
|
При наличии |
набора |
изображений х г (i, |
п) |
и х 2 (i, п) |
первого и второго класса функции т х (i) и т 2 (i) |
получаются |
|||
|
j |
м |
|
|
" М ') = — |
")> |
2- |
|
292
Реализация функциональных преобразований, указан ных выше, может быть осуществлена фотографическими методами в случае двумерного i. Результатом обучения в данном случае должны явиться фотомаски, реализующие функции ап (!), моделирующие световой поток х (i, п) перед
интегрированием по i (см. |
гл. 4), и коэффициенты а0. |
В случае одномерного i |
при распознавании кривых или |
электрических сигналов на фиксированном интервале на блюдаемые функции ап (i) и коэффициенты а0 достаточно просто технически получаются на АВМ.
Методика последовательного обучения слоя ЛПЭ с кон тинуумом признаков остается той же, что и для дискретного множества признаков.
Г л а в а д е с я т а я
ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ В МНОГОСЛОЙНЫХ СР
10-1. Постановка задачи выбора информативных признаков в режиме обучения
Проблема выбора информативных признаков является самостоятельной в теории распознавания образов и в на стоящее время не решена до конца. В данной книге кратко изложены существующие подходы к проблеме выбора ин формативных признаков, а также вводятся так называемые структурные методы, основанные на методах синтеза мно гослойных систем распознавания образов.
Основой предлагаемого подхода к проблеме выбора ин формативных признаков являются изложенные ниже три тезиса:
1.Бытующее представление о возможности предвари тельного выбора информативных признаков до этапа на стройки СР является неверным, так как в любой из извест ных процедур выбора прямо или косвенно присутствует настроенная СР. С этой точки зрения всякая процедура выбора информативных признаков является субъективной, где субъект — это СР в том или ином формальном или не формальном представлении.
2.Критерием информативности признаков может слу жить только критерий первичной оптимизации, принятый для данной системы. Применение вместо критериев пер вичной оптимизации аппроксимирующих критериев, таких
293
как экстремум дивергенции или средней условной энтро пии, вносит дополнительные ошибки, сужает границы их применимости и должно быть обосновано количественно.
3. Необходимо выбирать такие типы СР, которые в про цедуре выбора информативных признаков являются наиме нее субъективными, т. е. те, которые обеспечивают опти мальные решения в достаточно широких пределах изменения характеристик входного сигнала СР (число классов, слож ность распределений внутри классов).
Первоначально задача выбора информативных призна ков в режиме обучения ставилась и ставится во многих ра ботах как задача выбора из N исходных признаков = = const признаков, обеспечивающих максимальную ве роятность правильного распознавания. Эта постановка может быть интерпретирована в другой форме. Из N ис ходных признаков выбрать то минимальное число N ± при знаков, которые обеспечивают заданную вероятность пра вильного распознавания. Определим в данном случае кри^ терий информативности признаков. Предположим, что СР0, СРЪ СР2 соответственно c N = N 1 -\- N 2, N 1 и N 2 при знаками (рис. 10-1) по некоторой выборке обеспечивают вероятности правильного распознавания соответственно Р, Р г и Р 2. Если Р ^ Р г , то группа из ЛД признаков будет более информативной по сравнению с группой из N 2 при знаков. В этом случае использование группы т N 2 призна ков будет целесообразным, если приращение вероятности правильного распознавания АР = Р — Р г оправдано для конструктора тем усложнением СР, которое имеет место при прибавлении группы из N 2 признаков. Таким образом, в данном случае определяется основной критерий выбора информативных признаков. Данная постановка задачи вы бора информативных признаков оправдана большим кру гом практических задач, в которых отдельные группы при знаков формируются различными (зачастую, независимыми) измерителями, и перед разработчиком СР встает задача минимизации числа измерителей — сжатие исходного опи сания с целью упрощения как измерительного устройства, так и самой СР. В частности, при решении задачи сравни тельной оценки информативности признаков принимаются
путем |
анализа |
вероятности |
правильного распознавания |
|||||||
Рправ' |
полученные |
для |
четырех |
групп |
признаков: |
|||||
( X j , . |
. . , |
X N ), |
((Xi, . |
. ■ , X N ) |
О |
X,-), |
( ( X j , . . |
. , XN ) 0 |
Xj), |
|
((xj, . |
. . , x^) П (*<> |
Xj)). |
Такая |
постановка |
задачи, |
как |
||||
выбор |
Ni |
признаков |
из N, |
обеспечивающих, |
в частности, |
294
максимальную вероятность правильного распознавания, по нашему мнению, не может быть решена без решения задач в указанных выше постановках.
Рассмотрение многослойных СР и общее представление о работе человека на этапе распознавания приводят к не сколько иной постановке задачи выбора информативных признаков, которая заключается не в ми нимизации исходного описания, а в ми нимизации промежуточных описаний,
Рис. 10-1. Выбор информативных признаков в исходном пространстве признаков.
т. е. «сжатий» самой СР, в то время как исходное описание фиксировано. В частном случае в многослойных СР с пол ными связями задача заключается в минимизации числа линейных пороговых элементов в каждом слое, причем опи санный выше критерий минимизации остается в силе. Обе
Рис. 10-2. Классификация методов выбора информативных признаков.
указанные выше постановки задачи выбора информативных признаков объединяются в общем структурном подходе к проблеме выбора информативных признаков, когда пер вый слой связей считается априори организованным так, как показано на рис. 10-1.
В связи с рассмотренными выше постановками задачи
и критериями выбора информативных |
признаков на |
рис. 10-2 представлена схема, отражающая |
пути решения |
295
задачи выбора информативных признаков. Данная схема отражает лишь основные пути, не претендует на полноту и ставит своей целью введение структурных методов выбора информативных признаков. На уровне решения задачи выбора информативных признаков исходного пространства основное развитие получили подходы, связанные с дивер генцией и условной энтропией, а также с некоторыми уп рощенными их оценками. К ним относятся также раз виваемые в последнее время подходы с применением фак торного и дисперсионного анализа.
Основной задачей данной главы является рассмотрение структурных методов выбора информативных признаков, сущность которых заключается в оценке информативности признаков по результатам настройки СР (структуре, ко эффициентам и значению функционала качества). При ре шении задачи минимизации структуры настроенной много слойной СР метод минимизации соответственно будет за висеть от способа настройки СР.
10-2. О выборе информативных признаков в системах с настройкой по разомкнутому циклу
То, что критерием выбора информативных признаков может служить только критерий первичной оптимизации, подтверждается многими авторами. Но многие авторы ищут возможность упростить процедуру оценки информативно сти признаков в некоторых частных задачах, особенно в за дачах с настройкой СР по разомкнутому циклу. При этом отмечаются некоторые общие свойства аппроксимирующей оценки Gj информативности признаков группы /.
1. Если Gj^>Gq, где Gj и Gq — соответственно оценки информативности признаков для признаков группы / и
признаков группы q, то величина |
Р прав |
при использова |
нии группы признаков j должна |
быть |
больше величины |
Рправ при использовании группы признаков q.
2.Если Gg>>Gq, то для любого множества признаков /
величина |
Р прав при |
использовании |
групп признаков / |
||
и g совместно должна |
быть больше |
величины Р прав |
при |
||
использовании групп признаков |
q и / совместно. |
|
|||
Использование любых статистик для оценки информа |
|||||
тивности |
признаков, |
включая |
и рассматриваемые |
ниже |
в данном параграфе, приводит к необходимости введения условных распределений /' (х/е) определенного функцио нального вида, т. е. рассмотрение лишь настройки по ра
296
зомкнутому циклу. Это в значительной степени сужает границы применения данных оценок информативности, включая дивергенцию, среднюю условную энтропию, уп рощенные оценки и т. д.
Вероятность правильного распознавания является част ным случаем средней функции риска при антидиагональной функции потерь. В случае СР, настраивающихся по замк нутому циклу при фиксированной структуре разомкнутой СР и в случае СР с переменной структурой, оценка вели чины Рправ в процессе настройки не представляет особых затруднений, и во введении других оценок информатив ности здесь нет необходимости. В случае СР, настраиваю щихся по разомкнутому циклу, выражение Р прав и его статистических характеристик зачастую представляет труд ную задачу.
Именно это в основном определяет потребность введе ния в данном случае аппроксимирующих оценок информа тивности. По этой причине в большинстве работ по оценке информативности признаков рассматриваются совокупно сти образов, распределенных по нормальным законам. Даже для нормальных законов вычисление оценок Р прав пред ставляет собой достаточно трудную задачу. Это обусловли вает необходимость введения рассматриваемых ниже оце нок информативности признаков, таких как дивергенции, средней условной энтропии, упрощенных оценок.
При рассмотрении дивергенции вводится в рассмотрение
выпуклая функция и (а), определенная |
на интервале, |
|
(О, + |
оэ) и удовлетворяющая следующим |
условиям: |
1) |
ы(0) = П ти (а ); |
|
|
а-*+О |
|
3) 0 и (— W |
П т ги [— W |
Olim-^-^- (0< 6< 3 -f оэ). |
\ b j |
е-*- + 0 \ b I |
a-i-oo а. |
Тогда дивергенцией двух распределений называется величина
£>i2 ={J72(z) И Vh 00
Дивергенция может служить мерой различия двух рас пределений. Частным случаем дивергенции является ди-
297
вергенция по Кульбаку
D[2 = |
J / . W |
l o g f ^ |
|
i |
l h (x) |
При дивергенции D = D 1 2 - f D 21 метричной функцией относительно }г ции по Кульбаку -
dx.
она становится сим и / 2. Для диверген
Я '= Л Ы *)-М *)] log |
7 i(х) ] dx. |
X |
h (х) J |
Анализ выражений для дивергенции показывает, что исследование ее связи с вероятностью правильного рас познавания возможно только при рассмотрении СР, настраивающихся по разомкнутому циклу (для случая ти повых распределений). В этих случаях оценку информа тивности со сложной процедурой интегрирования в конеч ных пределах можно заменить операцией алгебраического преобразования параметров функций распределения.
Отметим основные свойства дивергенции
1) Dk'k~ > 0 |
при k' =f=k; |
|
|
||||
2 ) |
Dk'k= 0 |
при |
k =k\ |
|
|
||
3) |
Dk’k = Dkk'\ |
|
|
|
|||
4) |
, |
, |
• |
• • |
N |
, |
|
Dk'k (*i, |
i %n ) = |
(x(), |
|
||||
|
|
|
|
|
i-=i |
|
|
для независимых признаков |
|
||||||
5) |
Dk’k (xi |
. . . , |
xN) < D k’k (xi, • • ** |
-I-1)• |
|||
К недостаткам дивергенции многие авторы относят от |
|||||||
сутствие |
явного |
выражения, |
связывающего |
дивергенцию |
|||
и Яправ. В [Л. |
3 ] |
приведено сравнение дивергенции и Р прав |
для многомерных нормальных законов.
В. А. Ковалевский, изучая дивергенцию, как оценку информативности признаков, отмечал громоздкость ее вычисления для многомерных нормальных законов и не пригодность в том случае, когда одна из плотностей равна нулю. Именно поэтому возникает необходимость в введе
нии средней условной |
энтропии, |
выражаемой в форме |
||||
|
к |
|
|
|
fk(*) |
dx. |
J = |
|
P k |
f k (x) b g |
К |
||
|
|
|||||
|
k=\ |
|
|
V |
Pk'fk'W |
|
|
|
|
k'=l |
|
||
|
2 |
|
|
|
298
Средняя условная энтропия, так же как и дивергенция, применима в качестве оценки информативности только при настройке по разомкнутому циклу. Вместо данных оценок зачастую вводят другие, упрощенные оценки информатив ности признаков.
Рассматриваемые ниже оценки информативности признаков в основном отличаются сложностью вычислительной процедуры. Возможна несколько иная, чем средняя условная энтропия, оценка информативности признаков:
для г'-го признака
V |
ma^ K |
’ |
|
J— d |
Nl + |
N' |
a |
l |
h |
|
где Щ — число объектов первого класса, попавших в г'-е состояние
/-го признака. В отличие от средней условной энтропии с увеличением ф признаки считаются более информативными. Перейти к интегральной оценке для функции-ф-в случае непрерыв ного признака / нельзя, так как соответствующий интеграл расхо дится. В связи с этим рассматривается модифицированная функ ция ф'
шах К- N
К + N[t
i
ЭТа функция по своему характеру аналогична энтропии, т. е. ее увеличение приводит к увеличению ошибки распознавания. Достоинством данных оценок информативности является простота вычислений на ЦВМ при квантованном по амплитуде входном си гнале СР. Недостатком данных оценок является, в частности, то, что рассмотрение признаков здесь производится ^зависимо друг от друга. В случае ограниченной обучающей последовательности для оценки информативности признаков используется функция
шах [N{t, N l \ |
+ 1 |
N l + |
N l |
N{i I +1N [l.j +1 |
2 |
+ |
N2 |
Таким образом, достаточно |
очевидно, |
что способы |
оценки информативности признаков, связанные с дивер генцией, средней условной энтропией имеют основной не достаток тот, что применимы только в случае настройки СР по разомкнутому циклу. По сравнению с функционалом первичной оптимизации они обладают тем преимуществом, что позволяют упростить вычислительную процедуру оценки информативности.
Изложенные задачи выбора информативных признаков справедливы и для режима самообучения. Если в режиме
299