 
        
        книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfУчитывая, что
| 
 | N | N | 
| J ' ' ‘ J7*(x)dx = | I ' ' ’I /л(*)<*х + | f ’ • • J /*(x)dx, | 
| —oo | S(x)>0 | S(x)<0 | 
получаем окончательное выражение для средней функции риска
| 
 | к | 
 | N | 
 | 
 | 
 | 
| Я = | Pkh2 + | !• • | -I | 
 | PkVki- ’hz) fk (x) dx. | |
| 2 | 2 | |||||
| 
 | *=1 | S(x)<0 | *=i | 
 | ||
| Легко | показать, | что минимум | в данном случае обес | |||
| печивается | при условии | 
 | 
 | 
 | ||
| 
 | 
 | S(x)= 2 | P k i k i — /**)/*(х). | |||
| 
 | 
 | 
 | f t = l | 
 | 
 | |
Это есть уравнение для оптимальной разделяющей по верхности, определяющее оптимальную модель СР.
Система распознавания 8. При оптимизации СР с кон тинуумом классов образов и двумя решениями по крите рию минимума средней функции риска необходимо ввести в рассмотрение матрицу (вектор-строку) L = [1Х(е), /2 (е) ] функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону f' (х/е), к областям многомерного пространства признаков, соответствующих 1-му и 2-му решениям. Условная функция риска есть функ ция риска принятия решения о принадлежности образов
| на | входе СР к совокупности | образов с распределением | 
| f | (х/е). Типичные зависимости | для функций потерь 1Х(е) | 
и /2 (е) представлены на рис. 2-11. В этом случае выраже
| ние для | условной | функции риска имеет | следующий вид: | ||
| 
 | N | 
 | 
 | N | 
 | 
| г (е) = | li (е) Г• • | - Г f (х/е) dx -f | /2 (е) f • | • • Гf | (х/е) dx. | 
| 
 | S(x)< 0 | S (x )> 0 J | 
 | ||
| Здесь | 5 (х) = | 0 — уравнение | разделяющей | поверхно | |
| сти в многомерном пространстве признаков. | 
 | ||||
Средняя функция риска получается усреднением услов ной функции риска по всем значениям е следующим обра зом:
| я = | О С | о о | j | /е (в)х | 
| J | r(e)fa(fi)de= | |||
| 
 | — о о | — о о | 
 | |
| N | 
 | 
 | 
 | N | 
| X h (е) f • • - | Г/'(x /e)d x -H 2 (e) | f • | • • f f'(x/e)dx de. | |
| S(x)< 0 | 
 | 
 | S(x)^0 | |
50
Преобразовывая, получаем окончательное выражение для средней функции риска:
| R = J | /.(е)/в(е) + | /в(е) М | 8)- - / 2 (е )1 Г • • | • Г | f' (x/e)dx\de. | |||
| 
 | 
 | 
 | 
 | 
 | 
 | s(x)<oJ | I | |
| Для решения задачи минимизации запишем R в не | ||||||||
| сколько | ином | виде | 
 | 
 | 
 | 
 | 
 | |
| 
 | R = | C O | h (8) fs (8) de + | - | 
 | 
 | ||
| 
 | J | J • • • J | x | 
 | ||||
| 
 | 
 | 
 | —OO | — | S(x)<0 | 
 | 
 | |
| 
 | X | J* | [к | (8) — h (8)]/e(8) f' (x/e) del dx. | ||||
| 
 | 
 | —OO | 
 | 
 | 
 | J | 
 | |
Рис. 2-11. Функции потерь для случая континуума классов и двух решений.
а — два класса; б — континуум классов.
Отсюда следует, что минимум R обеспечивается при ус ловии, когда подынтегральное выражение отрицательно внутри области и положительно вне данной области. Сле довательно, минимум R обеспечивается при условии
00
S (x )= j [li (е) — /2 (е)] /Е (е) /' (x/e) de.
—00
51
Система распознавания 10. В случае континуума клас сов образов и Кр решений СР строит в многомерном про странстве признаков К р— 1 разделяющую поверхность.
При оптимизации по критерию минимума средней функ ции риска вводится матрица (вектор-строка)
L = [ M e)’ • •• ’ 1к РЩ
функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону /' (х/е), к областям многомерного пространства признаков, соответствующим 1, 2, Кр-му решению СР. В данном случае выражение для условной функции риска имеет следующий вид:
кN
| 
 | Г(б) = 2 | hp (е) | J • | • ‘ J /' (х/е) dx. | |||
| 
 | *P=1 | 
 | S(feP)(x)>0 | 
 | |||
| Средняя | функция риска | получается | усреднением г (е) | ||||
| по всем значениям | е: | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | Я = | 00 | 
 | 
 | 
 | 
 | 
| 
 | 
 | J г (е) /е (e)<ie = | 
 | ||||
| 
 | 
 | 
 | — ОО | 
 | 
 | 
 | 
 | 
| 
 | оо | к | 
 | 
 | N | s | 
 | 
| 
 | 74 р | 
 | ,----- -■ | 
 | |||
| = | J /е (е) | 1] | lkp(е) | J • | • • J ? (х/е) dx de. | ||
| 
 | ftP = ‘ | 
 | S ( fep)(x)>0 | 
 | |||
| Отсюда определяется оптимальная модель при помощи | |||||||
| системы неравенств: | 
 | 
 | 
 | 
 | 
 | ||
| S ( V (x )= J | ш | L ”(e) — lk | (е) | f' (x/e)de< О, | |||
| 
 | — 00 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | 
 | kp — 1, | . . . , | /Ср- | 
 | ||
Система распознавания 11. Эти система распознавания континуума классов образов, имеющая континуум реше ний. При оптимизации по критерию минимума средней функции риска вместо матрицы функций
L = [7х (е), . .., lkp (e)j,
введенной в случае континуума классов и Kv решений, необходимо ввести функцию потерь / (xk, е), возникающих при принятии СР решения при наличии на входе образа, принадлежащего совокупности с распределением f' (х/е).
52
?
Выражение для условной функции риска имеет следующий вид:
N
| г(г)= | Г l(xk, е) J • • • \G(xk, x)f'(xk)dxdxk. | 
 | |||||
| 
 | xk | 
 | х | 
 | 
 | 
 | 
 | 
| Средняя функция | риска | 
 | 
 | 
 | 
 | ||
| R = J r(e)/e(e)de= | J | /£(е) | J | / (xk, e) f • • | x) X | ||
| —30 | —30 | 
 | xk | 
 | x | 
 | |
| 
 | 
 | 
 | 
 | 
 | N | 
 | 
 | 
| X f' (x/e) dx dxkds = | J | j . . . J G (xk, x) X | 
 | ||||
| 
 | 
 | 
 | 
 | ** | * | 
 | 
 | 
| X | J /e(e)/(**, e)f'(x/e)de | dxdxh. | 
 | ||||
| Введем обозначение | 
 | 
 | 
 | 
 | 
 | ||
| gs (x, xk) = | J | /8 (e) l (xk, e) f | (x/e) de. | 
 | |||
— CO
Тогда выражение для средней функции риска примет следующий вид:
| 
 | N | 
| R = J J- | • -$G(xk, x)g3(x, xk)dxdxk. | 
| xk | x | 
Учитывая свойства функции G (xk, x), указанные и ис пользуемые ранее, получаем:
| 
 | N | 
 | 
| R = f • | • | • fga[X, p (X)] dx, | 
| J | X | J | 
где xk =s P (x) — оптимальная модель CP. Решение задачи минимизации R дает выражение для оптимальной модели СР в следующем виде:
| dg3 (х, хк) | = | 0 | 
 | 
 | 
| дхк | xh=PM | 
 | 
 | 
 | 
| или с учетом конкретного вида функций | (х, | xk) | ||
| OO | 
 | 
 | 
 | 
 | 
| j /в (e) /' (x/e) - ~ l ( xk> e) | =P(x) | de = | 0 . | |
| dxk | 
 | 
 | 
 | 
 | 
— Э С
53
Это наиболее общее выражение для оптимальной модели СР, из которого легко получить любой рассмотренный выше случай.
Для решения практических задач функция распределения / е (е) может в простейшем случае быть представлена или аппрокси
мирована суммой одномерных нормальных законов с различными дисперсиями и математическими ожиданиями, а также любым из известных типовых законов распределения вероятностей.
2-3. Оптимальная модель СР для многомерных сигналов s (п) и xk (п)
Выражение для условной функции риска в случае кон тинуума решений СР имеет следующий вид:
N N
| г (s) = | Г. . . Г / (хА, | е) Г. . . ГG (xk, х) f | (х/е) dxdxk. | |
| 
 | xk | х | 
 | 
 | 
| Отсюда имеем среднюю функцию риска | ||||
| 
 | N* | N* | N | 
 | 
| Я = | • -J> (e)/e( e ) d e = |. • | .Jf“ | G(xk, Х)х | |
| 
 | N* | 
 | 
 | 
 | 
| X | J - • -J7e(e)J(**. s)f, (xls)de | dx dxk, | ||
или, иначе, при введении дополнительных обозначений
| N* | N | 
| R=z$- • ’Я ' | • - f G (x** x)§(xk> x)dxdxk. | 
| xk | х | 
Как указывалось выше, Е представляет собой прост ранство указаний учителя СР; N* — размерность Е и вы ходного сигнала системы. Остановимся на свойствах функ
| ции G (xk, х). Если Л^* = | 1 | и СР имеет | /СрДэешений, функ | ||
| ция имеет вид: | 
 | 
 | 
 | 
 | 
 | 
| 
 | 1 , если | * £ S ^ Kp^ (x )> 0 | , | ||
| 
 | О, | если х § | ( х )> 0 | , | |
| а для континуума решений: | 
 | 
 | 
 | 
 | |
| С(х, * ,) _ ( | U | есл" | *‘ = | Р <Х)' | 
 | 
| 1 0 , | если | хк =/=Р (х). | 
 | ||
54
Для многомерных пространств Е и X k преобразование, описываемое системой, может быть записано в следующем виде:
| *1* (n) | 'Pi(x) " | 
| хк (п) = Р [х (п)] или | 
 | 
| _XN*k(n)_ | V W __ | 
Если N* = const и СР имеет дискретное число выход ных градаций, т. е. Кр решений, функция имеет вид:
| G fх, kiр’ | 1, | если x £ S ^ lp | kN*p) (х)> 0, | 
| •’ ^N*р) | если х (£ 5 ^ 1р | fcjv*p^(х)> 0, | |
| 
 | О, | 
и соответственно для континуума решений СР:
| G (х, xw . . ., xN, k) — П, | если | xk (п) = Р [х(п)], | 
| (О, | если | хк (п) =/=Р [х(п)]. | 
С учетом замечаний о функции G можно записать выра жение для средней функции риска следующим образом:
| 
 | 
 | N | 
 | 
 | 
| 
 | R = f ^ \ g [ P ( x ) , x ] d x = | 
 | ||
| 
 | 
 | X | 
 | 
 | 
| N | 
 | N* | 
 | 
 | 
| = I ■• | • I J ' | ■• f fz (s) UP (x)., e] f (х/г) ds dx. | ||
| X | 
 | E | 
 | 
 | 
| Оптимальная | модель | CP определяется | выражением | |
| f ~ f | <*) | 
 | Й ' <x*' | Л = °- | 
| где производная — / (xk, | e)— функция двух переменных: | |||
| xk и s. | дхк | v | 
 | 
 | 
| 
 | 
 | 
 | 
 | |
| Пусть каждый из N* выходных каналов имеет К0 града | ||||
ций по амплитуде. Тогда выражение для условной функ
| ции риска имеет следующий вид: | 
 | 
 | |||
| г [kv . . . , kNt) = | /с | • • • | к. | J (^ip’ • • | ^n *p' ^i> • • ■ | 
| 2 | 2 | ||||
| kN„) | J • - | - J | f' | [xls = klt | . .., kN,)dx. | 
| s (kip......^N*p) (x)>0 | 
 | 
 | 
 | ||
55
Отсюда получаем среднюю функцию риска Ко к,
N
| • • •> | 
 | 
 | 
 | ' •’ ^N*) | 
 | J ' • • j | X | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | s ( fei p ....... ftjv * p )(x)>0 | 
 | 
 | ||
| 
 | 
 | x | f' {xk = kv | . . ., | kNt) dx. | 
 | 
 | 
 | ||
| При введении | дополнительных | обозначений | имеем: | 
 | ||||||
| Ко | 
 | *. | 
 | N | N | 
 | 
 | 
 | 
 | |
| 
 | 1\0 | /----- - | 
 | - • • >kfj*р> х^ dx, | ||||||
| • | ■ | ■ 2 | 
 | J - - - J | 
 | * ( V | ||||
| *ip_ 1 | 
 | *ЛД*р=1 s(feip.....*К*р)(х)>0 | 
 | 
 | 
 | |||||
| где | 
 | 
 | 
 | Ко | 
 | Ко | 
 | 
 | 
 | 
 | 
| 
 | 
 | 
 | 
 | 
 | 
 | h | Ъ | 
 | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | *** | ||
| ■’ | ^ | ‘Р’ | 
 | 
 | 
 | 
 | 
 | •» KN * р’ | ||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| • • •> ^ / v * ) / E (^ 1’ | ^ N * ) f | ( Х ^6 — ^1’ ' | ' ^ N * ) ' | 
 | ||||||
| Результат минимизации средней функции риска в дан | ||||||||||
| ном случае: | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| S (*lp.... *"’р)( х ) = £ ( С | . . . . k"N*p, | х ) - | 
 | 
 | ||||||
| 
 | 
 | 
 | £ (Л р’ • • •’ kN*р, х) > 0 , | 
 | 
 | 
 | ||||
| {Щр' •••> К/*р) = | (° | °)> | 
 | (Ко. •••, | К0), | т. е. всего | ||||
| 
 | 
 | 
 | N* | 
 | 
 | ~N* | 
 | 
 | 
 | |
| комбинаций. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
| Отметим, что, в частности, можно рассматривать случай | ||||||||||
| К о = 2 как | наиболее | просто | реализуемый. | 
 | 
 | |||||
| 2-4. Априорная информация о входном сигнале СР | 
 | |||||||||
| в режиме самообучения | 
 | 
 | 
 | 
 | 
 | 
 | ||||
| Задача самообучения | отличается | от задачи | обучения тем, | что | ||||||
в режиме самообучения в СР не указывается принадлежность об разов к тому или иному классу. В случае обучения СР получаем информацию об организации внутри классов в виде указаний учи теля. В случае самообучения эта информация должна быть зало
56
жена в СР априори. Наверное, разумно при определении класса в режиме самообучения наложить следующее ограничение. Каж дому классу образов должна соответствовать одна мода функции плотности распределения вероятностей входного сигнала х (п) СР.
От априорной информации о входном сигнале систем распозна вания образов существенно зависят методы решения задачи само обучения. Указанную априорную информацию о входном сигнале
можно с методологической точки зрения разделить на три основ ные части.
1. Априорная информация о числе классов или, что то же са мое, информация о числе мод функций плотности распределения входного сигнала. На основании данной априорной информации и предположения о том, что каждый класс имеет свое собственное одномодальное распределение, распределение входного сигнала системы распознавания образов может быть представлено в виде
К
| 
 | / 0 0 = | 2 | Pkfk 0 0 . | (2-22) | 
| 
 | 
 | *=1 | 
 | |
| где х (п) — входной | сигнал | системы распознавания | образов; | |
| f (х) — плотность распределения | входного сигнала; fk (х) — плот | |||
| ность распределения | образов | в | k-м классе; р^ — вероятность по | |
| явления образа из k-ro класса; К — число классов. | 
 | |||
2.Априорная информация о виде плотностей распределения образа в каждом из классов.
3.Априорная информация о величинах вероятностей появле ния образов из различных классов р*.
Априорная информация о числе классов К (мод функции плот ности распределения входного сигнала) может быть трех типов (по мере уменьшения априорной информации): точно известно К — число классов (т. е. мод); число К классов (мод) не более заданного
| /Смак<б | число К классов | (мод) неизвестно. | 
| В первом случае необходимо создание алгоритма решения за | ||
| дачи | самообучения для | конкретного числа классов. Во втором | 
случае необходимо создавать алгоритм самообучения, который, будучи оптимальным для максимального числа классов К макс,
будет оптимальным и для меньшего, каким и может оказаться дей ствительное число классов. В третьем случае, пожалуй, единст венным путем качественного решения задачи самообучения яв ляется построение алгоритма самообучения для постепенно уве личивающегося числа /Смаке- В таком алгоритме нужно вводить
критерий остановки алгоритма при увеличении максимального числа классов /Смаке- Критерием остановки может являться либо
отсутствие увеличения качества самообучения при увеличении /Смаке, либо невозможность реализации алгоритма ввиду его слож
ности.
Априорная информация о виде распределения для каждого из классов может быть трех типов (по мере уменьшения): точно (с точ ностью до конечного числа неизвестных параметров) известен вид распределения; вид распределения неизвестен, но может быть при нята некоторая аппроксимация распределения, которая, естественно, в общем случае приводит к тем большим ошибкам, чем больше не соответствие реальных и аппроксимирующих распределений; вид распределений неизвестен.
57
В зависимости от количества априорной информации о виде распределения для каждого из классов выбирается способ реали зации оптимальной модели СР.
Априорная информация о вероятностях появления образов из различных классов. При представлении суммарного распределения вероятностей входного сигнала системы распознавания образов в виде (2-22) для создания системы представляется априорная ин формация следующих типов о вероятностях появления образов из
| различных | классов | коэффициенты р* равны между собой для | 
| любого k, | коэффициенты р* априори не равны для любого k, но | |
| неизвестны. | 
 | не накладывает практически никаких допол | 
| Первый случай | ||
нительных ограничений на методы решения задач самообучения. Во втором случае введение более широких диапазонов изменения параметров входного сигнала вследствие неравенства р/^ приводит к усложнению процесса самообучения ввиду необходимости при настройке определять кроме параметров распределений для каждого подкласса еще и коэффициенты р*.
2-5. О критериях первичной оптимизации СР в режиме самообучения
Критерий первичной оптимизации также является дополни тельной информацией, закладываемой в систему распознавания образов априорно, наряду с априорной информацией о входном сигнале. Необходимость задания этого критерия заключается в том, что он определяет качество системы распознавания, которого она должна достигнуть в режиме самообучения.
Во всех случаях, описанных выше, когда распределения об разов в классах известны, аппроксимируемы или вообще неизвестны, в принципе возможно применение критерия первичной оптимиза ции самообучающихся систем распознавания образов, по которому разделяющая поверхность (в частном одномерном случае — порог) вычисляется в соответствии со следующим выражением:
| д/ (*) __ q ПрИ уСЛ0ВИИ ^ | (2-23) | |
| дх | dx2 | 
 | 
| Решение этого уравнения | соответствует порогу | (рис. 2-12). | 
В случаях, когда распределения образов в классах могут быть определены или аппроксимированы, можно применить следующий
| критерий | (2-23а) | 
| P\h{x) = | 
которому (на рис. 2-12) отвечает порог h2.
Применение вводимого критерия (2-23) первичной оптимиза ции в режиме самообучения оправдывается нашим представлением о работе человека в режиме самообучения, когда он в случае двух признаков и двух классов (рис. 2-13) делит множество образов на подмножества, проводя разделяющую поверхность по местам наи меньшего сгущения образов.
Легко показать, что решения, оптимальные по данным крите риям первичной оптимизации СР в режиме самообучения, отли чаются друг от друга. Частный случай, изображенный на рис. 2-14,
58
иллюстрирует дополнительные свойства указанных критериев. Здесь можно выделить три возможных случая:
| 
 | 1) | классы | хорошо | разделяются, т. е. пересечение | невелико | |||||||
| (условием этого является то, что или a lt или а 2 много меньше по | ||||||||||||
| ловины | расстояния | между | 
 | 
 | 
 | |||||||
| центрами классов); оптималь | 
 | 
 | 
 | |||||||||
| ные пороги | hx и | /г2, | соответ | 
 | 
 | 
 | ||||||
| ствующие | первому | и | второму | 
 | 
 | 
 | ||||||
| критерию | первичной | оптими | 
 | 
 | 
 | |||||||
| зации, отличаются друг от | 
 | 
 | 
 | |||||||||
| друга | незначительно | (пороги | 
 | 
 | 
 | |||||||
| h± | и | h2 | при | о х = | 0,1 | на | 
 | 
 | 
 | |||
| рис. 2-14, а); | 
 | столь | сильно | 
 | 
 | 
 | ||||||
| 
 | 2) | классы | Рис. 2-12. К введению критериев | |||||||||
| пересекаются, | что | по | первому | |||||||||
| первичной оптимизации | самообу | |||||||||||
| критерию не | получается опти | |||||||||||
| 
 | чающихся СР. | 
 | ||||||||||
| мального порога hv При этом | 
 | 
 | ||||||||||
| 
 | 
 | 
 | ||||||||||
| один | из | параметров | больше | 
 | 
 | сравним | ||||||
| половины расстояния между центрами классов, а второй | ||||||||||||
| с последней | величиной | (рис. 2-14, б, а 2 = | 1)>0,5); | 
 | ||||||||
| 
 | 3) | классы сильно пересекаются, в этом случае пороги hx и h2 | ||||||||||
| также сильно отличаются. Условием этого, | по-видимому, | является | ||||||||||
| то, | что о х и сг2 | имеют тот же по | 
 | if(x) | 
 | |||||||
| рядок, что и половина расстоя | 
 | 
 | ||||||||||
| ния | между | центрами | классов | 
 | 
 | 
 | ||||||
| (рис. 2-14, | в). | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||
| 
 | Полученные результаты име | 
 | 
 | 
 | ||||||||
| ют следующее объяснение: в слу | 
 | 
 | 
 | |||||||||
| чае пп. 1 и 3 | распределение вход | 
 | 
 | 
 | ||||||||
| ного сигнала f (х) является двумо- | 
 | 
 | 
 | |||||||||
| ф | 
 | 
 | 
 | 
 | 
 | 
| °о О | 
 | 
 | 
 | 
 | 
 | 
| О© о | 
 | 
 | 
 | Цх) | б) | 
| ЛОо | 
 | 
 | 
 | ||
| Ж | 
 | / | г | 
 | \вГ 0,5 | 
| 
 | 
 | 
 | 
 | пг П1 б) | |
| Рис. 2-13. Иллюстрация к кри | Рис. 2-14. Сравнение крите | ||||
| терию | (2-231. | риев | первичной | оптимизации | |
| 
 | 
 | СР | в | режиме | самообучения | 
| дальным, тогда | как в случае п. 2 | оно | одномодальное, и как раз | ||
в этом случае не ясен качественный смысл разделения одного «горба» на два класса, тогда как в случаях пп. 1 и 3 пороги разделяют «горбы» двумодального распределения входного сигнала.
Последнее, по нашему мнению, является весомой причиной для введения в определение класса для задачи самообучения огра ничения, связанного с модальностью функции плотности распреде-
59
