Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
34
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

Учитывая, что

 

N

N

J ' ' ‘ J7*(x)dx =

I ' ' ’I /л(*)<*х +

f ’ • • J /*(x)dx,

—oo

S(x)>0

S(x)<0

получаем окончательное выражение для средней функции риска

 

к

 

N

 

 

 

Я =

Pkh2 +

!• •

-I

 

PkVki- ’hz) fk (x) dx.

2

2

 

*=1

S(x)<0

*=i

 

Легко

показать,

что минимум

в данном случае обес­

печивается

при условии

 

 

 

 

 

S(x)= 2

P k i k i — /**)/*(х).

 

 

 

f t = l

 

 

Это есть уравнение для оптимальной разделяющей по­ верхности, определяющее оптимальную модель СР.

Система распознавания 8. При оптимизации СР с кон­ тинуумом классов образов и двумя решениями по крите­ рию минимума средней функции риска необходимо ввести в рассмотрение матрицу (вектор-строку) L = [1Х(е), /2 (е) ] функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону f' (х/е), к областям многомерного пространства признаков, соответствующих 1-му и 2-му решениям. Условная функция риска есть функ­ ция риска принятия решения о принадлежности образов

на

входе СР к совокупности

образов с распределением

f

(х/е). Типичные зависимости

для функций потерь (е)

и /2 (е) представлены на рис. 2-11. В этом случае выраже­

ние для

условной

функции риска имеет

следующий вид:

 

N

 

 

N

 

г (е) =

li (е) Г• •

- Г f (х/е) dx -f

/2 (е) f •

• • Гf

(х/е) dx.

 

S(x)< 0

S (x )> 0 J

 

Здесь

5 (х) =

0 — уравнение

разделяющей

поверхно­

сти в многомерном пространстве признаков.

 

Средняя функция риска получается усреднением услов­ ной функции риска по всем значениям е следующим обра­ зом:

я =

О С

о о

j

/е (в)х

J

r(e)fa(fi)de=

 

— о о

— о о

 

N

 

 

 

N

X h (е) f • • -

Г/'(x /e)d x -H 2 (e)

f •

• • f f'(x/e)dx de.

S(x)< 0

 

 

S(x)^0

50

Преобразовывая, получаем окончательное выражение для средней функции риска:

R = J

/.(е)/в(е) +

/в(е) М

8)- - / 2 (е )1 Г • •

Г

f' (x/e)dx\de.

 

 

 

 

 

 

s(x)<oJ

I

Для решения задачи минимизации запишем R в не­

сколько

ином

виде

 

 

 

 

 

 

R =

C O

h (8) fs (8) de +

-

 

 

 

J

J • • • J

x

 

 

 

 

—OO

S(x)<0

 

 

 

X

J*

(8) — h (8)]/e(8) f' (x/e) del dx.

 

 

—OO

 

 

 

J

 

Рис. 2-11. Функции потерь для случая континуума классов и двух решений.

а — два класса; б — континуум классов.

Отсюда следует, что минимум R обеспечивается при ус­ ловии, когда подынтегральное выражение отрицательно внутри области и положительно вне данной области. Сле­ довательно, минимум R обеспечивается при условии

00

S (x )= j [li (е) — /2 (е)] /Е (е) /' (x/e) de.

—00

51

Система распознавания 10. В случае континуума клас­ сов образов и Кр решений СР строит в многомерном про­ странстве признаков К р— 1 разделяющую поверхность.

При оптимизации по критерию минимума средней функ­ ции риска вводится матрица (вектор-строка)

L = [ M e)’ • •• ’ 1к РЩ

функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону /' (х/е), к областям многомерного пространства признаков, соответствующим 1, 2, Кр-му решению СР. В данном случае выражение для условной функции риска имеет следующий вид:

кN

 

Г(б) = 2

hp (е)

J

• ‘ J /' (х/е) dx.

 

*P=1

 

S(feP)(x)>0

 

Средняя

функция риска

получается

усреднением г (е)

по всем значениям

е:

 

 

 

 

 

 

 

Я =

00

 

 

 

 

 

 

J г (е) /е (e)<ie =

 

 

 

 

— ОО

 

 

 

 

 

оо

к

 

 

N

s

 

 

74 р

 

,----- -■

 

=

J /е (е)

1]

lkp(е)

J

• • J ? (х/е) dx de.

 

ftP = ‘

 

S ( fep)(x)>0

 

Отсюда определяется оптимальная модель при помощи

системы неравенств:

 

 

 

 

 

S ( V (x )= J

ш

L ”(e) — lk

(е)

f' (x/e)de< О,

 

— 00

 

 

 

 

 

 

 

 

kp — 1,

. . . ,

/Ср-

 

Система распознавания 11. Эти система распознавания континуума классов образов, имеющая континуум реше­ ний. При оптимизации по критерию минимума средней функции риска вместо матрицы функций

L = [7х (е), . .., lkp (e)j,

введенной в случае континуума классов и Kv решений, необходимо ввести функцию потерь / (xk, е), возникающих при принятии СР решения при наличии на входе образа, принадлежащего совокупности с распределением f' (х/е).

52

?

Выражение для условной функции риска имеет следующий вид:

N

г(г)=

Г l(xk, е) J • • • \G(xk, x)f'(xk)dxdxk.

 

 

xk

 

х

 

 

 

 

Средняя функция

риска

 

 

 

 

R = J r(e)/e(e)de=

J

/£(е)

J

/ (xk, e) f • •

x) X

30

30

 

xk

 

x

 

 

 

 

 

 

N

 

 

X f' (x/e) dx dxkds =

J

j . . . J G (xk, x) X

 

 

 

 

 

**

*

 

 

X

J /e(e)/(**, e)f'(x/e)de

dxdxh.

 

Введем обозначение

 

 

 

 

 

gs (x, xk) =

J

/8 (e) l (xk, e) f

(x/e) de.

 

— CO

Тогда выражение для средней функции риска примет следующий вид:

 

N

R = J J-

-$G(xk, x)g3(x, xk)dxdxk.

xk

x

Учитывая свойства функции G (xk, x), указанные и ис­ пользуемые ранее, получаем:

 

N

 

R = f •

• fga[X, p (X)] dx,

J

X

J

где xk =s P (x) — оптимальная модель CP. Решение задачи минимизации R дает выражение для оптимальной модели СР в следующем виде:

dg3 (х, хк)

=

0

 

 

дхк

xh=PM

 

 

 

или с учетом конкретного вида функций

(х,

xk)

OO

 

 

 

 

j /в (e) /' (x/e) - ~ l ( xk> e)

=P(x)

de =

0 .

dxk

 

 

 

 

— Э С

53

Это наиболее общее выражение для оптимальной модели СР, из которого легко получить любой рассмотренный выше случай.

Для решения практических задач функция распределения / е (е) может в простейшем случае быть представлена или аппрокси­

мирована суммой одномерных нормальных законов с различными дисперсиями и математическими ожиданиями, а также любым из известных типовых законов распределения вероятностей.

2-3. Оптимальная модель СР для многомерных сигналов s (п) и xk (п)

Выражение для условной функции риска в случае кон­ тинуума решений СР имеет следующий вид:

N N

г (s) =

Г. . . Г / (хА,

е) Г. . . ГG (xk, х) f

(х/е) dxdxk.

 

xk

х

 

 

Отсюда имеем среднюю функцию риска

 

N*

N*

N

 

Я =

• -J> (e)/e( e ) d e = |. •

.Jf“

G(xk, Х)х

 

N*

 

 

 

X

J - • -J7e(e)J(**. s)f, (xls)de

dx dxk,

или, иначе, при введении дополнительных обозначений

N*

N

R=z$- • ’Я '

• - f G (x** x)§(xk> x)dxdxk.

xk

х

Как указывалось выше, Е представляет собой прост­ ранство указаний учителя СР; N* — размерность Е и вы­ ходного сигнала системы. Остановимся на свойствах функ­

ции G (xk, х). Если Л^* =

1

и СР имеет

/СрДэешений, функ­

ция имеет вид:

 

 

 

 

 

 

1 , если

* £ S ^ Kp^ (x )> 0

,

 

О,

если х §

( х )> 0

,

а для континуума решений:

 

 

 

 

С(х, * ,) _ (

U

есл"

*‘ =

Р <Х)'

 

1 0 ,

если

хк =/=Р (х).

 

54

Для многомерных пространств Е и X k преобразование, описываемое системой, может быть записано в следующем виде:

*1* (n)

'Pi(x) "

хк (п) = Р [х (п)] или

 

_XN*k(n)_

V W __

Если N* = const и СР имеет дискретное число выход­ ных градаций, т. е. Кр решений, функция имеет вид:

G fх, kiр

1,

если x £ S ^ lp

kN*p) (х)> 0,

•’ ^N*р)

если х (£ 5 ^ 1р

fcjv*p^(х)> 0,

 

О,

и соответственно для континуума решений СР:

G (х, xw . . ., xN, k) П,

если

xk (п) = Р [х(п)],

(О,

если

хк (п) =/=Р [х(п)].

С учетом замечаний о функции G можно записать выра­ жение для средней функции риска следующим образом:

 

 

N

 

 

 

R = f ^ \ g [ P ( x ) , x ] d x =

 

 

 

X

 

 

N

 

N*

 

 

= I ■•

• I J '

■• f fz (s) UP (x)., e] f (х/г) ds dx.

X

 

E

 

 

Оптимальная

модель

CP определяется

выражением

f ~ f

<*)

 

Й ' <x*'

Л = °-

где производная — / (xk,

e)— функция двух переменных:

xk и s.

дхк

v

 

 

 

 

 

 

Пусть каждый из N* выходных каналов имеет К0 града­

ций по амплитуде. Тогда выражение для условной функ­

ции риска имеет следующий вид:

 

 

г [kv . . . , kNt) =

• • •

к.

J (^ip’ • •

^n *p' ^i> • • ■

2

2

kN„)

J • -

- J

f'

[xls = klt

. .., kN,)dx.

s (kip......^N*p) (x)>0

 

 

 

55

Отсюда получаем среднюю функцию риска Ко к,

N

• • •>

 

 

 

' •’ ^N*)

 

J ' • • j

X

 

 

 

 

 

 

 

s ( fei p ....... ftjv * p )(x)>0

 

 

 

 

x

f' {xk = kv

. . .,

kNt) dx.

 

 

 

При введении

дополнительных

обозначений

имеем:

 

Ко

 

*.

 

N

N

 

 

 

 

 

1\0

/----- -

 

- • >kfj*р> х^ dx,

■ 2

 

J - - - J

 

* ( V

*ip_ 1

 

*ЛД*р=1 s(feip.....*К*р)(х)>0

 

 

 

где

 

 

 

Ко

 

Ко

 

 

 

 

 

 

 

 

 

 

h

Ъ

 

 

 

 

 

 

 

 

 

***

■’

^

‘Р’

 

 

 

 

 

•» KN * р’

 

 

 

 

 

 

 

 

• • •> ^ / v * ) / E (^ 1’

^ N * ) f

( Х ^6 — ^1’ '

' ^ N * ) '

 

Результат минимизации средней функции риска в дан­

ном случае:

 

 

 

 

 

 

 

 

 

 

S (*lp.... *"’р)( х ) = £ ( С

. . . . k"N*p,

х ) -

 

 

 

 

 

£ (Л р’ • • •’ kN*р, х) > 0 ,

 

 

 

{Щр' •••> К/*р) =

°)>

 

(Ко. •••,

К0),

т. е. всего

 

 

 

N*

 

 

~N*

 

 

 

комбинаций.

 

 

 

 

 

 

 

 

Отметим, что, в частности, можно рассматривать случай

К о = 2 как

наиболее

просто

реализуемый.

 

 

2-4. Априорная информация о входном сигнале СР

 

в режиме самообучения

 

 

 

 

 

 

Задача самообучения

отличается

от задачи

обучения тем,

что

в режиме самообучения в СР не указывается принадлежность об­ разов к тому или иному классу. В случае обучения СР получаем информацию об организации внутри классов в виде указаний учи­ теля. В случае самообучения эта информация должна быть зало­

56

жена в СР априори. Наверное, разумно при определении класса в режиме самообучения наложить следующее ограничение. Каж­ дому классу образов должна соответствовать одна мода функции плотности распределения вероятностей входного сигнала х (п) СР.

От априорной информации о входном сигнале систем распозна­ вания образов существенно зависят методы решения задачи само­ обучения. Указанную априорную информацию о входном сигнале

можно с методологической точки зрения разделить на три основ­ ные части.

1. Априорная информация о числе классов или, что то же са­ мое, информация о числе мод функций плотности распределения входного сигнала. На основании данной априорной информации и предположения о том, что каждый класс имеет свое собственное одномодальное распределение, распределение входного сигнала системы распознавания образов может быть представлено в виде

К

 

/ 0 0 =

2

Pkfk 0 0 .

(2-22)

 

 

*=1

 

где х (п) — входной

сигнал

системы распознавания

образов;

f (х) — плотность распределения

входного сигнала; fk (х) — плот­

ность распределения

образов

в

k-м классе; р^ — вероятность по­

явления образа из k-ro класса; К — число классов.

 

2.Априорная информация о виде плотностей распределения образа в каждом из классов.

3.Априорная информация о величинах вероятностей появле­ ния образов из различных классов р*.

Априорная информация о числе классов К (мод функции плот­ ности распределения входного сигнала) может быть трех типов (по мере уменьшения априорной информации): точно известно К — число классов (т. е. мод); число К классов (мод) не более заданного

/Смак<б

число К классов

(мод) неизвестно.

В первом случае необходимо создание алгоритма решения за­

дачи

самообучения для

конкретного числа классов. Во втором

случае необходимо создавать алгоритм самообучения, который, будучи оптимальным для максимального числа классов К макс,

будет оптимальным и для меньшего, каким и может оказаться дей­ ствительное число классов. В третьем случае, пожалуй, единст­ венным путем качественного решения задачи самообучения яв­ ляется построение алгоритма самообучения для постепенно уве­ личивающегося числа /Смаке- В таком алгоритме нужно вводить

критерий остановки алгоритма при увеличении максимального числа классов /Смаке- Критерием остановки может являться либо

отсутствие увеличения качества самообучения при увеличении /Смаке, либо невозможность реализации алгоритма ввиду его слож­

ности.

Априорная информация о виде распределения для каждого из классов может быть трех типов (по мере уменьшения): точно (с точ­ ностью до конечного числа неизвестных параметров) известен вид распределения; вид распределения неизвестен, но может быть при­ нята некоторая аппроксимация распределения, которая, естественно, в общем случае приводит к тем большим ошибкам, чем больше не­ соответствие реальных и аппроксимирующих распределений; вид распределений неизвестен.

57

В зависимости от количества априорной информации о виде распределения для каждого из классов выбирается способ реали­ зации оптимальной модели СР.

Априорная информация о вероятностях появления образов из различных классов. При представлении суммарного распределения вероятностей входного сигнала системы распознавания образов в виде (2-22) для создания системы представляется априорная ин­ формация следующих типов о вероятностях появления образов из

различных

классов

коэффициенты р* равны между собой для

любого k,

коэффициенты р* априори не равны для любого k, но

неизвестны.

 

не накладывает практически никаких допол­

Первый случай

нительных ограничений на методы решения задач самообучения. Во втором случае введение более широких диапазонов изменения параметров входного сигнала вследствие неравенства р/^ приводит к усложнению процесса самообучения ввиду необходимости при настройке определять кроме параметров распределений для каждого подкласса еще и коэффициенты р*.

2-5. О критериях первичной оптимизации СР в режиме самообучения

Критерий первичной оптимизации также является дополни­ тельной информацией, закладываемой в систему распознавания образов априорно, наряду с априорной информацией о входном сигнале. Необходимость задания этого критерия заключается в том, что он определяет качество системы распознавания, которого она должна достигнуть в режиме самообучения.

Во всех случаях, описанных выше, когда распределения об­ разов в классах известны, аппроксимируемы или вообще неизвестны, в принципе возможно применение критерия первичной оптимиза­ ции самообучающихся систем распознавания образов, по которому разделяющая поверхность (в частном одномерном случае — порог) вычисляется в соответствии со следующим выражением:

д/ (*) __ q ПрИ уСЛ0ВИИ ^

(2-23)

дх

dx2

 

Решение этого уравнения

соответствует порогу

(рис. 2-12).

В случаях, когда распределения образов в классах могут быть определены или аппроксимированы, можно применить следующий

критерий

(2-23а)

P\h{x) =

которому (на рис. 2-12) отвечает порог h2.

Применение вводимого критерия (2-23) первичной оптимиза­ ции в режиме самообучения оправдывается нашим представлением о работе человека в режиме самообучения, когда он в случае двух признаков и двух классов (рис. 2-13) делит множество образов на подмножества, проводя разделяющую поверхность по местам наи­ меньшего сгущения образов.

Легко показать, что решения, оптимальные по данным крите­ риям первичной оптимизации СР в режиме самообучения, отли­ чаются друг от друга. Частный случай, изображенный на рис. 2-14,

58

иллюстрирует дополнительные свойства указанных критериев. Здесь можно выделить три возможных случая:

 

1)

классы

хорошо

разделяются, т. е. пересечение

невелико

(условием этого является то, что или a lt или а 2 много меньше по­

ловины

расстояния

между

 

 

 

центрами классов); оптималь­

 

 

 

ные пороги

hx и

/г2,

соответ­

 

 

 

ствующие

первому

и

второму

 

 

 

критерию

первичной

оптими­

 

 

 

зации, отличаются друг от

 

 

 

друга

незначительно

(пороги

 

 

 

и

h2

при

о х =

0,1

на

 

 

 

рис. 2-14, а);

 

столь

сильно

 

 

 

 

2)

классы

Рис. 2-12. К введению критериев

пересекаются,

что

по

первому

первичной оптимизации

самообу­

критерию не

получается опти­

 

чающихся СР.

 

мального порога hv При этом

 

 

 

 

 

один

из

параметров

больше

 

 

сравним

половины расстояния между центрами классов, а второй

с последней

величиной

(рис. 2-14, б, а 2 =

1)>0,5);

 

 

3)

классы сильно пересекаются, в этом случае пороги hx и h2

также сильно отличаются. Условием этого,

по-видимому,

является

то,

что о х и сг2

имеют тот же по­

 

if(x)

 

рядок, что и половина расстоя­

 

 

ния

между

центрами

классов

 

 

 

(рис. 2-14,

в).

 

 

 

 

 

 

 

 

Полученные результаты име­

 

 

 

ют следующее объяснение: в слу­

 

 

 

чае пп. 1 и 3

распределение вход­

 

 

 

ного сигнала f (х) является двумо-

 

 

 

ф

 

 

 

 

 

°о О

 

 

 

 

 

О© о

 

 

 

Цх)

б)

ЛОо

 

 

 

Ж

 

/

г

 

\вГ 0,5

 

 

 

 

пг П1 б)

Рис. 2-13. Иллюстрация к кри­

Рис. 2-14. Сравнение крите­

терию

(2-231.

риев

первичной

оптимизации

 

 

СР

в

режиме

самообучения

дальным, тогда

как в случае п. 2

оно

одномодальное, и как раз

в этом случае не ясен качественный смысл разделения одного «горба» на два класса, тогда как в случаях пп. 1 и 3 пороги разделяют «горбы» двумодального распределения входного сигнала.

Последнее, по нашему мнению, является весомой причиной для введения в определение класса для задачи самообучения огра­ ничения, связанного с модальностью функции плотности распреде-

59

Соседние файлы в папке книги из ГПНТБ