
книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfУчитывая, что
|
N |
N |
J ' ' ‘ J7*(x)dx = |
I ' ' ’I /л(*)<*х + |
f ’ • • J /*(x)dx, |
—oo |
S(x)>0 |
S(x)<0 |
получаем окончательное выражение для средней функции риска
|
к |
|
N |
|
|
|
Я = |
Pkh2 + |
!• • |
-I |
|
PkVki- ’hz) fk (x) dx. |
|
2 |
2 |
|||||
|
*=1 |
S(x)<0 |
*=i |
|
||
Легко |
показать, |
что минимум |
в данном случае обес |
|||
печивается |
при условии |
|
|
|
||
|
|
S(x)= 2 |
P k i k i — /**)/*(х). |
|||
|
|
|
f t = l |
|
|
Это есть уравнение для оптимальной разделяющей по верхности, определяющее оптимальную модель СР.
Система распознавания 8. При оптимизации СР с кон тинуумом классов образов и двумя решениями по крите рию минимума средней функции риска необходимо ввести в рассмотрение матрицу (вектор-строку) L = [1Х(е), /2 (е) ] функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону f' (х/е), к областям многомерного пространства признаков, соответствующих 1-му и 2-му решениям. Условная функция риска есть функ ция риска принятия решения о принадлежности образов
на |
входе СР к совокупности |
образов с распределением |
f |
(х/е). Типичные зависимости |
для функций потерь 1Х(е) |
и /2 (е) представлены на рис. 2-11. В этом случае выраже
ние для |
условной |
функции риска имеет |
следующий вид: |
||
|
N |
|
|
N |
|
г (е) = |
li (е) Г• • |
- Г f (х/е) dx -f |
/2 (е) f • |
• • Гf |
(х/е) dx. |
|
S(x)< 0 |
S (x )> 0 J |
|
||
Здесь |
5 (х) = |
0 — уравнение |
разделяющей |
поверхно |
|
сти в многомерном пространстве признаков. |
|
Средняя функция риска получается усреднением услов ной функции риска по всем значениям е следующим обра зом:
я = |
О С |
о о |
j |
/е (в)х |
J |
r(e)fa(fi)de= |
|||
|
— о о |
— о о |
|
|
N |
|
|
|
N |
X h (е) f • • - |
Г/'(x /e)d x -H 2 (e) |
f • |
• • f f'(x/e)dx de. |
|
S(x)< 0 |
|
|
S(x)^0 |
50
Преобразовывая, получаем окончательное выражение для средней функции риска:
R = J |
/.(е)/в(е) + |
/в(е) М |
8)- - / 2 (е )1 Г • • |
• Г |
f' (x/e)dx\de. |
|||
|
|
|
|
|
|
s(x)<oJ |
I |
|
Для решения задачи минимизации запишем R в не |
||||||||
сколько |
ином |
виде |
|
|
|
|
|
|
|
R = |
C O |
h (8) fs (8) de + |
- |
|
|
||
|
J |
J • • • J |
x |
|
||||
|
|
|
—OO |
— |
S(x)<0 |
|
|
|
|
X |
J* |
[к |
(8) — h (8)]/e(8) f' (x/e) del dx. |
||||
|
|
—OO |
|
|
|
J |
|
Рис. 2-11. Функции потерь для случая континуума классов и двух решений.
а — два класса; б — континуум классов.
Отсюда следует, что минимум R обеспечивается при ус ловии, когда подынтегральное выражение отрицательно внутри области и положительно вне данной области. Сле довательно, минимум R обеспечивается при условии
00
S (x )= j [li (е) — /2 (е)] /Е (е) /' (x/e) de.
—00
51
Система распознавания 10. В случае континуума клас сов образов и Кр решений СР строит в многомерном про странстве признаков К р— 1 разделяющую поверхность.
При оптимизации по критерию минимума средней функ ции риска вводится матрица (вектор-строка)
L = [ M e)’ • •• ’ 1к РЩ
функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону /' (х/е), к областям многомерного пространства признаков, соответствующим 1, 2, Кр-му решению СР. В данном случае выражение для условной функции риска имеет следующий вид:
кN
|
Г(б) = 2 |
hp (е) |
J • |
• ‘ J /' (х/е) dx. |
|||
|
*P=1 |
|
S(feP)(x)>0 |
|
|||
Средняя |
функция риска |
получается |
усреднением г (е) |
||||
по всем значениям |
е: |
|
|
|
|
|
|
|
|
Я = |
00 |
|
|
|
|
|
|
J г (е) /е (e)<ie = |
|
||||
|
|
|
— ОО |
|
|
|
|
|
оо |
к |
|
|
N |
s |
|
|
74 р |
|
,----- -■ |
|
|||
= |
J /е (е) |
1] |
lkp(е) |
J • |
• • J ? (х/е) dx de. |
||
|
ftP = ‘ |
|
S ( fep)(x)>0 |
|
|||
Отсюда определяется оптимальная модель при помощи |
|||||||
системы неравенств: |
|
|
|
|
|
||
S ( V (x )= J |
ш |
L ”(e) — lk |
(е) |
f' (x/e)de< О, |
|||
|
— 00 |
|
|
|
|
|
|
|
|
kp — 1, |
. . . , |
/Ср- |
|
Система распознавания 11. Эти система распознавания континуума классов образов, имеющая континуум реше ний. При оптимизации по критерию минимума средней функции риска вместо матрицы функций
L = [7х (е), . .., lkp (e)j,
введенной в случае континуума классов и Kv решений, необходимо ввести функцию потерь / (xk, е), возникающих при принятии СР решения при наличии на входе образа, принадлежащего совокупности с распределением f' (х/е).
52
?
Выражение для условной функции риска имеет следующий вид:
N
г(г)= |
Г l(xk, е) J • • • \G(xk, x)f'(xk)dxdxk. |
|
|||||
|
xk |
|
х |
|
|
|
|
Средняя функция |
риска |
|
|
|
|
||
R = J r(e)/e(e)de= |
J |
/£(е) |
J |
/ (xk, e) f • • |
x) X |
||
—30 |
—30 |
|
xk |
|
x |
|
|
|
|
|
|
|
N |
|
|
X f' (x/e) dx dxkds = |
J |
j . . . J G (xk, x) X |
|
||||
|
|
|
|
** |
* |
|
|
X |
J /e(e)/(**, e)f'(x/e)de |
dxdxh. |
|
||||
Введем обозначение |
|
|
|
|
|
||
gs (x, xk) = |
J |
/8 (e) l (xk, e) f |
(x/e) de. |
|
— CO
Тогда выражение для средней функции риска примет следующий вид:
|
N |
R = J J- |
• -$G(xk, x)g3(x, xk)dxdxk. |
xk |
x |
Учитывая свойства функции G (xk, x), указанные и ис пользуемые ранее, получаем:
|
N |
|
R = f • |
• |
• fga[X, p (X)] dx, |
J |
X |
J |
где xk =s P (x) — оптимальная модель CP. Решение задачи минимизации R дает выражение для оптимальной модели СР в следующем виде:
dg3 (х, хк) |
= |
0 |
|
|
дхк |
xh=PM |
|
|
|
или с учетом конкретного вида функций |
(х, |
xk) |
||
OO |
|
|
|
|
j /в (e) /' (x/e) - ~ l ( xk> e) |
=P(x) |
de = |
0 . |
|
dxk |
|
|
|
|
— Э С
53
Это наиболее общее выражение для оптимальной модели СР, из которого легко получить любой рассмотренный выше случай.
Для решения практических задач функция распределения / е (е) может в простейшем случае быть представлена или аппрокси
мирована суммой одномерных нормальных законов с различными дисперсиями и математическими ожиданиями, а также любым из известных типовых законов распределения вероятностей.
2-3. Оптимальная модель СР для многомерных сигналов s (п) и xk (п)
Выражение для условной функции риска в случае кон тинуума решений СР имеет следующий вид:
N N
г (s) = |
Г. . . Г / (хА, |
е) Г. . . ГG (xk, х) f |
(х/е) dxdxk. |
|
|
xk |
х |
|
|
Отсюда имеем среднюю функцию риска |
||||
|
N* |
N* |
N |
|
Я = |
• -J> (e)/e( e ) d e = |. • |
.Jf“ |
G(xk, Х)х |
|
|
N* |
|
|
|
X |
J - • -J7e(e)J(**. s)f, (xls)de |
dx dxk, |
или, иначе, при введении дополнительных обозначений
N* |
N |
R=z$- • ’Я ' |
• - f G (x** x)§(xk> x)dxdxk. |
xk |
х |
Как указывалось выше, Е представляет собой прост ранство указаний учителя СР; N* — размерность Е и вы ходного сигнала системы. Остановимся на свойствах функ
ции G (xk, х). Если Л^* = |
1 |
и СР имеет |
/СрДэешений, функ |
||
ция имеет вид: |
|
|
|
|
|
|
1 , если |
* £ S ^ Kp^ (x )> 0 |
, |
||
|
О, |
если х § |
( х )> 0 |
, |
|
а для континуума решений: |
|
|
|
|
|
С(х, * ,) _ ( |
U |
есл" |
*‘ = |
Р <Х)' |
|
1 0 , |
если |
хк =/=Р (х). |
|
54
Для многомерных пространств Е и X k преобразование, описываемое системой, может быть записано в следующем виде:
*1* (n) |
'Pi(x) " |
хк (п) = Р [х (п)] или |
|
_XN*k(n)_ |
V W __ |
Если N* = const и СР имеет дискретное число выход ных градаций, т. е. Кр решений, функция имеет вид:
G fх, kiр’ |
1, |
если x £ S ^ lp |
kN*p) (х)> 0, |
•’ ^N*р) |
если х (£ 5 ^ 1р |
fcjv*p^(х)> 0, |
|
|
О, |
и соответственно для континуума решений СР:
G (х, xw . . ., xN, k) — П, |
если |
xk (п) = Р [х(п)], |
(О, |
если |
хк (п) =/=Р [х(п)]. |
С учетом замечаний о функции G можно записать выра жение для средней функции риска следующим образом:
|
|
N |
|
|
|
R = f ^ \ g [ P ( x ) , x ] d x = |
|
||
|
|
X |
|
|
N |
|
N* |
|
|
= I ■• |
• I J ' |
■• f fz (s) UP (x)., e] f (х/г) ds dx. |
||
X |
|
E |
|
|
Оптимальная |
модель |
CP определяется |
выражением |
|
f ~ f |
<*) |
|
Й ' <x*' |
Л = °- |
где производная — / (xk, |
e)— функция двух переменных: |
|||
xk и s. |
дхк |
v |
|
|
|
|
|
|
|
Пусть каждый из N* выходных каналов имеет К0 града |
ций по амплитуде. Тогда выражение для условной функ
ции риска имеет следующий вид: |
|
|
|||
г [kv . . . , kNt) = |
/с |
• • • |
к. |
J (^ip’ • • |
^n *p' ^i> • • ■ |
2 |
2 |
||||
kN„) |
J • - |
- J |
f' |
[xls = klt |
. .., kN,)dx. |
s (kip......^N*p) (x)>0 |
|
|
|
55
Отсюда получаем среднюю функцию риска Ко к,
N
• • •> |
|
|
|
' •’ ^N*) |
|
J ' • • j |
X |
|
||
|
|
|
|
|
|
s ( fei p ....... ftjv * p )(x)>0 |
|
|
||
|
|
x |
f' {xk = kv |
. . ., |
kNt) dx. |
|
|
|
||
При введении |
дополнительных |
обозначений |
имеем: |
|
||||||
Ко |
|
*. |
|
N |
N |
|
|
|
|
|
|
1\0 |
/----- - |
|
- • • >kfj*р> х^ dx, |
||||||
• |
■ |
■ 2 |
|
J - - - J |
|
* ( V |
||||
*ip_ 1 |
|
*ЛД*р=1 s(feip.....*К*р)(х)>0 |
|
|
|
|||||
где |
|
|
|
Ко |
|
Ко |
|
|
|
|
|
|
|
|
|
|
h |
Ъ |
|
||
|
|
|
|
|
|
|
|
*** |
||
■’ |
^ |
‘Р’ |
|
|
|
|
|
•» KN * р’ |
||
|
|
|
|
|
|
|
|
|||
• • •> ^ / v * ) / E (^ 1’ |
^ N * ) f |
( Х ^6 — ^1’ ' |
' ^ N * ) ' |
|
||||||
Результат минимизации средней функции риска в дан |
||||||||||
ном случае: |
|
|
|
|
|
|
|
|
|
|
S (*lp.... *"’р)( х ) = £ ( С |
. . . . k"N*p, |
х ) - |
|
|
||||||
|
|
|
£ (Л р’ • • •’ kN*р, х) > 0 , |
|
|
|
||||
{Щр' •••> К/*р) = |
(° |
°)> |
|
(Ко. •••, |
К0), |
т. е. всего |
||||
|
|
|
N* |
|
|
~N* |
|
|
|
|
комбинаций. |
|
|
|
|
|
|
|
|
||
Отметим, что, в частности, можно рассматривать случай |
||||||||||
К о = 2 как |
наиболее |
просто |
реализуемый. |
|
|
|||||
2-4. Априорная информация о входном сигнале СР |
|
|||||||||
в режиме самообучения |
|
|
|
|
|
|
||||
Задача самообучения |
отличается |
от задачи |
обучения тем, |
что |
в режиме самообучения в СР не указывается принадлежность об разов к тому или иному классу. В случае обучения СР получаем информацию об организации внутри классов в виде указаний учи теля. В случае самообучения эта информация должна быть зало
56
жена в СР априори. Наверное, разумно при определении класса в режиме самообучения наложить следующее ограничение. Каж дому классу образов должна соответствовать одна мода функции плотности распределения вероятностей входного сигнала х (п) СР.
От априорной информации о входном сигнале систем распозна вания образов существенно зависят методы решения задачи само обучения. Указанную априорную информацию о входном сигнале
можно с методологической точки зрения разделить на три основ ные части.
1. Априорная информация о числе классов или, что то же са мое, информация о числе мод функций плотности распределения входного сигнала. На основании данной априорной информации и предположения о том, что каждый класс имеет свое собственное одномодальное распределение, распределение входного сигнала системы распознавания образов может быть представлено в виде
К
|
/ 0 0 = |
2 |
Pkfk 0 0 . |
(2-22) |
|
|
*=1 |
|
|
где х (п) — входной |
сигнал |
системы распознавания |
образов; |
|
f (х) — плотность распределения |
входного сигнала; fk (х) — плот |
|||
ность распределения |
образов |
в |
k-м классе; р^ — вероятность по |
|
явления образа из k-ro класса; К — число классов. |
|
2.Априорная информация о виде плотностей распределения образа в каждом из классов.
3.Априорная информация о величинах вероятностей появле ния образов из различных классов р*.
Априорная информация о числе классов К (мод функции плот ности распределения входного сигнала) может быть трех типов (по мере уменьшения априорной информации): точно известно К — число классов (т. е. мод); число К классов (мод) не более заданного
/Смак<б |
число К классов |
(мод) неизвестно. |
В первом случае необходимо создание алгоритма решения за |
||
дачи |
самообучения для |
конкретного числа классов. Во втором |
случае необходимо создавать алгоритм самообучения, который, будучи оптимальным для максимального числа классов К макс,
будет оптимальным и для меньшего, каким и может оказаться дей ствительное число классов. В третьем случае, пожалуй, единст венным путем качественного решения задачи самообучения яв ляется построение алгоритма самообучения для постепенно уве личивающегося числа /Смаке- В таком алгоритме нужно вводить
критерий остановки алгоритма при увеличении максимального числа классов /Смаке- Критерием остановки может являться либо
отсутствие увеличения качества самообучения при увеличении /Смаке, либо невозможность реализации алгоритма ввиду его слож
ности.
Априорная информация о виде распределения для каждого из классов может быть трех типов (по мере уменьшения): точно (с точ ностью до конечного числа неизвестных параметров) известен вид распределения; вид распределения неизвестен, но может быть при нята некоторая аппроксимация распределения, которая, естественно, в общем случае приводит к тем большим ошибкам, чем больше не соответствие реальных и аппроксимирующих распределений; вид распределений неизвестен.
57
В зависимости от количества априорной информации о виде распределения для каждого из классов выбирается способ реали зации оптимальной модели СР.
Априорная информация о вероятностях появления образов из различных классов. При представлении суммарного распределения вероятностей входного сигнала системы распознавания образов в виде (2-22) для создания системы представляется априорная ин формация следующих типов о вероятностях появления образов из
различных |
классов |
коэффициенты р* равны между собой для |
любого k, |
коэффициенты р* априори не равны для любого k, но |
|
неизвестны. |
|
не накладывает практически никаких допол |
Первый случай |
нительных ограничений на методы решения задач самообучения. Во втором случае введение более широких диапазонов изменения параметров входного сигнала вследствие неравенства р/^ приводит к усложнению процесса самообучения ввиду необходимости при настройке определять кроме параметров распределений для каждого подкласса еще и коэффициенты р*.
2-5. О критериях первичной оптимизации СР в режиме самообучения
Критерий первичной оптимизации также является дополни тельной информацией, закладываемой в систему распознавания образов априорно, наряду с априорной информацией о входном сигнале. Необходимость задания этого критерия заключается в том, что он определяет качество системы распознавания, которого она должна достигнуть в режиме самообучения.
Во всех случаях, описанных выше, когда распределения об разов в классах известны, аппроксимируемы или вообще неизвестны, в принципе возможно применение критерия первичной оптимиза ции самообучающихся систем распознавания образов, по которому разделяющая поверхность (в частном одномерном случае — порог) вычисляется в соответствии со следующим выражением:
д/ (*) __ q ПрИ уСЛ0ВИИ ^ |
(2-23) |
|
дх |
dx2 |
|
Решение этого уравнения |
соответствует порогу |
(рис. 2-12). |
В случаях, когда распределения образов в классах могут быть определены или аппроксимированы, можно применить следующий
критерий |
(2-23а) |
P\h{x) = |
которому (на рис. 2-12) отвечает порог h2.
Применение вводимого критерия (2-23) первичной оптимиза ции в режиме самообучения оправдывается нашим представлением о работе человека в режиме самообучения, когда он в случае двух признаков и двух классов (рис. 2-13) делит множество образов на подмножества, проводя разделяющую поверхность по местам наи меньшего сгущения образов.
Легко показать, что решения, оптимальные по данным крите риям первичной оптимизации СР в режиме самообучения, отли чаются друг от друга. Частный случай, изображенный на рис. 2-14,
58
иллюстрирует дополнительные свойства указанных критериев. Здесь можно выделить три возможных случая:
|
1) |
классы |
хорошо |
разделяются, т. е. пересечение |
невелико |
|||||||
(условием этого является то, что или a lt или а 2 много меньше по |
||||||||||||
ловины |
расстояния |
между |
|
|
|
|||||||
центрами классов); оптималь |
|
|
|
|||||||||
ные пороги |
hx и |
/г2, |
соответ |
|
|
|
||||||
ствующие |
первому |
и |
второму |
|
|
|
||||||
критерию |
первичной |
оптими |
|
|
|
|||||||
зации, отличаются друг от |
|
|
|
|||||||||
друга |
незначительно |
(пороги |
|
|
|
|||||||
h± |
и |
h2 |
при |
о х = |
0,1 |
на |
|
|
|
|||
рис. 2-14, а); |
|
столь |
сильно |
|
|
|
||||||
|
2) |
классы |
Рис. 2-12. К введению критериев |
|||||||||
пересекаются, |
что |
по |
первому |
|||||||||
первичной оптимизации |
самообу |
|||||||||||
критерию не |
получается опти |
|||||||||||
|
чающихся СР. |
|
||||||||||
мального порога hv При этом |
|
|
||||||||||
|
|
|
||||||||||
один |
из |
параметров |
больше |
|
|
сравним |
||||||
половины расстояния между центрами классов, а второй |
||||||||||||
с последней |
величиной |
(рис. 2-14, б, а 2 = |
1)>0,5); |
|
||||||||
|
3) |
классы сильно пересекаются, в этом случае пороги hx и h2 |
||||||||||
также сильно отличаются. Условием этого, |
по-видимому, |
является |
||||||||||
то, |
что о х и сг2 |
имеют тот же по |
|
if(x) |
|
|||||||
рядок, что и половина расстоя |
|
|
||||||||||
ния |
между |
центрами |
классов |
|
|
|
||||||
(рис. 2-14, |
в). |
|
|
|
|
|
|
|
||||
|
Полученные результаты име |
|
|
|
||||||||
ют следующее объяснение: в слу |
|
|
|
|||||||||
чае пп. 1 и 3 |
распределение вход |
|
|
|
||||||||
ного сигнала f (х) является двумо- |
|
|
|
ф |
|
|
|
|
|
°о О |
|
|
|
|
|
О© о |
|
|
|
Цх) |
б) |
ЛОо |
|
|
|
||
Ж |
|
/ |
г |
|
\вГ 0,5 |
|
|
|
|
пг П1 б) |
|
Рис. 2-13. Иллюстрация к кри |
Рис. 2-14. Сравнение крите |
||||
терию |
(2-231. |
риев |
первичной |
оптимизации |
|
|
|
СР |
в |
режиме |
самообучения |
дальным, тогда |
как в случае п. 2 |
оно |
одномодальное, и как раз |
в этом случае не ясен качественный смысл разделения одного «горба» на два класса, тогда как в случаях пп. 1 и 3 пороги разделяют «горбы» двумодального распределения входного сигнала.
Последнее, по нашему мнению, является весомой причиной для введения в определение класса для задачи самообучения огра ничения, связанного с модальностью функции плотности распреде-
59