Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
34
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

обучения критерием информативности признаков может быть средняя функция риска, то в режиме самообучения таким критерием может быть специальная средняя функция риска р (х, xk) (гл, 2). Роль подобной оценки велика хотя бы потому, что никаких упрощенных оценок (вроде дивер­ генции и средней условной энтропии для режима обучения) для режима самообучения неизвестно.

10-3. Определение оптимального маршрута выбора признаков, обеспечивающих максимальную вероятность правильного распознавания

Задача выбора N x<iN признаков эквивалентна задаче выбора минимального числа признаков из N, обеспечиваю­ щих заданную величину Р прав.

Решение задачи попутно должно обеспечивать и ранжи­ ровку признаков по информативности. В случае независи­ мых признаков, вычисляя ошибку распознавания для ан­ самбля из N признаков, включающего данный признак, а затем для ансамбля, не содержащего данный признак, можно определить, сравнивая полученные вероятности ошибки, следует ли использовать данный признак. После подобного определения информативности каждого признака следует выбрать те N г<СN признаков, информативность которых больше. Эта процедура решения поставленной за­ дачи обеспечивает оптимальное решение только на уровне гипотезы о независимости признаков. В случае зависимых признаков подобная процедура состоит из следующих этапов:

1) все N признаков исключаются поочередно так, как в описанной выше процедуре;

2 ) в пространстве оставшихся (N1) признаков опреде­ ляется качество распознавания;

3)исключению подлежит тот признак, отсутствие ко­ торого наименее сильно изменило качество распознавания;

4)затем поочередно исключаются остальные (N-—1) признаки и из группы в (N—1) исключается второй при­ знак;

5)процедура повторяется (NNj) раз.

Подобная процедура не является полностью оптималь­ ной при зависимых признаках, а лишь близка к ней. Не­ которые авторы считают единственно оптимальной проце­ дуру полного перебора по той причине, что малоинформа­ тивные сами по себе, но сильно коррелированные признаки

300

могут составлять малоинформативную систему. Кроме того, известны аппроксимирующие оптимальное решение под­ ходы к выбору оптимального маршрута: метод случайного поиска с адаптацией, разработанный Г. С. Лбовым, метод, использующий разложение Карунена—Лоэва; метод, ос­ нованный на процедуре динамического программирования.

10-4. О структурных методах выбора информативных признаков в СР с фиксированной структурой

Структурные методы выбора информативных призна­ ков предполагают оценку информативности признаков ис­ ходного пространства по параметрам и структуре опти­

мально настроенной СР.

В дан­

 

 

 

 

ном пункте структурные

методы

 

 

 

 

оценки

информативности

иллю­

 

 

 

 

стрируются

на

примере

ЛПЭ.

 

 

 

 

Показывается возможность оцен­

 

 

 

 

ки

информативности

признаков

 

 

 

 

по

соответствующим

оптималь­

 

 

 

 

ным коэффициентам ЛПЭ. Есте­

 

 

 

 

ственно, что ЛПЭ является прак­

 

 

 

 

тически простейшей СР; поэтому

 

 

 

 

в соответствии с тезисом 1 ,

изло­

Рис. 10-3. К доказатель­

женным в § 10-1, данная

про­

ству

возможности

исполь­

цедура

выбора

информативных

зования

коэффициентов

признаков

имеет

и

свои

 

огра­

ЛПЭ

в

качестве

оценок

ничения

в

плане

субъективизма

информативности

призна­

оценки

информативности

 

приз­

 

 

ков.

 

 

 

 

 

 

наков. Ниже будут указаны и другие ограничения, присущие ЛПЭ в рассматриваемой процедуре.

Остановимся на СР типа ЛПЭ и ЛПЭ со слоем нелиней­ ных или нелинейно-случайных преобразований (гл. 4). СР в виде ЛПЭ является оптимальной для совокупностей образов, распределенных по многомерным нормальным за­ конам с равными ковариационными матрицами. Для слу­ чая единичных (с точностью до постоянного множителя) ковариационных матриц степень пересечения классов по каждому из признаков определяется соответствующим уг­ лом наклона оптимальной линейной разделяющей поверх­ ности (рис. 10-3). На рис. 10-3 круги — линии равных зна­ чений плотностей /у (х) и / 2 (х). Если считать, как и выше, вероятность правильного распознавания основным крите­

301

рием информативности признаков, то в данном случае легко показать, что i-й коэффициент оптимальной линейной раз­ деляющей поверхности может служить относительной оценкой информативности i-ro признака.

Доказательство проводится двумя этапами. Сначала до­ казывается монотонность на некотором интервале измене­ ния вероятности правильного распознавания в зависимо­ сти от угла наклона гиперплоскости к оси, соответствующей выбранному признаку, затем монотонность изменения дан­ ного угла в зависимости от величины соответствующего коэффициента линейной разделяющей поверхности.

Покажем монотонность зависимости величины вероятности ошибки по каждому из признаков х i и X j от соответствующего ко­ эффициента оптимальной линейной разделяющей поверхности (рис. 10-3). Обозначим х = (дц-, X j ) . Пусть /ц (х) и f 2 (х) — нормаль­ ные двумерные плотности с координатами центров классов ах и а2, расположенными на некотором расстоянии друг от друга на прямой под углом р 90° — а (рис. 10-3) к оси признака Xj. Исследуем зависимость

& Р ош/ =

 

J

f / 2 ( X j ) d x j +

f

 

f j t ( x j ) d x j =

 

 

 

3

 

 

 

3

 

 

 

 

x- < — cos P

 

x, > — cos P

 

 

/

2

 

 

> 2

 

 

 

 

 

= 2

j

f j ( Xj ) d x j ,

 

 

 

 

 

 

X ;

з

 

 

 

 

 

 

 

 

> ----- COS 6

 

 

 

 

 

 

 

1

2

 

 

 

 

где fi = fn = fj2.

 

 

 

 

 

 

 

Аналогично

 

 

 

 

 

 

 

APouii =

2

J

fi {xi) d x lt где f{ = fu = fi2.

 

 

 

X ; >

з

 

 

 

 

 

 

 

 

----- S ill

P

 

 

 

 

 

 

 

1

2

 

 

 

 

 

Для оптимальной линейной разделяющей

поверхности

=

cos р ------- sin а;

 

■cos

 

1

 

 

— sin а;

 

 

 

 

 

 

 

 

 

2

Oil =

sin 6 --------cos а;

3

.

. 1

: —

sin p -|------ cos a.

2

 

 

2

 

Так как в случае нормальных законов подынтегральная функ­

ция в ДР0ш является экспонентой,

то ДРош есть

монотонная функ­

ция от а.

 

второй

постановки

задачи

также будем рассматри­

В случае

вать два многомерных

нормальных распределения (xlf . . ., х^)

302

и f2 (*!, . . . , Xfj). Ошибка при отбрасывании j-го признака опре­ деляется:

N - 1

ДР0Ш/ =

J' . . .

J /д (Jtj............

xN) dxv . . .

,

+

 

S (x) <

О

 

 

 

 

 

ЛГ-1

 

 

 

 

 

+

J • • •

I .........

xN ) dxv

■ ■ • -

XN '

 

 

S (x) > 0

 

 

 

 

где ^. = ф (хг

. . . ,

xjl V

. . . , ^

= 9 (a).

 

Вид функции ф в данном частном случае можно легко опреде­ лить. Функции /щ, fj2 определены на гиперплоскости размерности (N — 1). Величина ДР0 ш/ в этом случае также монотонно зависит

от dj, так как подынтегральная функция является экспонентой.

В случае ненормальных распределений коэффициенты оптимального ЛПЭ также могут служить оценкой информа­ тивности признаков, но лишь на уровне такой структуры разомкнутой СР, как ЛПЭ. В случае ненормальных рас­ пределений и нелинейной СР, представляемой в виде по­ следовательного соединения слоя нелинейных преобразо­ ваний с фиксированными коэффициентами и ЛПЭ, коэффи­ циенты ЛПЭ в оптимальной нелинейной СР являются оценками информативности сложных признаков, определяе­ мых слоем нелинейных преобразований. Аналогичный вы­ вод можно сделать также относительно трехслойного персептрона Розенблатта.

Минимизация структуры при рассмотрении алгоритмов настройки многослойных СР с фиксированной структурой и множество этапов настройки с заданием случайных на­ чальных условий является самостоятельной задачей. При этом возникает необходимость усреднения результатов на­ стройки по множеству этапов выброса случайных началь­ ных условий для поиска локально оптимальных значений настраиваемых коэффициентов. При этом, несмотря на то что настройка СР производится при фиксированной струк­ туре, на каждом этапе выброса случайных начальных ус­ ловий возможно проведение минимизации числа ЛПЭ в слоях путем выбрасывания ЛПЭ с одинаковыми (прибли­ женно с точки зрения реакции на входные образы) вели­ чинами коэффициентов, получающихся из-за избыточности фиксированной структуры СР при обеспечении ею локаль­ ного экстремума средней функции риска. Сравнение ука­ занных минимизированных структур и локально оптималь­ ных значений средней функции риска дает непосредствен­

303

ное правило минимизации числа ЛПЭ в многослойной СР, настраивающихся по замкнутому циклу при фиксирован­ ной структуре.

Отдельно необходимо остановиться на вопросе миними­ зации числа ЛПЭ в слое при независимом обучении ЛПЭ с выбором для каждого ЛПЭ случайных начальных усло­ вий (см. гл. 8 и 9). После получения результатов независи­ мого обучения Н г ЛПЭ первого слоя, обеспечивающих ло-

кальный экстремум функ­ ционала оптимизации, за­ дача выбора по результатам настройки одного из Н 1 ЛПЭ, обеспечивающего

Рис. 10-4. Пример минимизации

Рис. 10-5. Иллюстрация

числа ЛПЭ первого слоя много­

к свойству локальной опти­

слойной СР.

мальности процедуры

вы­

1 — первый класс; 2 — второй класс.

бора информативных

при­

 

знаков.

 

1 — первый класс; 2 — второй класс.

экстремальное значение функционала оптимизации, явля­ ется тривиальной. Задача выбора Н°<^Н1 из Я х ЛПЭ, обеспечивающих экстремальное значение функционала оптимизации, является трудной задачей, возможно не­ разрешимой в такой постановке (за исключением пути, связанного с очевидной процедурой полного перебора). Это достаточно легко иллюстрируется на примере рис. 10-4, в котором для каждого варианта выбора порогов (парамет­ ров и структуры первого слоя ЛПЭ) указана в процентах величина вероятности ошибки. На рисунке цифры около' стрелок указывают номер класса.

Сравним на качественном уровне два подхода к решению задачи выбора информативных признаков: подход, описан­ ный выше и связанный с оценкой информативности при­

304

/

знаков только по параметрам и структуре настроенной СР, и подход, описанный Е. С. Енюковым, связанный с оцен­ кой информативности признаков по параметрам настроен­ ной СР и некоторым характеристикам входного сигнала.

Второй подход является отступлением от аксиоматики структурного подхода и менее перспективен, так как не позволяет обобщить результаты на случай сложных и не известных в общем виде распределений /' (х/г). При обоб­ щении на указанный случай первый подход также демон­ стрирует в некоторой степени свою ограниченность, однако эта ограниченность полностью объясняется с позиций те­ зиса о невозможности выбора информативных признаков до окончания этапа настройки (10-1). Поясним это на кон­ кретном примере. На рис. 10-5 представлены линии равных значений /' (х/е) в многомодальном случае и показаны че­ тыре положения линейной разделяющей поверхности, обес­ печивающие локальный экстремум Рправ. Отсюда следует, что при фиксированной структуре разомкнутой СР любая оценка информативности будет не только субъективной, но и локальной, так как настроенная СР с фиксированной структурой обеспечивает лишь локальный экстремум функ­ ционала оптимизации. Эти рассуждения справедливы и для режима самообучения.

10-5. Выбор информативных признаков исходного пространства с помощью многослойных СР с последовательными алгоритмами настройки ЛПЭ первого слоя

Основной вопрос состоит в том, как можно оценить от­ носительную величину вероятности правильного распозна­

вания

по структуре обученной СР и результатам обучения.

Сравниваются в плане информативности две группы при­

знаков. В данном случае можно привести несколько мето­

дов оценки информативности признаков.

 

1.

 

При использовании СР с последовательными алго­

ритмами обучения ЛПЭ первого слоя на некоторой конеч­

ной обучающей выборке обеспечивается заданная величина

Р прав = const, в частности

Р прав =

1- Тогда, если первая

СР с

характеристиками

N

Р 1прав имеет больше

ЛПЭ

в первом

слое, чем вторая

СР с

характеристиками

N 2,

Р 2 прав

=

Р 1 пРав> группа

из N x признаков менее информа­

тивна,

чем группа из N 2 признаков. Это следует из объек­

тивной необходимости большего числа ЛПЭ в первом слое

305

многослойной СР при большем пересечении классов. По­ добный способ оценки информативности признаков исход­ ного пространства верен только при определенных огра­ ничениях, рассмотренных ниже.

2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распоз­ навания. В результате настройки СР имеем кривые изме­ нения Р прав от Н 1 (числа ЛПЭ первого слоя) на совокуп­ ностях признаков N х (СРХ) и N 2 (СР2) (рис. 10-6, а). Рас-

Рис. 10-6. Выбор информативных признаков с помощью СР с переменной структурой.

смотрение кривых показывает, что в данном случае группа признаков N х менее информативна, чем группа признаков

N 2.

Здесь рассматривается

случай, когда превышение ин­

формативности для N 2 п о

сравнению с АД наблюдается

при

любой структуре ( # х)

СР. Данная методика выбора

информативных признаков

включает в себя изложенную

в п.

1 как частную.

 

3.При наличии достаточно большой обучающей выборки

зависимость

Р прав (Д х) имеет

характер, изображенный

на

рис.

10-6, б. Достаточное

приближение

кривой

Рправ

( Я i) К асимптоте (точки 1 и 2) на рис. 10-6,

б озна­

чает переход от статистического режима обучения к детер­ минированному, когда СР заключает в отдельные подобла­ сти совокупности образов с малым числом членов. В данном случае оценка информативности групп признаков должна

306

производиться путем сравнения установившихся значений зависимостей Лправ (Я ^.

4. В случае неоптимального алгоритма настройки на каждом шаге первого слоя многослойной СР в общем слу­ чае имеет место картина, изображенная на рис. 10-6 , 6. В данном случае (более общем, чем предыдущие) оценка информативности производится либо, как ранее в п. 3, либо при любом Я х с оговоркой, что оценка информатив­ ности производится при данном алгоритме настройки и данном числе ЛПЭ в первом слое.

5. Выше принималось, что вся исходная выборка ис­ пользуется на этапе, обучения и оценки информативности, и не учитывалась возможная непредставительность обу­ чающей выборки. Для учета представительности обучаю­ щей выборки необходимо произвести обучение на части АМ х всей исходной выборки. Зачастую для проверки пред­ ставительности необходимо выбирать несколько интерва­ лов ЛУИ,- и помещать их в различных участках исходной выборки. Распознавание обученной СР производится на полном объеме обучающей выборки. Анализ результатов обучения Робуч (Я 1; ЛУИ,-) и распознавания Р расп (Ях) (рис. 10-6 , г) позволяет оценить стационарность и предста­ вительность обучающей выборки, а также информативность отдельных групп признаков.

Минимизация числа ЛПЭ

Процесс последовательности настройки (гл. 9) ЛПЭ первого слоя многослойной СР характеризуется графом, являющимся прадеревом, каждой вершине которого со­ ответствует ЛПЭ с некоторой величиной приращения Р прав> имеющей место при введении данного ЛПЭ. Данный граф является исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из следующих постановок: при заданной величине Р прав минимизировать число вершин графа, при заданном числе вершин с ветвлениями выбором структуры прадерева обеспечить максимальную величину Р прав.

На рис. 10-7 представлена иллюстрация исходной ин­ формации для минимизации прадерева. Слева в кружке указывается номер вершины ЛПЭ в исходном графе. Справа в кружке указан номер ЛПЭ в результирующем оптимизи­ рованном графе. Номер каждого ребра графа совпадает с номером делимой области, причем нумерация областей производится следующим образом (гл. 9). Область с номе­

307

ром у делится на две подобласти с номерами и + 1,

где подобласть с номером

относится к первому

классу,

а подобласть с номером +

1 — ко второму. В

качестве

правила выбора очередной подобласти для деления зача­ стую наиболее целесообразно взять правило выбора той подобласти, которая содержит наибольшее число векторов первого и второго класса. Пунктиром в графе показаны те подобласти, в которых имеется сравнительно незначи­ тельное число векторов. Около каждой вершины графа

Рис. 10-7. Минимизация числа ЛПЭ первого слоя СР

спеременной структурой.

вквадратных скобках указывается приращение Р прав, сбес печиваемое введением соответствующего ЛПЭ. Это прира­ щение может быть и отрицательным из-за неоптимальности (по Р прав) метода настройки отдельного ЛПЭ.

Оптимизация прадерева происходит следующим обра­ зом:

1)в случае первого ветвления (ЛПЭ 3 и ЛПЭ 8 в исход­ ном графе) сравниваются приращения Р прав. К оптимизи­ рованному графу относится ЛПЭ с максимальным прира­

щением Р прав (на графе ЛПЭ

3);

2) далее сравниваются по

величине Д.Рправ ЛПЭ дан­

ного и последующих ветвлений (ЛПЭ 8 и ЛПЭ 4) и также выбирается ЛПЭ с максимальным значением ДРправ и включается в оптимизированный граф;

308

3) данный процесс продолжается до тех пор, пока сумма приращений вероятностей правильного распознавания не достигнет заданной величины Р прав или пока число вершин графа не достигнет заданной величины.

На рис. 10-7, а данная процедура приводит к оптималь­ ному обходу вершин графа так, как обозначено в кружках

(вершинах) справа. На рис. 10-7,

б представлен результат

оптимизации

графа рис.

10-7, а

для двух критериев:

Рправ>0,7 и

Р ПраВ> 0,73 .

В оптимальном графе порядок

обхода вершин не совпадает с обходом вершин на этапе обучения.

Исходными данными для обучения ЛГ1Э второго слоя многослойной СР, как указывалось в гл. 9, являются ло­ гическая функция, дополненная определенным образом и составляющая обучающую выборку и значение вероятно­ сти ошибки, соответствующее каждой подобласти (т. е. каждой реализации логической функции).

Идея применения последовательных алгоритмов для обучения ЛПЭ второго слоя заключается в использовании последовательных алгоритмов с учетом для каждого обу­ чающего вектора веса, определяемого Рош в подобласти, соответствующей данному вектору. При обучении ошибка в подобласти подсчитывается как сумма ошибок для всех векторов, неправильно отнесенных к тому или иному классу. Идея минимизации числа ЛПЭ второго и последую­ щих слоев многослойной СР в данном случае остается той же, что и для ЛПЭ первого слоя. Необходимо лишь отме­ тить, что чем больше номер слоя, тем менее актуальной становится задача минимизации числа ЛПЭ в слое ввиду специфики структуры разомкнутой многослойной СР, свя­ занной с уменьшением числа ЛПЭ от первого слоя к выходу вследствие сжатия информации.

10-6. О выборе информативных признаков

вмногослойных СР в режиме самообучения

Врежиме самообучения справедливы все постановки

задачи выбора информативных признаков, описанные в в § 10-1. Меняются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием яв­ ляется значение средней функции риска (в частном случае, вероятности правильного распознавания), то в режиме самообучения критерием информативности признаков яв-'. ляется значение специальной средней функции риска. С дан­

309

Соседние файлы в папке книги из ГПНТБ