Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
34
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

достижении заданного числа гиперплоскостей (числа ЛПЭ первого слоя многослойной СР).

Структурная схема программы ЦВМ, реализующей ал­ горитм построения кусочно-линейной разделяющей поверх­ ности, приведена на рис. 9-5. Назначение большинства опе­ раторов понятно из вы­ шеизложенного, поясним

лишь три из них.

 

 

 

 

Оператор

«Логическое

 

 

 

 

дерево'». Для пояснения его

 

 

 

 

работы

удобно

воспользо­

 

 

 

 

ваться рис. 9-4,

на

кото­

 

 

 

 

ром приведено

логическое

 

 

 

 

дерево для

построения раз­

 

 

 

 

деляющей

 

поверхности,

 

 

 

 

изображенной на рис. 9-3.

 

 

 

 

Как видно из рис. 9-4,

вер­

 

 

 

 

шины

дерева

могут

 

быть

 

 

 

 

двух типов: промежуточ­

 

 

 

 

ные вершины, вершины,

 

 

 

 

являющиеся

концами

де­

 

 

 

 

рева.

 

 

 

 

 

 

 

 

 

 

Началом дерева («кор­

 

 

 

 

нем»)

является

вершина

 

 

 

 

с индексом нуль, а концы

 

 

 

 

дерева соответствуют опре­

 

 

 

 

деленным классам образов.

 

 

 

 

Любой образ х после

при­

 

 

 

 

менения к

нему

оператора

 

 

 

 

«Логическое дерево» попа­

 

 

 

 

дает в один из концов де­

 

 

 

 

рева и относится к соот­

Рис. 9-5. Структурная схема про­

ветствующему классу обра­

граммы ЦВМ, реализующей про­

зов. Для принятия решения

цесс последовательного построе­

о направлении дальнейшего

ния кусочно-линейной разделяю­

движения

из

вершины t,

 

щей поверхности.

 

 

 

 

 

/, k, . . . ,

t

используется

 

sign <рijk

t (x) >- 0,

 

функция

фг,

 

k.......t (х).

Если

то дальнейшее движение

проис­

ходит

по правой

ветви, в

противном

случае — по

левой

ветви. При использовании ЦВМ вершины логического де­ рева удобно пронумеровать последовательно, так как ин­ дексация переменной длины очень наглядна при объясне­ нии работы алгоритма, но не удобна при программирова­

270

нии. Логическое дерево рис. 9-4,

а при последовательной

' нумерации вершин принимает

вид, изображенный на

рис. 9-4, б. Логическое дерево удобно описывать матрицей, имеющей три столбца:

г о

2

3 “

0

4

5

0

6

7

1

0

0

0

8

9

1

0

0

0

10

11

1

0

0

2

0

0

1

0

0

2

0

0

Каждой вершине логического дерева с номером s соот­ ветствует s-я строка матрицы С. Поясним смысл строк мат­ рицы, которые, как и вершины, могут быть двух видов. Строка вида (0 s s + 1) описывает промежуточную вершину дерева. Берется разделяющая поверхность cps = 0, соот­ ветствующая этой вершине, и в зависимости от sign cps (х)

происходит переход к вершине s,

если sign cps = — 1, или

к вершине s + 1, если sign (ps =

1. Если же строка имеет

вид (k 0 0 ), где k =

1, 2 ,

то она описывает один из концов

логического дерева.

Если

после последовательного исполь­

зования нескольких разделяющих поверхностей точка Xj

попала в

вершину,

описываемую подобным

образом, то

ее следует отнести к

классу A k. Проведение

новой

гипер­

плоскости

с р (х) вызывает построение двух

новых

ветвей

дерева, отходящих от вершины i. При этом матрица, имею­ щая U строк, получает две новые строки с номерами (U + 1) и (U + 2) следующего вида:

U + 1 : 1 0 0

U + 2": 2 0 0,

а в i-ю строку заносится запись

0 U + 1 U + 2,

т. е. теперь i-я вершина является промежуточной вершиной

логического дерева.

Оператор «Проведение дополнительной разделяющей по­ верхности» может использовать практически любой алго­ ритм настройки ЛПЭ, описанный в гл. 7. Более того, дан­

271

ный оператор может реализовать любую СР с фиксирован­ ной структурой, описанную в гл. 7.

Оператор «Проверка улучшения качества» предназначен для проверки улучшения качества распознавания. Резуль­ таты работы этого оператора используются для процесса построения логического дерева: если качество улучшилось, то дальнейшему делению подвергается область, например, с наибольшим значением средней функции риска; в против­ ном случае делению подвергаются области, полученные при последнем делении.

9-2. Алгоритм обучения ЛПЭ первого слоя многослойной СР с применением метода случайного поиска локальных и глобального экстремумов функций

На основе метода случайного поиска локальных и гло­ бального экстремумов функций многих переменных, изло­ женного в гл. 6 , был разработан алгоритм обучения ЛПЭ

Рис. 9-6. Иллюстрация

Рис. 9-7. Свойство многоэкстре-

к методу обучения ЛПЭ

мальности средней функции рис­

первого слоя многослой­

ка при многомодальных распре­

ной СР с

применением

деленных I (х)/б.

алгоритмов

случайного

 

поиска.

первого слоя многослойной СР. В данном случае можно отказаться от построения древообразной структуры и в пер­ вый слой включаются все ЛПЭ, обеспечивающие локальные экстремумы средней функции риска (рис. 9-6, 9-7). На рис. 9-6 четыре гиперплоскости в двумерном пространстве признаков определяют четыре локальных экстремума сред­ ней функции риска. Цифрами в кружке обозначены номера аргумента логической функции, соответствующие каждой области многомерного пространства признаков. В табл. 9-1 даны значения логической функции (для примера рис. 9-6),

272

реализуемой в многослойной СР слоями ЛГ1Э, кроме пер­ вого. Звездочкой в таблице обозначены те значения логи­ ческой функции, которые не являются определенными при данном значении аргументов (при данной на рис. 9-6 кон­ фигурации разделяющей поверхности). Индексом нуль обозначены области пространства признаков, в которых нет образов ни первого, ни второго класса.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

9-1

2

0

1

2

3

4

 

5

6

7

8

9

10

11

12

13

14

15

xik

—1

1

—1

1

—1

1

—1

i

—1

i

—1

1

—1

 

—1

1

X2k —1 —1 1

1 - 1

—1 1

i —1 —i 1

1

—1 —1

1

X3k

- 1

—1

—1

- 1

1

 

1

1

1

—1 —i —1

—1 1

1

1

1

Xik —1 —1 - 1

—1 —1 —1 —1

—1

1

1

1

 

1

1

1

1

e

*

*

*

*

- 1

 

0

0

*

—1 0

0

*

0

1

1

*

 

Совершенно

очевидно, что

детерминированные

методы

поиска не позволяют выйти за пределы локального экстре­ мума и, пожалуй, единственным выходом из этого положе­ ния является введение элемента случайности в процедуру поиска.

Основные этапы работы алгоритма в каждом цикле со­ стоят в следующем:

а) случайным образом выбираются компоненты вектора настраиваемых коэффициентов очередного ЛПЭ;

б) применяя один из методов обучения ЛПЭ, находим очередной локальный экстремум средней функции риска; в) величина экстремального значения средней функции риска и соответствующие компоненты вектора весовых ко­ эффициентов ЛПЭ сравниваются с содержимым памяти и запоминаются, если ранее этот локальный минимум найден

не был.

На первом цикле по числу ЛПЭ первого слоя произво­ дится сравнение с нулем и запись в память. Если ставится цель — определение только глобального, а не всех локаль­ ных экстремумов, то необходимо сравнение величины оче­ редного экстремального значения минимизируемого функ­

273

ционала с ранее полученным, выбор и запись только мини­ мального значения функционала.

По окончании третьего этапа происходит переход к пер­ вому этапу и определяется вектор настраиваемых коэффи­

циентов следующего ЛПЭ первого слоя, обеспечивающий очередной локальный экстремум средней функции риска.

Экспериментальное исследование одного цикла работы данного алгоритма обучения ЛПЭ первого слоя многослой­ ной СР было приведено ранее в гл. 8 . На рис. 9-8 представ­

274

лена структурная схема программы ЦВМ, реализующей описанный выше алгоритм. План экспериментов с програм­ мой ставил своей задачей выявление свойств процессов обу­ чения слоя ЛПЭ СР. Характеристики входного сигнала и алгоритм настройки ЛПЭ аналогичны рассмотренным в § 8-5. При анализе работы программы по схеме, представ­ ленной на рис. 9-8, необходимо исследовать следующее:

1.Получение экспериментальной оценки сходимости случайной процедуры, т. е. зависимости количества слу­ чайных выбросов начальных условий от N и Z.

2.Зависимость общего времени счета от размерности пространства признаков N, количества искомых экстрему­ мов U, величины шага А. Эксперимент был поставлен та­ ким образом, что обучение новых ЛПЭ формируемого слоя СР производилось до тех пор, пока последовательный вы­ брос случайных начальных условий (именно здесь прояв­ ляются основные качества случайного поиска [Л. 2]), не обеспечивал нахождения всех локальных экстремумов функ­ ционала качества при заданной модальности функций рас­ пределения входного сигнала. Количество шагов случай­ ного поиска, потребовавшееся для нахождения всех локаль­ ных минимумов, приведено в табл. 9-2, где U — количество искомых минимумов, -Цц — количество шагов случайной процедуры для нахождения всех U экстремумов. Прибли­ женные оценки математического ожидания и дисперсии числа шагов, необходимого для нахождения U минимумов, имеют вид (6-16а).

 

 

 

Т а б л и ц а 9-2

и

’Iи

мг\и

Dr\u

1

1

1

_

2

4

3

2

3

8

6

3

5

8

1 0

6

7

23

14

8

1 0

33

2 2

1 2

Данные табл. 9-2 и § 8-5 дают возможность достаточно. просто определить общее время обучения слоя ЛПЭ СР, затраченное при определенной модальности входного сиг­ нала. Отметим, что увеличение размерности пространства признаков ведет, естественно, к увеличению времени обу­ чения, причем это время увеличивается пропорционально росту размерности.

275

9-3. Анализ сходимости алгоритмов при увеличении числа гиперплоскостей

Сходимость алгоритмов по вероятности ошибки при ус­ ложнении структуры СР зависит от правила выбора очеред­ ной подобласти для деления и от алгоритма обучения ЛПЭ на каждом шаге деления. Метод выбора очередной под­ области для деления, описанный выше и состоящий в том,

что на каждом

шаге проведения гиперплоскости выби-

^

ралась для деления та область,

 

в которой оценка вероятности

 

ошибки является максимальной,

 

является оптимальным с точки

Рис. 9-9.

Иллюстрация

Рис. 9-10. К анализу сходимости

процесса увеличения ве­

алгоритма при увеличении

числа

роятности

ошибки

на

гиперплоскостей на этапах

обу­

некотором

шаге работы

чения и распознавания.

последовательного алго­

 

 

ритма.

 

 

 

/ — первый

класс;

/ / —

 

 

второй класс.

зрения скорости сходимости алгоритма. В большинстве используемых на практике алгоритмов с последователь­ ным делением пространства признаков авторами применя­ лись простейшие методы проведения гиперплоскости на каждом шаге, состоящие в настройке ЛПЭ по разомкну­ тому циклу с использованием первых моментов обучающих выборок. Это зачастую приводит к увеличению вероятно­ сти ошибки на некотором шаге работы алгоритма (рис. 9-9). На рис. 9-9 в очередной области (незаштрихованная часть) разделяющая поверхность проведена перпендикулярно ли­ нии, соединяющей центры двух классов. На данном шаге деления ошибка увеличилась, так как часть образов первого класса попала к образам второго класса. Для обеспечения монотонности изменения вероятности ошибки при увели­ чении числа гиперплоскостей необходимо применять на каж­ дом шаге алгоритм обучения ЛПЭ, который приводил бы

276

к минимуму вероятности ошибки на каждом шаге (на­ стройка по замкнутому циклу с минимизацией второго мо­ мента дискретной ошибки a 2g). Обеспечение монотонности изменения вероятности ошибки позволяет сделать мини­ мальным число ЛПЭ первого слоя многослойной СР. Од­ нако в некоторых случаях необходимо идти сознательно на увеличение числа ЛПЭ первого слоя при немонотонном изменении вероятности за счет резкого упрощения алго­ ритма обучения ЛПЭ.

Отметим, что при увеличении числа гиперплоскостей в самом неблагоприятном случае оценка вероятности ошибки стремится к нулю из-за конечности длины выборки, данной для обучения. В связи с этим необходимо указать на два этапа в создании СР: этап обучения алгоритма и этап оценки его точности. Совершенно естественно, что при наличии в качестве исходного материала выборки дли­ ной М только часть ее М г (причем, несомненно, меньшую) нужно использовать для обучения алгоритма. На вы­ борке длиной М г алгоритм при увеличении числа гипер­ плоскостей обеспечит нулевую ошибку. Проводя рас­ познавание обученным алгоритмом по элементам выборки М г, равной М M lt оцениваем действительную точность

алгоритма по вероятности ошибки

распознавания

Рр (Я г).

Функция АР (Я j) = Р р (Я 2) — Р

0 (Я 2), график

которой

приведен на рис. 9-10, должна быть в принципе монотонно возрастающей при увеличении числа гиперплоскостей из-за уменьшения способности алгоритма к обобщению. Здесь Р 0 (Hi) — функция изменения вероятности ошибки на этапе

обучения СР. Необходимо отметить, что

зачастую

кривая

Р р (Я х) имеет локальный минимум при

конечном

опреде­

ленном значении H v равном, например,

Hi. В этом случае

может быть выдана рекомендация на выбор именно этого

числа гиперплоскостей Я ь если Р р (Hi) удовлетворяет исходным условиям. В некотором смысле описанный выше алгоритм обучения с применением случайного поиска яв­ ляется оптимальным с точки зрения минимизации числа ЛПЭ первого слоя многослойной СР, так как определяет все локальные моды средней функции риска в пространстве настраиваемых параметров.

Результатом обучения ЛПЭ первого слоя многослойной СР с двумя решениями, в частности, является логическая функция, определяющая последовательность деления мно­ гомерного пространства признаков. Данная логическая функция иногда не определена не только на некоторых

277

полных наборах аргументов, но и на некоторых отдельных аргументах. Простейшая иллюстрация недоопределенности логической функции подобного рода представлена на рис. 9-11 и в табл. 9-3. Здесь арабскими цифрами отмечены области исходного пространства признаков, являющихся исходными для формирования некоторого набора аргумен-

-тов логической функции е (xft). Клетки, помеченные звез­ дочками, означают набор переменных, который никогда не появляется на выходе ЛПЭ первого слоя. Клетки, поме­

ченные знаком 0 , означают значения переменных из пол-

 

0

 

0 1 ¥

 

1 ш ш

 

ш о о

 

w o o

 

Л У Ш

 

¥ 0 0

 

Ж 0 0

Рис. 9-11. Формирова-

Рис. 9-12. Логическое дерево

ние обучающей выборки

и матрица переходов для при-

на выходе^ЛПЭ первого

мера рис. 9-11.

слоя.

 

ного набора, равного 2Н\ которые также отсутствуют на выходе ЛПЭ первого слоя. Процедура последовательного деления, показанная на рис. 9-11, может быть проиллюстри­ рована деревом и матрицей вида, изображенного на рис. 9-12 (см. § 9-1). Здесь / — VI — области, полученные в резуль­ тате последовательного деления.

Проблема доопределения логической функции е (х,г), полученной на этапе последовательной настройки ЛПЭ первого слоя, возникает в связи с необходимостью форми­ рования массивов обучающих векторов на выходе ЛПЭ первого слоя для настройки последующих слоев ЛПЭ. Ос­ новная задача здесь заключается в доопределении логиче­ ской функции на частично заданных наборах своих аргумен­ тов. Доопределение же логической функции на наборе 8 (рис. 9-11, табл. 9-3) может вообще не производиться, так как этот набор никогда не появляется ввиду специфики

278

Т а б л и ц а 9-3

Номер области

1

2

3

4

5

8

1

1

— 1

1

]

6

7

8

1 —I *

 

Первый ЛПЭ

1

1

1

— 1

1

1

1 *

**

Второй ЛПЭ

е

1

— 1

0

0

1

1

*

 

 

Третий ЛПЭ

— 1

0

0

1

1

®

©.

*

 

 

 

 

 

 

задачи построения кусочно-линейной разделяющей поверх­ ности. Доопределение при неполных наборах производится следующим образом. В обучающий массив для ЛПЭ второго слоя многослойной СР, представленный в табл. 9-4, запи­ сываются векторы с присутствующими координатами, ис­ ходным указанием учителя и полным перебором по отсутст­ вующим значениям переменных.

Т а б л и ц а 9-4

Номер

г

г

2'

2"

3'

3"

4'

4"

5'

5"

6'

6"

Г

7"7

области

г

—1

—I

1

1

—1

—1

1

 

—1

—1

1

1

—1

—1

П ер ­

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вый

—1

—1

1

1

1

1

- 1

—1

—1

—1

1

1

1

1

ЛПЭ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Второй

—1

1

1

 

—1

—1

—1

1

1

1

1

1

—1

—1

ЛПЭ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Третий

- 1

—1

—1

1

-

1

1

1

1

 

- 1

1

—1

1

ЛПЭ

 

В таблице сформирована логическая функция, по ко­ торой производится настройка ЛПЭ слоев, кроме пер­ вого.

279

Соседние файлы в папке книги из ГПНТБ