достижении заданного числа гиперплоскостей (числа ЛПЭ первого слоя многослойной СР).
Структурная схема программы ЦВМ, реализующей ал горитм построения кусочно-линейной разделяющей поверх ности, приведена на рис. 9-5. Назначение большинства опе раторов понятно из вы шеизложенного, поясним
лишь три из них.
|
|
|
|
Оператор |
«Логическое |
|
|
|
|
дерево'». Для пояснения его |
|
|
|
|
работы |
удобно |
воспользо |
|
|
|
|
ваться рис. 9-4, |
на |
кото |
|
|
|
|
ром приведено |
логическое |
|
|
|
|
дерево для |
построения раз |
|
|
|
|
деляющей |
|
поверхности, |
|
|
|
|
изображенной на рис. 9-3. |
|
|
|
|
Как видно из рис. 9-4, |
вер |
|
|
|
|
шины |
дерева |
могут |
|
быть |
|
|
|
|
двух типов: промежуточ |
|
|
|
|
ные вершины, вершины, |
|
|
|
|
являющиеся |
концами |
де |
|
|
|
|
рева. |
|
|
|
|
|
|
|
|
|
|
Началом дерева («кор |
|
|
|
|
нем») |
является |
вершина |
|
|
|
|
с индексом нуль, а концы |
|
|
|
|
дерева соответствуют опре |
|
|
|
|
деленным классам образов. |
|
|
|
|
Любой образ х после |
при |
|
|
|
|
менения к |
нему |
оператора |
|
|
|
|
«Логическое дерево» попа |
|
|
|
|
дает в один из концов де |
|
|
|
|
рева и относится к соот |
Рис. 9-5. Структурная схема про |
ветствующему классу обра |
граммы ЦВМ, реализующей про |
зов. Для принятия решения |
цесс последовательного построе |
о направлении дальнейшего |
ния кусочно-линейной разделяю |
движения |
из |
вершины t, |
|
щей поверхности. |
|
|
|
|
|
/, k, . . . , |
t |
используется |
|
sign <рijk |
t (x) >- 0, |
|
функция |
фг, |
|
k.......t (х). |
Если |
то дальнейшее движение |
проис |
ходит |
по правой |
ветви, в |
противном |
случае — по |
левой |
ветви. При использовании ЦВМ вершины логического де рева удобно пронумеровать последовательно, так как ин дексация переменной длины очень наглядна при объясне нии работы алгоритма, но не удобна при программирова
нии. Логическое дерево рис. 9-4, |
а при последовательной |
' нумерации вершин принимает |
вид, изображенный на |
рис. 9-4, б. Логическое дерево удобно описывать матрицей, имеющей три столбца:
г о |
2 |
3 “ |
0 |
4 |
5 |
0 |
6 |
7 |
1 |
0 |
0 |
0 |
8 |
9 |
1 |
0 |
0 |
0 |
10 |
11 |
1 |
0 |
0 |
2 |
0 |
0 |
1 |
0 |
0 |
2 |
0 |
0 |
Каждой вершине логического дерева с номером s соот ветствует s-я строка матрицы С. Поясним смысл строк мат рицы, которые, как и вершины, могут быть двух видов. Строка вида (0 s s + 1) описывает промежуточную вершину дерева. Берется разделяющая поверхность cps = 0, соот ветствующая этой вершине, и в зависимости от sign cps (х)
|
|
|
|
происходит переход к вершине s, |
если sign cps = — 1, или |
к вершине s + 1, если sign (ps = |
1. Если же строка имеет |
вид (k 0 0 ), где k = |
1, 2 , |
то она описывает один из концов |
логического дерева. |
Если |
после последовательного исполь |
зования нескольких разделяющих поверхностей точка Xj
попала в |
вершину, |
описываемую подобным |
образом, то |
ее следует отнести к |
классу A k. Проведение |
новой |
гипер |
плоскости |
с р (х) вызывает построение двух |
новых |
ветвей |
дерева, отходящих от вершины i. При этом матрица, имею щая U строк, получает две новые строки с номерами (U + 1) и (U + 2) следующего вида:
U + 1 : 1 0 0
U + 2": 2 0 0,
а в i-ю строку заносится запись
0 U + 1 U + 2,
т. е. теперь i-я вершина является промежуточной вершиной
логического дерева.
Оператор «Проведение дополнительной разделяющей по верхности» может использовать практически любой алго ритм настройки ЛПЭ, описанный в гл. 7. Более того, дан
ный оператор может реализовать любую СР с фиксирован ной структурой, описанную в гл. 7.
Оператор «Проверка улучшения качества» предназначен для проверки улучшения качества распознавания. Резуль таты работы этого оператора используются для процесса построения логического дерева: если качество улучшилось, то дальнейшему делению подвергается область, например, с наибольшим значением средней функции риска; в против ном случае делению подвергаются области, полученные при последнем делении.
9-2. Алгоритм обучения ЛПЭ первого слоя многослойной СР с применением метода случайного поиска локальных и глобального экстремумов функций
На основе метода случайного поиска локальных и гло бального экстремумов функций многих переменных, изло женного в гл. 6 , был разработан алгоритм обучения ЛПЭ
Рис. 9-6. Иллюстрация |
Рис. 9-7. Свойство многоэкстре- |
к методу обучения ЛПЭ |
мальности средней функции рис |
первого слоя многослой |
ка при многомодальных распре |
ной СР с |
применением |
деленных I (х)/б. |
алгоритмов |
случайного |
|
поиска.
первого слоя многослойной СР. В данном случае можно отказаться от построения древообразной структуры и в пер вый слой включаются все ЛПЭ, обеспечивающие локальные экстремумы средней функции риска (рис. 9-6, 9-7). На рис. 9-6 четыре гиперплоскости в двумерном пространстве признаков определяют четыре локальных экстремума сред ней функции риска. Цифрами в кружке обозначены номера аргумента логической функции, соответствующие каждой области многомерного пространства признаков. В табл. 9-1 даны значения логической функции (для примера рис. 9-6),
реализуемой в многослойной СР слоями ЛГ1Э, кроме пер вого. Звездочкой в таблице обозначены те значения логи ческой функции, которые не являются определенными при данном значении аргументов (при данной на рис. 9-6 кон фигурации разделяющей поверхности). Индексом нуль обозначены области пространства признаков, в которых нет образов ни первого, ни второго класса.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а |
9-1 |
2 |
0 |
1 |
2 |
3 |
4 |
|
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
xik |
—1 |
1 |
—1 |
1 |
—1 |
1 |
—1 |
i |
—1 |
i |
—1 |
1 |
—1 |
|
—1 |
1 |
X2k —1 —1 1 |
1 - 1 |
—1 1 |
i —1 —i 1 |
1 |
—1 —1 |
1 |
X3k |
- 1 |
—1 |
—1 |
- 1 |
1 |
|
1 |
1 |
1 |
—1 —i —1 |
—1 1 |
1 |
1 |
1 |
Xik —1 —1 - 1 |
—1 —1 —1 —1 |
—1 |
1 |
1 |
1 |
|
1 |
1 |
1 |
1 |
e |
* |
* |
* |
* |
- 1 |
|
0 |
0 |
* |
—1 0 |
0 |
* |
0 |
1 |
1 |
* |
|
Совершенно |
очевидно, что |
детерминированные |
методы |
поиска не позволяют выйти за пределы локального экстре мума и, пожалуй, единственным выходом из этого положе ния является введение элемента случайности в процедуру поиска.
Основные этапы работы алгоритма в каждом цикле со стоят в следующем:
а) случайным образом выбираются компоненты вектора настраиваемых коэффициентов очередного ЛПЭ;
б) применяя один из методов обучения ЛПЭ, находим очередной локальный экстремум средней функции риска; в) величина экстремального значения средней функции риска и соответствующие компоненты вектора весовых ко эффициентов ЛПЭ сравниваются с содержимым памяти и запоминаются, если ранее этот локальный минимум найден
не был.
На первом цикле по числу ЛПЭ первого слоя произво дится сравнение с нулем и запись в память. Если ставится цель — определение только глобального, а не всех локаль ных экстремумов, то необходимо сравнение величины оче редного экстремального значения минимизируемого функ
ционала с ранее полученным, выбор и запись только мини мального значения функционала.
По окончании третьего этапа происходит переход к пер вому этапу и определяется вектор настраиваемых коэффи
циентов следующего ЛПЭ первого слоя, обеспечивающий очередной локальный экстремум средней функции риска.
Экспериментальное исследование одного цикла работы данного алгоритма обучения ЛПЭ первого слоя многослой ной СР было приведено ранее в гл. 8 . На рис. 9-8 представ
лена структурная схема программы ЦВМ, реализующей описанный выше алгоритм. План экспериментов с програм мой ставил своей задачей выявление свойств процессов обу чения слоя ЛПЭ СР. Характеристики входного сигнала и алгоритм настройки ЛПЭ аналогичны рассмотренным в § 8-5. При анализе работы программы по схеме, представ ленной на рис. 9-8, необходимо исследовать следующее:
1.Получение экспериментальной оценки сходимости случайной процедуры, т. е. зависимости количества слу чайных выбросов начальных условий от N и Z.
2.Зависимость общего времени счета от размерности пространства признаков N, количества искомых экстрему мов U, величины шага А. Эксперимент был поставлен та ким образом, что обучение новых ЛПЭ формируемого слоя СР производилось до тех пор, пока последовательный вы брос случайных начальных условий (именно здесь прояв ляются основные качества случайного поиска [Л. 2]), не обеспечивал нахождения всех локальных экстремумов функ ционала качества при заданной модальности функций рас пределения входного сигнала. Количество шагов случай ного поиска, потребовавшееся для нахождения всех локаль ных минимумов, приведено в табл. 9-2, где U — количество искомых минимумов, -Цц — количество шагов случайной процедуры для нахождения всех U экстремумов. Прибли женные оценки математического ожидания и дисперсии числа шагов, необходимого для нахождения U минимумов, имеют вид (6-16а).
|
|
|
Т а б л и ц а 9-2 |
и |
’Iи |
мг\и |
Dr\u |
1 |
1 |
1 |
_ |
2 |
4 |
3 |
2 |
3 |
8 |
6 |
3 |
5 |
8 |
1 0 |
6 |
7 |
23 |
14 |
8 |
1 0 |
33 |
2 2 |
1 2 |
Данные табл. 9-2 и § 8-5 дают возможность достаточно. просто определить общее время обучения слоя ЛПЭ СР, затраченное при определенной модальности входного сиг нала. Отметим, что увеличение размерности пространства признаков ведет, естественно, к увеличению времени обу чения, причем это время увеличивается пропорционально росту размерности.
9-3. Анализ сходимости алгоритмов при увеличении числа гиперплоскостей
Сходимость алгоритмов по вероятности ошибки при ус ложнении структуры СР зависит от правила выбора очеред ной подобласти для деления и от алгоритма обучения ЛПЭ на каждом шаге деления. Метод выбора очередной под области для деления, описанный выше и состоящий в том,
что на каждом |
шаге проведения гиперплоскости выби- |
^ |
ралась для деления та область, |
|
в которой оценка вероятности |
|
ошибки является максимальной, |
|
является оптимальным с точки |
Рис. 9-9. |
Иллюстрация |
Рис. 9-10. К анализу сходимости |
процесса увеличения ве |
алгоритма при увеличении |
числа |
роятности |
ошибки |
на |
гиперплоскостей на этапах |
обу |
некотором |
шаге работы |
чения и распознавания. |
последовательного алго |
|
|
ритма. |
|
|
|
/ — первый |
класс; |
/ / — |
|
|
второй класс.
зрения скорости сходимости алгоритма. В большинстве используемых на практике алгоритмов с последователь ным делением пространства признаков авторами применя лись простейшие методы проведения гиперплоскости на каждом шаге, состоящие в настройке ЛПЭ по разомкну тому циклу с использованием первых моментов обучающих выборок. Это зачастую приводит к увеличению вероятно сти ошибки на некотором шаге работы алгоритма (рис. 9-9). На рис. 9-9 в очередной области (незаштрихованная часть) разделяющая поверхность проведена перпендикулярно ли нии, соединяющей центры двух классов. На данном шаге деления ошибка увеличилась, так как часть образов первого класса попала к образам второго класса. Для обеспечения монотонности изменения вероятности ошибки при увели чении числа гиперплоскостей необходимо применять на каж дом шаге алгоритм обучения ЛПЭ, который приводил бы
к минимуму вероятности ошибки на каждом шаге (на стройка по замкнутому циклу с минимизацией второго мо мента дискретной ошибки a 2g). Обеспечение монотонности изменения вероятности ошибки позволяет сделать мини мальным число ЛПЭ первого слоя многослойной СР. Од нако в некоторых случаях необходимо идти сознательно на увеличение числа ЛПЭ первого слоя при немонотонном изменении вероятности за счет резкого упрощения алго ритма обучения ЛПЭ.
Отметим, что при увеличении числа гиперплоскостей в самом неблагоприятном случае оценка вероятности ошибки стремится к нулю из-за конечности длины выборки, данной для обучения. В связи с этим необходимо указать на два этапа в создании СР: этап обучения алгоритма и этап оценки его точности. Совершенно естественно, что при наличии в качестве исходного материала выборки дли ной М только часть ее М г (причем, несомненно, меньшую) нужно использовать для обучения алгоритма. На вы борке длиной М г алгоритм при увеличении числа гипер плоскостей обеспечит нулевую ошибку. Проводя рас познавание обученным алгоритмом по элементам выборки М г, равной М — M lt оцениваем действительную точность
алгоритма по вероятности ошибки |
распознавания |
Рр (Я г). |
Функция АР (Я j) = Р р (Я 2) — Р |
0 (Я 2), график |
которой |
приведен на рис. 9-10, должна быть в принципе монотонно возрастающей при увеличении числа гиперплоскостей из-за уменьшения способности алгоритма к обобщению. Здесь Р 0 (Hi) — функция изменения вероятности ошибки на этапе
обучения СР. Необходимо отметить, что |
зачастую |
кривая |
Р р (Я х) имеет локальный минимум при |
конечном |
опреде |
ленном значении H v равном, например, |
Hi. В этом случае |
может быть выдана рекомендация на выбор именно этого
числа гиперплоскостей Я ь если Р р (Hi) удовлетворяет исходным условиям. В некотором смысле описанный выше алгоритм обучения с применением случайного поиска яв ляется оптимальным с точки зрения минимизации числа ЛПЭ первого слоя многослойной СР, так как определяет все локальные моды средней функции риска в пространстве настраиваемых параметров.
Результатом обучения ЛПЭ первого слоя многослойной СР с двумя решениями, в частности, является логическая функция, определяющая последовательность деления мно гомерного пространства признаков. Данная логическая функция иногда не определена не только на некоторых
полных наборах аргументов, но и на некоторых отдельных аргументах. Простейшая иллюстрация недоопределенности логической функции подобного рода представлена на рис. 9-11 и в табл. 9-3. Здесь арабскими цифрами отмечены области исходного пространства признаков, являющихся исходными для формирования некоторого набора аргумен-
-тов логической функции е (xft). Клетки, помеченные звез дочками, означают набор переменных, который никогда не появляется на выходе ЛПЭ первого слоя. Клетки, поме
ченные знаком 0 , означают значения переменных из пол-
|
0 |
|
0 1 ¥ |
|
1 ш ш |
|
ш о о |
|
w o o |
|
Л У Ш |
|
¥ 0 0 |
|
Ж 0 0 |
Рис. 9-11. Формирова- |
Рис. 9-12. Логическое дерево |
ние обучающей выборки |
и матрица переходов для при- |
на выходе^ЛПЭ первого |
мера рис. 9-11. |
слоя. |
|
ного набора, равного 2Н\ которые также отсутствуют на выходе ЛПЭ первого слоя. Процедура последовательного деления, показанная на рис. 9-11, может быть проиллюстри рована деревом и матрицей вида, изображенного на рис. 9-12 (см. § 9-1). Здесь / — VI — области, полученные в резуль тате последовательного деления.
Проблема доопределения логической функции е (х,г), полученной на этапе последовательной настройки ЛПЭ первого слоя, возникает в связи с необходимостью форми рования массивов обучающих векторов на выходе ЛПЭ первого слоя для настройки последующих слоев ЛПЭ. Ос новная задача здесь заключается в доопределении логиче ской функции на частично заданных наборах своих аргумен тов. Доопределение же логической функции на наборе 8 (рис. 9-11, табл. 9-3) может вообще не производиться, так как этот набор никогда не появляется ввиду специфики
Номер области |
1 |
2 |
3 |
4 |
5 |
8 |
— 1 |
1 |
— 1 |
1 |
] |
|
Первый ЛПЭ |
—1 |
1 |
1 |
— 1 |
— 1 |
1 |
1 * |
** |
Второй ЛПЭ |
е |
1 |
— 1 |
0 |
0 |
1 |
—1 |
* |
|
|
Третий ЛПЭ |
— 1 |
0 |
0 |
1 |
1 |
® |
©. |
* |
|
|
|
|
|
|
задачи построения кусочно-линейной разделяющей поверх ности. Доопределение при неполных наборах производится следующим образом. В обучающий массив для ЛПЭ второго слоя многослойной СР, представленный в табл. 9-4, запи сываются векторы с присутствующими координатами, ис ходным указанием учителя и полным перебором по отсутст вующим значениям переменных.
Т а б л и ц а 9-4
Номер |
г |
г |
2' |
2" |
3' |
3" |
4' |
4" |
5' |
5" |
6' |
6" |
Г |
7"7 |
области |
г |
—1 |
—I |
1 |
1 |
—1 |
—1 |
1 |
|
—1 |
—1 |
1 |
1 |
—1 |
—1 |
П ер |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
вый |
—1 |
—1 |
1 |
1 |
1 |
1 |
- 1 |
—1 |
—1 |
—1 |
1 |
1 |
1 |
1 |
ЛПЭ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Второй |
—1 |
1 |
1 |
|
—1 |
—1 |
—1 |
1 |
1 |
1 |
1 |
1 |
—1 |
—1 |
ЛПЭ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Третий |
- 1 |
—1 |
—1 |
1 |
- |
1 |
1 |
1 |
1 |
|
- 1 |
1 |
—1 |
1 |
ЛПЭ |
|
В таблице сформирована логическая функция, по ко торой производится настройка ЛПЭ слоев, кроме пер вого.