
книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfобучения критерием информативности признаков может быть средняя функция риска, то в режиме самообучения таким критерием может быть специальная средняя функция риска р (х, xk) (гл, 2). Роль подобной оценки велика хотя бы потому, что никаких упрощенных оценок (вроде дивер генции и средней условной энтропии для режима обучения) для режима самообучения неизвестно.
10-3. Определение оптимального маршрута выбора признаков, обеспечивающих максимальную вероятность правильного распознавания
Задача выбора N x<iN признаков эквивалентна задаче выбора минимального числа признаков из N, обеспечиваю щих заданную величину Р прав.
Решение задачи попутно должно обеспечивать и ранжи ровку признаков по информативности. В случае независи мых признаков, вычисляя ошибку распознавания для ан самбля из N признаков, включающего данный признак, а затем для ансамбля, не содержащего данный признак, можно определить, сравнивая полученные вероятности ошибки, следует ли использовать данный признак. После подобного определения информативности каждого признака следует выбрать те N г<СN признаков, информативность которых больше. Эта процедура решения поставленной за дачи обеспечивает оптимальное решение только на уровне гипотезы о независимости признаков. В случае зависимых признаков подобная процедура состоит из следующих этапов:
1) все N признаков исключаются поочередно так, как в описанной выше процедуре;
2 ) в пространстве оставшихся (N—1) признаков опреде ляется качество распознавания;
3)исключению подлежит тот признак, отсутствие ко торого наименее сильно изменило качество распознавания;
4)затем поочередно исключаются остальные (N-—1) признаки и из группы в (N—1) исключается второй при знак;
5)процедура повторяется (N—Nj) раз.
Подобная процедура не является полностью оптималь ной при зависимых признаках, а лишь близка к ней. Не которые авторы считают единственно оптимальной проце дуру полного перебора по той причине, что малоинформа тивные сами по себе, но сильно коррелированные признаки
300
могут составлять малоинформативную систему. Кроме того, известны аппроксимирующие оптимальное решение под ходы к выбору оптимального маршрута: метод случайного поиска с адаптацией, разработанный Г. С. Лбовым, метод, использующий разложение Карунена—Лоэва; метод, ос нованный на процедуре динамического программирования.
10-4. О структурных методах выбора информативных признаков в СР с фиксированной структурой
Структурные методы выбора информативных призна ков предполагают оценку информативности признаков ис ходного пространства по параметрам и структуре опти
мально настроенной СР. |
В дан |
|
|
|
|
|||||||
ном пункте структурные |
методы |
|
|
|
|
|||||||
оценки |
информативности |
иллю |
|
|
|
|
||||||
стрируются |
на |
примере |
ЛПЭ. |
|
|
|
|
|||||
Показывается возможность оцен |
|
|
|
|
||||||||
ки |
информативности |
признаков |
|
|
|
|
||||||
по |
соответствующим |
оптималь |
|
|
|
|
||||||
ным коэффициентам ЛПЭ. Есте |
|
|
|
|
||||||||
ственно, что ЛПЭ является прак |
|
|
|
|
||||||||
тически простейшей СР; поэтому |
|
|
|
|
||||||||
в соответствии с тезисом 1 , |
изло |
Рис. 10-3. К доказатель |
||||||||||
женным в § 10-1, данная |
про |
|||||||||||
ству |
возможности |
исполь |
||||||||||
цедура |
выбора |
информативных |
зования |
коэффициентов |
||||||||
признаков |
имеет |
и |
свои |
|
огра |
ЛПЭ |
в |
качестве |
оценок |
|||
ничения |
в |
плане |
субъективизма |
информативности |
призна |
|||||||
оценки |
информативности |
|
приз |
|
|
ков. |
|
|||||
|
|
|
|
|
наков. Ниже будут указаны и другие ограничения, присущие ЛПЭ в рассматриваемой процедуре.
Остановимся на СР типа ЛПЭ и ЛПЭ со слоем нелиней ных или нелинейно-случайных преобразований (гл. 4). СР в виде ЛПЭ является оптимальной для совокупностей образов, распределенных по многомерным нормальным за конам с равными ковариационными матрицами. Для слу чая единичных (с точностью до постоянного множителя) ковариационных матриц степень пересечения классов по каждому из признаков определяется соответствующим уг лом наклона оптимальной линейной разделяющей поверх ности (рис. 10-3). На рис. 10-3 круги — линии равных зна чений плотностей /у (х) и / 2 (х). Если считать, как и выше, вероятность правильного распознавания основным крите
301
рием информативности признаков, то в данном случае легко показать, что i-й коэффициент оптимальной линейной раз деляющей поверхности может служить относительной оценкой информативности i-ro признака.
Доказательство проводится двумя этапами. Сначала до казывается монотонность на некотором интервале измене ния вероятности правильного распознавания в зависимо сти от угла наклона гиперплоскости к оси, соответствующей выбранному признаку, затем монотонность изменения дан ного угла в зависимости от величины соответствующего коэффициента линейной разделяющей поверхности.
Покажем монотонность зависимости величины вероятности ошибки по каждому из признаков х i и X j от соответствующего ко эффициента оптимальной линейной разделяющей поверхности (рис. 10-3). Обозначим х = (дц-, X j ) . Пусть /ц (х) и f 2 (х) — нормаль ные двумерные плотности с координатами центров классов ах и а2, расположенными на некотором расстоянии друг от друга на прямой под углом р 90° — а (рис. 10-3) к оси признака Xj. Исследуем зависимость
& Р ош/ = |
|
J |
f / 2 ( X j ) d x j + |
f |
|
f j t ( x j ) d x j = |
||||
|
|
|
3 |
|
|
|
3 |
|
|
|
|
|
x- < — cos P |
|
x, > — cos P |
||||||
|
|
/ |
2 |
|
|
> 2 |
|
|
||
|
|
|
= 2 |
j |
f j ( Xj ) d x j , |
|
|
|||
|
|
|
|
X ; |
з |
|
|
|
|
|
|
|
|
|
> ----- COS 6 |
|
|
|
|||
|
|
|
|
1 |
2 |
|
|
|
|
|
где fi = fn = fj2. |
|
|
|
|
|
|
|
|||
Аналогично |
|
|
|
|
|
|
|
|||
APouii = |
2 |
J |
fi {xi) d x lt где f{ = fu = fi2. |
|||||||
|
|
|
X ; > |
з |
|
|
|
|
|
|
|
|
|
----- S ill |
P |
|
|
|
|
||
|
|
|
1 |
2 |
|
|
|
|
|
|
Для оптимальной линейной разделяющей |
поверхности |
|||||||||
= |
— |
cos р ------- sin а; |
|
■cos |
|
1 |
||||
|
|
— sin а; |
||||||||
|
|
|
|
|
|
|
|
|
2 |
|
Oil = |
— |
sin 6 --------cos а; |
3 |
. |
„ |
. 1 |
||||
: — |
sin p -|------ cos a. |
|||||||||
2 |
|
|
2 |
|
||||||
Так как в случае нормальных законов подынтегральная функ |
||||||||||
ция в ДР0ш является экспонентой, |
то ДРош есть |
монотонная функ |
||||||||
ция от а. |
|
второй |
постановки |
задачи |
также будем рассматри |
|||||
В случае |
||||||||||
вать два многомерных |
нормальных распределения [л (xlf . . ., х^) |
302
и f2 (*!, . . . , Xfj). Ошибка при отбрасывании j-го признака опре деляется:
N - 1
ДР0Ш/ = |
J' . . . |
J /д (Jtj............ |
xN) dxv . . . |
, |
+ |
|
|
S (x) < |
О |
|
|
|
|
|
ЛГ-1 |
|
|
|
|
|
+ |
J • • • |
I ......... |
xN ) dxv |
■ ■ • - |
XN ' |
|
|
S (x) > 0 |
|
|
|
|
|
где ^. = ф (хг |
. . . , |
xjl V |
. . . , ^ |
= 9 (a). |
|
Вид функции ф в данном частном случае можно легко опреде лить. Функции /щ, fj2 определены на гиперплоскости размерности (N — 1). Величина ДР0 ш/ в этом случае также монотонно зависит
от dj, так как подынтегральная функция является экспонентой.
В случае ненормальных распределений коэффициенты оптимального ЛПЭ также могут служить оценкой информа тивности признаков, но лишь на уровне такой структуры разомкнутой СР, как ЛПЭ. В случае ненормальных рас пределений и нелинейной СР, представляемой в виде по следовательного соединения слоя нелинейных преобразо ваний с фиксированными коэффициентами и ЛПЭ, коэффи циенты ЛПЭ в оптимальной нелинейной СР являются оценками информативности сложных признаков, определяе мых слоем нелинейных преобразований. Аналогичный вы вод можно сделать также относительно трехслойного персептрона Розенблатта.
Минимизация структуры при рассмотрении алгоритмов настройки многослойных СР с фиксированной структурой и множество этапов настройки с заданием случайных на чальных условий является самостоятельной задачей. При этом возникает необходимость усреднения результатов на стройки по множеству этапов выброса случайных началь ных условий для поиска локально оптимальных значений настраиваемых коэффициентов. При этом, несмотря на то что настройка СР производится при фиксированной струк туре, на каждом этапе выброса случайных начальных ус ловий возможно проведение минимизации числа ЛПЭ в слоях путем выбрасывания ЛПЭ с одинаковыми (прибли женно с точки зрения реакции на входные образы) вели чинами коэффициентов, получающихся из-за избыточности фиксированной структуры СР при обеспечении ею локаль ного экстремума средней функции риска. Сравнение ука занных минимизированных структур и локально оптималь ных значений средней функции риска дает непосредствен
303
ное правило минимизации числа ЛПЭ в многослойной СР, настраивающихся по замкнутому циклу при фиксирован ной структуре.
Отдельно необходимо остановиться на вопросе миними зации числа ЛПЭ в слое при независимом обучении ЛПЭ с выбором для каждого ЛПЭ случайных начальных усло вий (см. гл. 8 и 9). После получения результатов независи мого обучения Н г ЛПЭ первого слоя, обеспечивающих ло-
кальный экстремум функ ционала оптимизации, за дача выбора по результатам настройки одного из Н 1 ЛПЭ, обеспечивающего
Рис. 10-4. Пример минимизации |
Рис. 10-5. Иллюстрация |
|
числа ЛПЭ первого слоя много |
к свойству локальной опти |
|
слойной СР. |
мальности процедуры |
вы |
1 — первый класс; 2 — второй класс. |
бора информативных |
при |
|
знаков. |
|
1 — первый класс; 2 — второй класс.
экстремальное значение функционала оптимизации, явля ется тривиальной. Задача выбора Н°<^Н1 из Я х ЛПЭ, обеспечивающих экстремальное значение функционала оптимизации, является трудной задачей, возможно не разрешимой в такой постановке (за исключением пути, связанного с очевидной процедурой полного перебора). Это достаточно легко иллюстрируется на примере рис. 10-4, в котором для каждого варианта выбора порогов (парамет ров и структуры первого слоя ЛПЭ) указана в процентах величина вероятности ошибки. На рисунке цифры около' стрелок указывают номер класса.
Сравним на качественном уровне два подхода к решению задачи выбора информативных признаков: подход, описан ный выше и связанный с оценкой информативности при
304
/
знаков только по параметрам и структуре настроенной СР, и подход, описанный Е. С. Енюковым, связанный с оцен кой информативности признаков по параметрам настроен ной СР и некоторым характеристикам входного сигнала.
Второй подход является отступлением от аксиоматики структурного подхода и менее перспективен, так как не позволяет обобщить результаты на случай сложных и не известных в общем виде распределений /' (х/г). При обоб щении на указанный случай первый подход также демон стрирует в некоторой степени свою ограниченность, однако эта ограниченность полностью объясняется с позиций те зиса о невозможности выбора информативных признаков до окончания этапа настройки (10-1). Поясним это на кон кретном примере. На рис. 10-5 представлены линии равных значений /' (х/е) в многомодальном случае и показаны че тыре положения линейной разделяющей поверхности, обес печивающие локальный экстремум Рправ. Отсюда следует, что при фиксированной структуре разомкнутой СР любая оценка информативности будет не только субъективной, но и локальной, так как настроенная СР с фиксированной структурой обеспечивает лишь локальный экстремум функ ционала оптимизации. Эти рассуждения справедливы и для режима самообучения.
10-5. Выбор информативных признаков исходного пространства с помощью многослойных СР с последовательными алгоритмами настройки ЛПЭ первого слоя
Основной вопрос состоит в том, как можно оценить от носительную величину вероятности правильного распозна
вания |
по структуре обученной СР и результатам обучения. |
|||||
Сравниваются в плане информативности две группы при |
||||||
знаков. В данном случае можно привести несколько мето |
||||||
дов оценки информативности признаков. |
|
|||||
1. |
|
При использовании СР с последовательными алго |
||||
ритмами обучения ЛПЭ первого слоя на некоторой конеч |
||||||
ной обучающей выборке обеспечивается заданная величина |
||||||
Р прав = const, в частности |
Р прав = |
1- Тогда, если первая |
||||
СР с |
характеристиками |
N |
Р 1прав имеет больше |
ЛПЭ |
||
в первом |
слое, чем вторая |
СР с |
характеристиками |
N 2, |
||
Р 2 прав |
= |
Р 1 пРав> группа |
из N x признаков менее информа |
|||
тивна, |
чем группа из N 2 признаков. Это следует из объек |
тивной необходимости большего числа ЛПЭ в первом слое
305
многослойной СР при большем пересечении классов. По добный способ оценки информативности признаков исход ного пространства верен только при определенных огра ничениях, рассмотренных ниже.
2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распоз навания. В результате настройки СР имеем кривые изме нения Р прав от Н 1 (числа ЛПЭ первого слоя) на совокуп ностях признаков N х (СРХ) и N 2 (СР2) (рис. 10-6, а). Рас-
Рис. 10-6. Выбор информативных признаков с помощью СР с переменной структурой.
смотрение кривых показывает, что в данном случае группа признаков N х менее информативна, чем группа признаков
N 2. |
Здесь рассматривается |
случай, когда превышение ин |
формативности для N 2 п о |
сравнению с АД наблюдается |
|
при |
любой структуре ( # х) |
СР. Данная методика выбора |
информативных признаков |
включает в себя изложенную |
|
в п. |
1 как частную. |
|
3.При наличии достаточно большой обучающей выборки
зависимость |
Р прав (Д х) имеет |
характер, изображенный |
||
на |
рис. |
10-6, б. Достаточное |
приближение |
кривой |
Рправ |
( Я i) К асимптоте (точки 1 и 2) на рис. 10-6, |
б озна |
чает переход от статистического режима обучения к детер минированному, когда СР заключает в отдельные подобла сти совокупности образов с малым числом членов. В данном случае оценка информативности групп признаков должна
306
производиться путем сравнения установившихся значений зависимостей Лправ (Я ^.
4. В случае неоптимального алгоритма настройки на каждом шаге первого слоя многослойной СР в общем слу чае имеет место картина, изображенная на рис. 10-6 , 6. В данном случае (более общем, чем предыдущие) оценка информативности производится либо, как ранее в п. 3, либо при любом Я х с оговоркой, что оценка информатив ности производится при данном алгоритме настройки и данном числе ЛПЭ в первом слое.
5. Выше принималось, что вся исходная выборка ис пользуется на этапе, обучения и оценки информативности, и не учитывалась возможная непредставительность обу чающей выборки. Для учета представительности обучаю щей выборки необходимо произвести обучение на части АМ х всей исходной выборки. Зачастую для проверки пред ставительности необходимо выбирать несколько интерва лов ЛУИ,- и помещать их в различных участках исходной выборки. Распознавание обученной СР производится на полном объеме обучающей выборки. Анализ результатов обучения Робуч (Я 1; ЛУИ,-) и распознавания Р расп (Ях) (рис. 10-6 , г) позволяет оценить стационарность и предста вительность обучающей выборки, а также информативность отдельных групп признаков.
Минимизация числа ЛПЭ
Процесс последовательности настройки (гл. 9) ЛПЭ первого слоя многослойной СР характеризуется графом, являющимся прадеревом, каждой вершине которого со ответствует ЛПЭ с некоторой величиной приращения Р прав> имеющей место при введении данного ЛПЭ. Данный граф является исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из следующих постановок: при заданной величине Р прав минимизировать число вершин графа, при заданном числе вершин с ветвлениями выбором структуры прадерева обеспечить максимальную величину Р прав.
На рис. 10-7 представлена иллюстрация исходной ин формации для минимизации прадерева. Слева в кружке указывается номер вершины ЛПЭ в исходном графе. Справа в кружке указан номер ЛПЭ в результирующем оптимизи рованном графе. Номер каждого ребра графа совпадает с номером делимой области, причем нумерация областей производится следующим образом (гл. 9). Область с номе
307
ром у делится на две подобласти с номерами 2у и 2у + 1,
где подобласть с номером 2у |
относится к первому |
классу, |
а подобласть с номером 2у + |
1 — ко второму. В |
качестве |
правила выбора очередной подобласти для деления зача стую наиболее целесообразно взять правило выбора той подобласти, которая содержит наибольшее число векторов первого и второго класса. Пунктиром в графе показаны те подобласти, в которых имеется сравнительно незначи тельное число векторов. Около каждой вершины графа
Рис. 10-7. Минимизация числа ЛПЭ первого слоя СР
спеременной структурой.
вквадратных скобках указывается приращение Р прав, сбес печиваемое введением соответствующего ЛПЭ. Это прира щение может быть и отрицательным из-за неоптимальности (по Р прав) метода настройки отдельного ЛПЭ.
Оптимизация прадерева происходит следующим обра зом:
1)в случае первого ветвления (ЛПЭ 3 и ЛПЭ 8 в исход ном графе) сравниваются приращения Р прав. К оптимизи рованному графу относится ЛПЭ с максимальным прира
щением Р прав (на графе ЛПЭ |
3); |
2) далее сравниваются по |
величине Д.Рправ ЛПЭ дан |
ного и последующих ветвлений (ЛПЭ 8 и ЛПЭ 4) и также выбирается ЛПЭ с максимальным значением ДРправ и включается в оптимизированный граф;
308
3) данный процесс продолжается до тех пор, пока сумма приращений вероятностей правильного распознавания не достигнет заданной величины Р прав или пока число вершин графа не достигнет заданной величины.
На рис. 10-7, а данная процедура приводит к оптималь ному обходу вершин графа так, как обозначено в кружках
(вершинах) справа. На рис. 10-7, |
б представлен результат |
||
оптимизации |
графа рис. |
10-7, а |
для двух критериев: |
Рправ>0,7 и |
Р ПраВ> 0,73 . |
В оптимальном графе порядок |
обхода вершин не совпадает с обходом вершин на этапе обучения.
Исходными данными для обучения ЛГ1Э второго слоя многослойной СР, как указывалось в гл. 9, являются ло гическая функция, дополненная определенным образом и составляющая обучающую выборку и значение вероятно сти ошибки, соответствующее каждой подобласти (т. е. каждой реализации логической функции).
Идея применения последовательных алгоритмов для обучения ЛПЭ второго слоя заключается в использовании последовательных алгоритмов с учетом для каждого обу чающего вектора веса, определяемого Рош в подобласти, соответствующей данному вектору. При обучении ошибка в подобласти подсчитывается как сумма ошибок для всех векторов, неправильно отнесенных к тому или иному классу. Идея минимизации числа ЛПЭ второго и последую щих слоев многослойной СР в данном случае остается той же, что и для ЛПЭ первого слоя. Необходимо лишь отме тить, что чем больше номер слоя, тем менее актуальной становится задача минимизации числа ЛПЭ в слое ввиду специфики структуры разомкнутой многослойной СР, свя занной с уменьшением числа ЛПЭ от первого слоя к выходу вследствие сжатия информации.
10-6. О выборе информативных признаков
вмногослойных СР в режиме самообучения
Врежиме самообучения справедливы все постановки
задачи выбора информативных признаков, описанные в в § 10-1. Меняются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием яв ляется значение средней функции риска (в частном случае, вероятности правильного распознавания), то в режиме самообучения критерием информативности признаков яв-'. ляется значение специальной средней функции риска. С дан
309