книги / Математические методы принятия решений
..pdfПроведем идентификацию л. а. при одновременно наблюдаемых признаках v = 1000 м/с, Я = 5500 м, f m = 12 кГц, ЭПР= 69 дБ. Традиционные методы идентифицируют объект как объект типа 1, тогда как с учетом погрешности измерений признаков это объект типа 2 при вероятности ошибки рош = 0,23 со средним квадратиче ским отношением вероятности ошибки <т(рош) = 0,03. Только при влечение дополнительных значений ЭПР позволило уменьшить ве роятность ошибки до 0,1.
Г л а в а 9
РАСПОЗНАВАНИЕ ОБРАЗОВ ПРИ НЕИЗВЕСТНОМ ЗАКОНЕ
РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ПРИЗНАКОВ
§ 9.1. Оценка параметров классификаторов по выборке фиксированного объема
Ранее, в гл. 6 и гл. 8, было показано, что в задачах распознавания образов необходимо учитывать:
1)погрешности измеряемых признаков при определении услов ных плотностей вероятности признаков и при идентификации объ ектов (в противном случае мы получаем смещенные оценки функ ции условной плотности распределения вероятностей и принимаем недостоверные решения);
2)не только наиболее вероятные оценки функций условной плотности распределения вероятностей и решающих функций, но
иих интервальные оценки (тем самым показывается, что в любой задаче распознавания образов имеется нулевая зона (зона неопре деленности), задаваемая, в частности, интервальной оценкой реша ющей функции).
Вгл. 8 были описаны разработанные методы учета статисти ческих характеристик вектора признаков в задачах распознавания образов с фиксированным объемом выборки в предположении, что вид функции условной плотности распределения вероятно
стей р(£, 0 1о)) вектора признаков \ для класса о |
нам известен, |
но не известны значения параметров 0 и оценки \ |
(параметриче |
ские методы). |
|
Кроме того, в задачах распознавания образов часто имеют место случаи, когда [3, 14, 25, 28, 81, 83-85]:
а) вид функции распределения вероятностей признаков не изве стен, но статистика наблюдений достаточна для установления этого вида (непараметрические методы);
б) вид функции распределения вероятностей признаков не из вестен, но полагают известным вид (или виды) разделяющих (ре шающих) функций, а выборки используют для оценок значений параметров классификатора.
Последняя ситуация будет рассмотрена в настоящей главе.
Классификатор по минимуму расстояния
Пусть имеются выборки для с классов и для каждого клас са определены векторы средних значений р^ г = 1,2,..., с. Чтобы по наблюдаемому вектору признаков х определить класс, следует измерить расстояния ||х - pi|| от х до каждого из с векторов средних значений и выбрать класс, соответствующий ближайшему среднему значению. Если каждый из векторов средних значений считать иде альным прототипом или эталоном для образов своего класса, то это будет процедурой сравнения с эталоном.
Расстояние г = ||х —pi|| можно определить по-разному (раз ными формулами), но мы будем использовать евклидово рассто яние. Если априорные вероятности не равны, то квадрат расстояния ||а: —рг||2 должен быть нормирован по дисперсии а2 и смещен на ве личину In P(oi). (Это следует из нормального закона распределения случайных величин х при равных дисперсиях о2/.) Когда вектор х равно близок к двум различным векторам средних значений, при принятии решения следует предпочесть класс, априори более веро ятный.
Если ковариационные матрицы К для всех классов одинаковы и признаки подчинены нормальному закону распределения, то для классификации вектора признаков х следует определить квадратич ное махаланобисово расстояние
г2 = (х - [ ii)TК ~ \ х - P i)
от х до каждого из с векторов средних значений и отнести х к клас су, соответствующему ближайшему среднему значению р,. В случае неравных априорных вероятностей при принятии решения несколь ко большее предпочтение (In P(coi)) отдается классу, априори более вероятному.
Это один из наиболее простых критериев, который, однако, не учитывает возможные виды разделяющих функций, не говоря
уже о том, что не учитываются погрешности векторов |
г = 1,2,... |
..., с, и х и, тем самым, не определена область неопределенности принимаемых решений.
Линейная разделяющая функция для двух и многих классов
Линейные разделяющие функции наиболее просты и удобны с точки зрения аналитического исследования. Часто их использу ют ради упрощения вычислительного процесса.
Задача определения линейной разделяющей функции формули руется как задача минимизации некоторой функции критерия, в ка честве которого используется выборочный риск —средние потери при классификации множества конструктивных выборок, хотя мо гут использоваться и другие критерии.
Линейная разделяющая функция д(х) для двух классов может быть записана в виде
д{х) = wx + WQ
где w — весовой вектор, wo — величина порога.
Для двух классов и>\ и (02 применяется следующее решающее правило: принять решение и>\, если д(х) > 0, и принять решение <02, если д(х) < 0.
В линейном случае уравнение д{х) = 0 представляет гиперплос кость H ,w —нормаль этой гиперплоскости, направленная в сторону области решений R\ для o j. Разделяющая функция д(х) должна представлять собой алгебраическое расстояние от х до гиперплос кости Н . Поэтому предпочтительнее сразу пользоваться нормаль ным (нормированным) уравнением гиперплоскости, для чего общее уравнение гиперплоскости следует разделить на длину вектора w, равную ||iu||. Тогда расстояние г от точки х до гиперплоскости Н выразится формулой
При г^о = 0 гиперплоскость проходит через начало координат. Если имеется не два, а с классов, то задачу можно свести к с —1 задачам для двух классов, где решением г-й задачи служит линей ная разделяющая функция, определяющая границу между точками,
соответствующими решению со*, и точками, не соответствующими решению со*.
Q Для решения многомерной задачи можно также использовать у (с —1) линейных разделяющих функций, по одной для каждой пары классов.
В обоих подходах могут образовываться области, в которых классификация не определена. Чтобы избежать этой, неопределен ности, применяется классификатор, называемый линейной маши ной. Этим классификатором определяются с линейных разделяю щих функций
3i(x) = w jx + wi0, * = 1, 2, ...,с;
по х определяется класс со*, если д^х) > gj(x) для всех j ф i.
Если области решений Ri и Rj соприкасаются, то границей между ними будет часть гиперплоскости Нц, определяемой соот
ношением
9i{x) = 9j(x)
или
(Wi - Wj)TX + WiO - Wjo = 0.
Здесь (wi — Wj) — вектор нормали, a расстояние от x до плоско сти Hij определено формулой
г = 9г ~ дз \W i-W jl'
Параметрические и непараметрические методы эффективно ис пользуют для решения задач в пространствах меньшей размерно сти. Поэтому при распознавании образов, которые имеют признаки размерностью d, применяется прием, позволяющий уменьшить раз мерность до одного: проецируются d-мерные данные на прямую (для двух классов).
Пусть имеется множество (п х с?)-мерных выборок х\,Х2 , ...
..., х п е X , из которых ni выборок принадлежат подмножеству Х \,
помеченному coj, и щ |
лежат в подмножестве X j, помеченном а>2- |
|
Рассмотрим линейную комбинацию компонент вектора х: |
||
у — WTX, |
ИЛИ у = W\X\ + |
+ wnxn. |
Если длина ||w|| = 1, то каждая компонента yi есть проекция соответствующего Х{ на прямую, сонаправленную с вектором w.
Доказано, что наилучшее направление вектора w совпадает с на правлением прямой, проходящей через точки т \ и m 2, где
mi =— Y* х, |
г = 1,2. |
|
|
ni “ 1 |
|
|
|
xeXi |
|
|
|
На плоскости имеем |
|
|
|
Х = {Х\, х2у, |
mi = ( m il, mi2y |
|
|
Спроецируем множества Х \ |
и |
Х 2 на прямую с |
направляю |
щим вектором w, получим множество Y , состоящее |
из п выбо |
||
рок у\,у2, ■■■,уп и разделенное |
на подмножества Y\, |
Y2 (Yj с Y, |
|
Y2 C Y). |
|
|
|
Вместо идентификации образов по выборке х е X проводят идентификацию по проекции y e Y и вводят понятие линейного дискриминанта Фишера. Среднее значение выборки для спроеци рованных точек обозначим т .
Линейный дискриминант Фишера определяется как такая ли нейная разделяющая функция у = wTx, для которой функция кри
терия
(mi - m2)2
J(w )= s\+ s\
максимальна, где
4 = У ! ( у - т ) 2, rhi = — V у = — |
V п?х = wTm i, * = 1, 2. |
|||
ПT l |
i |
1 |
77,Щ- |
|
|
*— * ~ |
xeXi |
||
yeYi |
|
yeYi |
|
В итоге получают
w = S ~ \m i — т 2),
где Sw —матрица разброса внутри класса, она пропорциональна ковариационной выборочной матрице для совокупности d-мерных данных,
SW = S \+ S 2, Si = ^ (х - mi)(x - тгУ, г = 1,2.
х е X i
Например, известно, что для нормально распределенных слу чайных величин с равными ковариационными матрицами К и мате матическими ожиданиями jii и ji2 линейная разделяющая функция имеет вид
w = |
- р 2). |
В случае с классов обобщение линейного дискриминанта Фи шера требует определения с - 1 разделяющих функций; здесь осу ществляется проекция из d-мерного пространства X на (с —1)-мер- ное пространство Y (полагаем d ^ с). Линейные разделяющие функ ции имеют направления ггц —т, где
При малой статистике каждое новое наблюдение, по которому ведется идентификация образов, должно быть объединено с преж ними наблюдениями. Чтобы выявить изменение решающей функ ции (или другого критерия), необходимо сравнить полученную раз деляющую функцию с прежней.
§ 9.2. Обобщенные линейные разделяющие функции
Линейная разделяющая функция имеет вид
d
где Wi — компоненты весового вектора w, d — размерность призна ков х.
Можно ввести квадратичную разделяющую функцию
d |
d d |
причем можно считать, что Wÿ = Wji, поскольку XiXj = XjXi. Для квадратичной разделяющей функции разделяющая поверхность, определяемая уравнением д(х) = 0, является поверхностью вто рого порядка, или гиперквадрикой. Продолжая вводить в уравне ние для д(х) дополнительные члены вида WijkXiXjXk, получим класс полиномиальных разделяющих функций, которыми можно аппроксимировать разделяющую функцию д{х) любого вида. Одна ко хотелось бы остаться в классе линейных функций, поэтому вво дят понятие обобщенных линейных разделяющих функций, которые
имеют следующий вид:
d
9(х) = J ] ачуг(х), i=\
ИЛИ
g(x) = аТу(х), у(х) = (у\(х), у2(х ),..., yd(x )f,
где üj — компоненты d-мерного весового вектора а, уг(х) —произ вольные функции от х.
Пример. Пусть g(x) = ai + а2х + а2х 2; тогда обобщенная ли нейная разделяющая функция имеет вид д(х) = а\у\ + а2у2 + азуз, где у\ = 1, 2/2 = х, уз = х2, или у = (1, х, х 2)т.
Однородная разделяющая функция ату = 0 разделяет точки в данном отображенном пространстве посредством гиперплоскости, проходящей через начало координат (что является положительным фактом). Однако увеличение размерности d при переходе к обоб щенной функции затрудняет практическое использование этого приема, хотя переход к обобщенной функции удобен при рассмот рении линейных разделяющих функций. В этом случае
у = (1, XI, ..., x df = (1, х)т, а = (wo, W i,..., wdy = (wo, w f
Переход от d-мерного пространства X к (d + 1)-мерному про странству Y не нарушает соотношений в расстояниях между вы борками, но гиперплоскость ату = 0 проходит через начало коор динат пространства У; расстояние от у до гиперплоскости равно
|aTy|/||a||.
Для нахождения обобщенной линейной разделяющей функции по результатам наблюдений необходимо определить весовой век тор а. Пусть имеется множество п выборок векторов у \ ,... ,у п, одна часть которых относится к образу о)|,а другая часть —к образу w2. Эти выборки мы хотели бы использовать для определения весово го вектора а, который правильно классифицировал бы все выборки. Если такой вектор существует, то выборки называются линейно раз деляемыми. Выборка yi классифицируется правильно, если ату, > 0 и yi помечен a>i или если ату* < 0, но yi помечен а>2. Во втором слу чае yi будет также классифицироваться правильно, если ar(—yi) > 0. Последнее условие дает возможность ввести понятие нормирования для случая двух классов: проводится замена знаков всех выборок,
относящихся к классу сог. При введении нормирования можно най ти весовой вектор о , для которого выполнено условие: если а ту* > О, то yi помечен o>i для всех векторов выборки. Данный вектор а называется разделяющим вектором, или вектором решения. Каж дая выборка yi налагает ограничение на возможное расположение вектора решения. Уравнение aTyi = 0 определяет гиперплоскость, проходящую через начало координат в весовом пространстве, для которой yi является нормальным вектором и должен находиться с положительной стороны гиперплоскости (рис. 9.1).
a2l
Рис. 9.1. Область решений в задаче распознавания образов
Система неравенств, образуемая выборками у\, у2, Уп, или неравенствами aTyi > 0, г —\,2,... ,п, определяет область реше ний Da, но сам вектор решения определяется неоднозначно. На пример, вектор решения может быть выбран как вектор, минимизи рующий расстояния от выборок до разделяющей плоскости. Дру гими словами, необходимо определить критерий (целевую функ цию J(a)), которому должен удовлетворять вектор решения.
Вкачестве целевых функций используются:
1)персептронная функция критерия
JP( a ) = £ ( - a Ty),
уеУ
где Y —множество выборок, классифицируемых с ошибкой, если разделяющим вектором является о (эта функция не может быть отрицательной и достигает нулевого значения, когда а является век тором решения);
2) другие функции критерия, например |
|
|
M a ) = 1 > т!/)2, |
M a ) = ÿ X |
^ ы Г " - |
уеУ |
уеУ |
т |
|
п |
|
Js(a) = Y i^ Ty i - b^ 2’ i= 1
где вектор b— некоторый допуск.
Процесс определения вектора решения а часто является итера
ционным, построенным на градиентном спуске: |
|
{а\ произвольно, |
|
ak+x= ak - p kV J{ak\ |
1. |
При этом должны выполняться условия: aTkyk ^ 0 для всех к или а]ук ^ b для всех к при заданном допуске Ь. Здесь V J(a k) —гра диент целевой функции (критерия) в точке ак, рк — положительный скалярный коэффициент, определяющий величину шага.
Для линейно разделяемых выборок итерационный процесс схо дится. В случае неразделяемых множеств сходимости может не быть. При малом числе наблюдений можно получить достаточно смещенную оценку вектора а.
В процедуре нахождения решения по методу наименьших квад ратов (например, для последней целевой функции Js(a)) весовой вектор находится как в случае линейно разделяемых, так и в случае линейно не разделяемых выборок.
Найдем с помощью метода наименьших квадратов вектор а, при котором выполнены равенства
d Ух Ьх9 % 1,2,..., 71,
где Ь{— произвольно заданные положительные константы (в общем случае заранее не известные).
Запишем систему аТу{ = Ьх, г = 1,2, ... ,п , в матричном виде:
Y а —Ь,
где У —матрица размером п х d, г-й строкой которой является у\\ b — вектор-столбец: b = (6[, bz, • • •, Ьп)т.