Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы принятия решений

..pdf
Скачиваний:
3
Добавлен:
13.11.2023
Размер:
22.94 Mб
Скачать

Проведем идентификацию л. а. при одновременно наблюдаемых признаках v = 1000 м/с, Я = 5500 м, f m = 12 кГц, ЭПР= 69 дБ. Традиционные методы идентифицируют объект как объект типа 1, тогда как с учетом погрешности измерений признаков это объект типа 2 при вероятности ошибки рош = 0,23 со средним квадратиче­ ским отношением вероятности ошибки <т(рош) = 0,03. Только при­ влечение дополнительных значений ЭПР позволило уменьшить ве­ роятность ошибки до 0,1.

Г л а в а 9

РАСПОЗНАВАНИЕ ОБРАЗОВ ПРИ НЕИЗВЕСТНОМ ЗАКОНЕ

РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ПРИЗНАКОВ

§ 9.1. Оценка параметров классификаторов по выборке фиксированного объема

Ранее, в гл. 6 и гл. 8, было показано, что в задачах распознавания образов необходимо учитывать:

1)погрешности измеряемых признаков при определении услов­ ных плотностей вероятности признаков и при идентификации объ­ ектов (в противном случае мы получаем смещенные оценки функ­ ции условной плотности распределения вероятностей и принимаем недостоверные решения);

2)не только наиболее вероятные оценки функций условной плотности распределения вероятностей и решающих функций, но

иих интервальные оценки (тем самым показывается, что в любой задаче распознавания образов имеется нулевая зона (зона неопре­ деленности), задаваемая, в частности, интервальной оценкой реша­ ющей функции).

Вгл. 8 были описаны разработанные методы учета статисти­ ческих характеристик вектора признаков в задачах распознавания образов с фиксированным объемом выборки в предположении, что вид функции условной плотности распределения вероятно­

стей р(£, 0 1о)) вектора признаков \ для класса о

нам известен,

но не известны значения параметров 0 и оценки \

(параметриче­

ские методы).

 

Кроме того, в задачах распознавания образов часто имеют место случаи, когда [3, 14, 25, 28, 81, 83-85]:

а) вид функции распределения вероятностей признаков не изве­ стен, но статистика наблюдений достаточна для установления этого вида (непараметрические методы);

б) вид функции распределения вероятностей признаков не из­ вестен, но полагают известным вид (или виды) разделяющих (ре­ шающих) функций, а выборки используют для оценок значений параметров классификатора.

Последняя ситуация будет рассмотрена в настоящей главе.

Классификатор по минимуму расстояния

Пусть имеются выборки для с классов и для каждого клас­ са определены векторы средних значений р^ г = 1,2,..., с. Чтобы по наблюдаемому вектору признаков х определить класс, следует измерить расстояния ||х - pi|| от х до каждого из с векторов средних значений и выбрать класс, соответствующий ближайшему среднему значению. Если каждый из векторов средних значений считать иде­ альным прототипом или эталоном для образов своего класса, то это будет процедурой сравнения с эталоном.

Расстояние г = ||х —pi|| можно определить по-разному (раз­ ными формулами), но мы будем использовать евклидово рассто­ яние. Если априорные вероятности не равны, то квадрат расстояния ||а: —рг||2 должен быть нормирован по дисперсии а2 и смещен на ве­ личину In P(oi). (Это следует из нормального закона распределения случайных величин х при равных дисперсиях о2/.) Когда вектор х равно близок к двум различным векторам средних значений, при принятии решения следует предпочесть класс, априори более веро­ ятный.

Если ковариационные матрицы К для всех классов одинаковы и признаки подчинены нормальному закону распределения, то для классификации вектора признаков х следует определить квадратич­ ное махаланобисово расстояние

г2 = (х - [ ii)TК ~ \ х - P i)

от х до каждого из с векторов средних значений и отнести х к клас­ су, соответствующему ближайшему среднему значению р,. В случае неравных априорных вероятностей при принятии решения несколь­ ко большее предпочтение (In P(coi)) отдается классу, априори более вероятному.

Это один из наиболее простых критериев, который, однако, не учитывает возможные виды разделяющих функций, не говоря

уже о том, что не учитываются погрешности векторов

г = 1,2,...

..., с, и х и, тем самым, не определена область неопределенности принимаемых решений.

Линейная разделяющая функция для двух и многих классов

Линейные разделяющие функции наиболее просты и удобны с точки зрения аналитического исследования. Часто их использу­ ют ради упрощения вычислительного процесса.

Задача определения линейной разделяющей функции формули­ руется как задача минимизации некоторой функции критерия, в ка­ честве которого используется выборочный риск средние потери при классификации множества конструктивных выборок, хотя мо­ гут использоваться и другие критерии.

Линейная разделяющая функция д(х) для двух классов может быть записана в виде

д{х) = wx + WQ

где w — весовой вектор, wo — величина порога.

Для двух классов и>\ и (02 применяется следующее решающее правило: принять решение и>\, если д(х) > 0, и принять решение <02, если д(х) < 0.

В линейном случае уравнение д{х) = 0 представляет гиперплос­ кость H ,w нормаль этой гиперплоскости, направленная в сторону области решений R\ для o j. Разделяющая функция д(х) должна представлять собой алгебраическое расстояние от х до гиперплос­ кости Н . Поэтому предпочтительнее сразу пользоваться нормаль­ ным (нормированным) уравнением гиперплоскости, для чего общее уравнение гиперплоскости следует разделить на длину вектора w, равную ||iu||. Тогда расстояние г от точки х до гиперплоскости Н выразится формулой

При г^о = 0 гиперплоскость проходит через начало координат. Если имеется не два, а с классов, то задачу можно свести к с —1 задачам для двух классов, где решением г-й задачи служит линей­ ная разделяющая функция, определяющая границу между точками,

соответствующими решению со*, и точками, не соответствующими решению со*.

Q Для решения многомерной задачи можно также использовать у (с —1) линейных разделяющих функций, по одной для каждой пары классов.

В обоих подходах могут образовываться области, в которых классификация не определена. Чтобы избежать этой, неопределен­ ности, применяется классификатор, называемый линейной маши­ ной. Этим классификатором определяются с линейных разделяю­ щих функций

3i(x) = w jx + wi0, * = 1, 2, ...,с;

по х определяется класс со*, если д^х) > gj(x) для всех j ф i.

Если области решений Ri и Rj соприкасаются, то границей между ними будет часть гиперплоскости Нц, определяемой соот­

ношением

9i{x) = 9j(x)

или

(Wi - Wj)TX + WiO - Wjo = 0.

Здесь (wi — Wj) — вектор нормали, a расстояние от x до плоско­ сти Hij определено формулой

г = ~ дз \W i-W jl'

Параметрические и непараметрические методы эффективно ис­ пользуют для решения задач в пространствах меньшей размерно­ сти. Поэтому при распознавании образов, которые имеют признаки размерностью d, применяется прием, позволяющий уменьшить раз­ мерность до одного: проецируются d-мерные данные на прямую (для двух классов).

Пусть имеется множество (п х с?)-мерных выборок х\,Х2 , ...

..., х п е X , из которых ni выборок принадлежат подмножеству Х \,

помеченному coj, и щ

лежат в подмножестве X j, помеченном а>2-

Рассмотрим линейную комбинацию компонент вектора х:

у — WTX,

ИЛИ у = W\X\ +

+ wnxn.

Если длина ||w|| = 1, то каждая компонента yi есть проекция соответствующего Х{ на прямую, сонаправленную с вектором w.

Доказано, что наилучшее направление вектора w совпадает с на­ правлением прямой, проходящей через точки т \ и m 2, где

mi =— Y* х,

г = 1,2.

 

ni “ 1

 

 

 

xeXi

 

 

На плоскости имеем

 

 

 

Х = {Х\, х2у,

mi = ( m il, mi2y

 

Спроецируем множества Х \

и

Х 2 на прямую с

направляю­

щим вектором w, получим множество Y , состоящее

из п выбо­

рок у\,у2, ■■■,уп и разделенное

на подмножества Y\,

Y2 (Yj с Y,

Y2 C Y).

 

 

 

Вместо идентификации образов по выборке х е X проводят идентификацию по проекции y e Y и вводят понятие линейного дискриминанта Фишера. Среднее значение выборки для спроеци­ рованных точек обозначим т .

Линейный дискриминант Фишера определяется как такая ли­ нейная разделяющая функция у = wTx, для которой функция кри­

терия

(mi - m2)2

J(w )= s\+ s\

максимальна, где

4 = У ! ( у - т ) 2, rhi = — V у =

V п?х = wTm i, * = 1, 2.

ПT l

i

1

77,Щ-

 

 

*— * ~

xeXi

yeYi

 

yeYi

 

В итоге получают

w = S ~ \m i — т 2),

где Sw матрица разброса внутри класса, она пропорциональна ковариационной выборочной матрице для совокупности d-мерных данных,

SW = S \+ S 2, Si = ^ (х - mi)(x - тгУ, г = 1,2.

х е X i

Например, известно, что для нормально распределенных слу­ чайных величин с равными ковариационными матрицами К и мате­ матическими ожиданиями jii и ji2 линейная разделяющая функция имеет вид

w =

- р 2).

В случае с классов обобщение линейного дискриминанта Фи­ шера требует определения с - 1 разделяющих функций; здесь осу­ ществляется проекция из d-мерного пространства X на (с —1)-мер- ное пространство Y (полагаем d ^ с). Линейные разделяющие функ­ ции имеют направления ггц т, где

При малой статистике каждое новое наблюдение, по которому ведется идентификация образов, должно быть объединено с преж­ ними наблюдениями. Чтобы выявить изменение решающей функ­ ции (или другого критерия), необходимо сравнить полученную раз­ деляющую функцию с прежней.

§ 9.2. Обобщенные линейные разделяющие функции

Линейная разделяющая функция имеет вид

d

где Wi — компоненты весового вектора w, d — размерность призна­ ков х.

Можно ввести квадратичную разделяющую функцию

d

d d

причем можно считать, что Wÿ = Wji, поскольку XiXj = XjXi. Для квадратичной разделяющей функции разделяющая поверхность, определяемая уравнением д(х) = 0, является поверхностью вто­ рого порядка, или гиперквадрикой. Продолжая вводить в уравне­ ние для д(х) дополнительные члены вида WijkXiXjXk, получим класс полиномиальных разделяющих функций, которыми можно аппроксимировать разделяющую функцию д{х) любого вида. Одна­ ко хотелось бы остаться в классе линейных функций, поэтому вво­ дят понятие обобщенных линейных разделяющих функций, которые

имеют следующий вид:

d

9(х) = J ] ачуг(х), i=\

ИЛИ

g(x) = аТу(х), у(х) = (у\(х), у2(х ),..., yd(x )f,

где üj — компоненты d-мерного весового вектора а, уг(х) произ­ вольные функции от х.

Пример. Пусть g(x) = ai + а2х + а2х 2; тогда обобщенная ли­ нейная разделяющая функция имеет вид д(х) = а\у\ + а2у2 + азуз, где у\ = 1, 2/2 = х, уз = х2, или у = (1, х, х 2)т.

Однородная разделяющая функция ату = 0 разделяет точки в данном отображенном пространстве посредством гиперплоскости, проходящей через начало координат (что является положительным фактом). Однако увеличение размерности d при переходе к обоб­ щенной функции затрудняет практическое использование этого приема, хотя переход к обобщенной функции удобен при рассмот­ рении линейных разделяющих функций. В этом случае

у = (1, XI, ..., x df = (1, х)т, а = (wo, W i,..., wdy = (wo, w f

Переход от d-мерного пространства X к (d + 1)-мерному про­ странству Y не нарушает соотношений в расстояниях между вы­ борками, но гиперплоскость ату = 0 проходит через начало коор­ динат пространства У; расстояние от у до гиперплоскости равно

|aTy|/||a||.

Для нахождения обобщенной линейной разделяющей функции по результатам наблюдений необходимо определить весовой век­ тор а. Пусть имеется множество п выборок векторов у \ ,... ,у п, одна часть которых относится к образу о)|,а другая часть —к образу w2. Эти выборки мы хотели бы использовать для определения весово­ го вектора а, который правильно классифицировал бы все выборки. Если такой вектор существует, то выборки называются линейно раз­ деляемыми. Выборка yi классифицируется правильно, если ату, > 0 и yi помечен a>i или если ату* < 0, но yi помечен а>2. Во втором слу­ чае yi будет также классифицироваться правильно, если ar(—yi) > 0. Последнее условие дает возможность ввести понятие нормирования для случая двух классов: проводится замена знаков всех выборок,

относящихся к классу сог. При введении нормирования можно най­ ти весовой вектор о , для которого выполнено условие: если а ту* > О, то yi помечен o>i для всех векторов выборки. Данный вектор а называется разделяющим вектором, или вектором решения. Каж­ дая выборка yi налагает ограничение на возможное расположение вектора решения. Уравнение aTyi = 0 определяет гиперплоскость, проходящую через начало координат в весовом пространстве, для которой yi является нормальным вектором и должен находиться с положительной стороны гиперплоскости (рис. 9.1).

a2l

Рис. 9.1. Область решений в задаче распознавания образов

Система неравенств, образуемая выборками у\, у2, Уп, или неравенствами aTyi > 0, г —\,2,... ,п, определяет область реше­ ний Da, но сам вектор решения определяется неоднозначно. На­ пример, вектор решения может быть выбран как вектор, минимизи­ рующий расстояния от выборок до разделяющей плоскости. Дру­ гими словами, необходимо определить критерий (целевую функ­ цию J(a)), которому должен удовлетворять вектор решения.

Вкачестве целевых функций используются:

1)персептронная функция критерия

JP( a ) = £ ( - a Ty),

уеУ

где Y множество выборок, классифицируемых с ошибкой, если разделяющим вектором является о (эта функция не может быть отрицательной и достигает нулевого значения, когда а является век­ тором решения);

2) другие функции критерия, например

 

M a ) = 1 > т!/)2,

M a ) = ÿ X

^ ы Г " -

уеУ

уеУ

т

 

п

 

Js(a) = Y i^ Ty i - b^ 2’ i= 1

где вектор b— некоторый допуск.

Процесс определения вектора решения а часто является итера­

ционным, построенным на градиентном спуске:

 

{а\ произвольно,

 

ak+x= ak - p kV J{ak\

1.

При этом должны выполняться условия: aTkyk ^ 0 для всех к или а]ук ^ b для всех к при заданном допуске Ь. Здесь V J(a k) гра­ диент целевой функции (критерия) в точке ак, рк — положительный скалярный коэффициент, определяющий величину шага.

Для линейно разделяемых выборок итерационный процесс схо­ дится. В случае неразделяемых множеств сходимости может не быть. При малом числе наблюдений можно получить достаточно смещенную оценку вектора а.

В процедуре нахождения решения по методу наименьших квад­ ратов (например, для последней целевой функции Js(a)) весовой вектор находится как в случае линейно разделяемых, так и в случае линейно не разделяемых выборок.

Найдем с помощью метода наименьших квадратов вектор а, при котором выполнены равенства

d Ух Ьх9 % 1,2,..., 71,

где Ь{— произвольно заданные положительные константы (в общем случае заранее не известные).

Запишем систему аТу{ = Ьх, г = 1,2, ... ,п , в матричном виде:

Y а —Ь,

где У —матрица размером п х d, г-й строкой которой является у\\ b — вектор-столбец: b = (6[, bz, • • •, Ьп)т.

Соседние файлы в папке книги