Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы принятия решений

..pdf
Скачиваний:
3
Добавлен:
13.11.2023
Размер:
22.94 Mб
Скачать

условие |х| < 1 для разложения функции 1п(1 + х ) в ряд Маклорена, то воспользуемся разложением

In -j— - =2\х + — + . . . J , |х|<1,

и сделаем замену переменной

 

1

+ х _ N + k

1

х

к

(см. [46]). Тогда х = k/(2N + к) правильная положительная дробь и

 

In N N+ k

 

~ l2Nк+ к

 

<8 '°>

 

 

 

- b

 

 

 

 

Выбираем значение N , по которому найдем к. В рассматривае­

мом случае

 

 

 

 

 

 

 

N = \,

кг = ^ Р ^ А т щ ,

* = 1,2.

 

 

 

 

 

 

О1

 

 

 

При условии

(8.10), если Атп\ = A m i = А т , выражение (8.8)

принимает вид

 

 

 

 

 

 

 

у ( m f — тп\) +

2Am(m\ + m2)

 

 

х ——--------- ----------------------------

 

 

 

%

2Am(m\ + m2)

 

 

тщ - m2 + 4Am

m , + m 2

 

 

 

 

 

 

* — 2 ~

+ m i - m 2+-4Am-

(8Л1)

 

Второе слагаемое здесь определяет возможное смещение раз­

деляющей границы. При

другой комбинации знаков Ар(х | cùj),

j =

1, 2, в выражении (8.8) смещение будет равно 2Ат.

 

 

Найдем теперь максимальное смещение границы, учитывая толь­

ко

погрешность

Д а. Выражение (8.8) с

учетом равенства

(8.10)

примет вид

 

 

 

 

 

 

8Дах2 + x[2o(mi —т 2) -

8Aa(mi + т 2)] -

 

 

- о (т \ - m l) - 4 а 2Д а + 4 Д а ( т 2 - т \) = 0 .

(8 .1 2 )

Смещение разделяющей границы в данном случае следует из то­ го, что х = (mi + т 2)/2 не является корнем уравнения (8.12).

Обратимся к алгоритму классификации, с помощью которо­ го можно учесть погрешности априорной информации \со,), г = 1 , . . . , т . В §6.1 было показано, что разделяющая функция,

которую получают в традиционных методах из условия

ьР (ц ,М г |р ,) Р(со2)р(я I <о2)

является смещенной оценкой реальной разделяющей функции. Несмещенная оценка разделяющей функции может быть получена путем стохастической аппроксимации по граничным точкам, най­ денным из условия

п

(8-13)

P(CÙ2)p(Ç|0)2)

где р(£ | iùj) — наблюдаемые значения плотности вероятностей появ­ ления в выбранных областях А , г = 1,2,..., n, Xj е А , измеренных значений х \,Х 2, . . . , х п для j-ro образа. Значения р ( £ | (ùj) = p из­ вестны, они использовались для определения вида функциональной зависимости р(х | со.,) на первом этапе, когда предполагалось, что

\ = х.

Из заданных условий определяют общий вид (класс) разделяю­ щих функций Ф(£, 0) (линейный, гиперквадратный и т. п.), свобод­ ные параметры 0 которых оценивают по точкам из условия (8.13), решая совместно системы уравнений (8.3) и (8.4), заменяя в послед­

них р(£ | <o7)|ç=x на Ф(£, 0) и на числовые значения In

Р(<о2)р (£ | со2) Другая возможность найти разделяющую функцию Ф(£, 0) —ис­ пользовать сразу условие (8.13) и получить аналитический вид раз­

деляющей функции Ф(£, 0).

Наиболее часто в задачах распознавания образов применяют линейные разделяющие функции (гиперплоскости). Оценки свобод­ ных параметров гиперплоскости находят как координаты точки ми­ нимума функционала (8.6). В данном случае в системе алгебраи­ ческих уравнений (8.3) уравнение для оценки параметра а будет линейным, а остальные уравнения образуют систему квадратных уравнений относительно параметров bk, k = 1,2,..., I. Методы ре­ шения подобных систем, как и ряда задач аппроксимации резуль­ татов наблюдений элементарными функциями при учете погрешно­ стей во всех координатах, рассмотрены в работе [20].

Дисперсия оценок значений функции Ф(£, 0) при Ç = х опреде­ ляется по формуле

D[4>(*,9)] £

/ дЩх,

0)\ 2

А

А

дЩх, 0) дЩх,

6)

V dQj

)

Aj

. А? .

dQi

двн

D(6i, Gj)

3 = 1

J

 

 

г=1 j=2,]>iJ

при 0 = 0.

 

 

 

 

 

 

 

Изложенные результаты получены в предположении, что функ­ ция потерь L((Ù, d) имеет вид

т, ,ч ]° ПРИi=j>

di)=<

( 1 при i ф j.

В общем случае, когда функция потерь равна нулю для пра­ вильного решения, равна 1\, если ошибочно выбирается образ со2 вместо o>i, равна 12, если ошибочно выбирается o>i вместо со2, ре­ шение с минимальным риском находят по выражению

JiP(«i)p(ÇI“г), г = 1,2.

Образ toi выбирается, если выполнено условие

ZlP(<Ol)p(Ç | <0i) > i2P(<02)p(Ç I<02).

Уравнение разделяющей функции определяют, используя выра­

жение

/I PCWOPG I U ,)

1гР(ь>гШ I“г)

§8.3. Плохая обусловленность и некорректность

взадачах оценки параметров функции

Итерационный алгоритм решения конфлюэнтной задачи состо­ ит из двух основных этапов: решения системы алгебраических уравнений для получения оценки 0 и решения методом линеари­ зации систем нелинейных алгебраических уравнений для определе­ ния оценок £ истинных значений аргументов При этом возмож­ на ситуация, когда бесконечно малым приращениям в исходных данных могут отвечать сколь угодно большие изменения в реше­ нии [20, 71]. Такие системы называются плохо обусловленными,

а задачи — некорректными. Приращения в исходных данных могут быть вызваны как ошибками в измерениях, так и округлением ве­ личин в процессе расчетов на компьютере. В плохо обусловленных системах строгое математическое решение может не соответство­ вать «физической» постановке задачи. Критической величиной, которая определяет физическую надежность строгого математи­ ческого решения, является отношение наибольшего собственного значения симметрической матрицы А ТА, где Л —матрица систе­ мы алгебраических уравнений, к наименьшему. Квадратный корень этого отношения показывает увеличение помех в направлении, соответствующем наименьшему собственному значению матри­ цы А 7А [20, 54].

В качестве другой характеристики обусловленности системы с квадратной матрицей А размерностью п вводят ^-обусловливаю­ щие числа,

jv = ^ И 1И - | ||,

где ||Л]| и ||Л- 11| — нормы соответственно матрицы А и обратной матрицы А ~ 1.

Наилучшими обусловленными матрицами являются ортого­ нальные, для которых JV-обусловливающие числа равны единице. Ортогональные матрицы удовлетворяют условию А ~ х = А 7.

В процессе обработки результатов наблюдений и аппроксима­ ции исходных данных функциями различных видов с большим числом оцениваемых параметров в решении появляются осцил­ ляции. Они возникают не только из-за погрешностей наблюдений, но и в результате неадекватного представления исследуемого явле­ ния выбранными функциями. С одной стороны, желательно описать как можно точнее изучаемое явление бблыним числом параметров, с другой — увеличение размерности задачи ухудшает обусловлен­ ность систем, и задача становится некорректной. Обусловленность систем линейных алгебраических уравнений еще больше ухудша­ ется, когда мы имеем дело с коррелированными исходными слу­ чайными величинами.

Задача считается поставленной корректно, если ее решение удовлетворяет условиям Адамара, которые для операторного урав­ нения у = AQ формулируются следующим образом [71]:

1)решение 6 существует для любого у 6 QA Я F;

2)решение 0 единственно в пространстве U;

3)решение 0 непрерывно зависит от у, т. е. если приращение А у стремится к нулю, то приращение А 0 также стремится к нулю.

Другими словами, задача некорректна, если определитель ли­ нейного оператора А равен нулю. Здесь 0 является элементом мет­ рического пространства U ,a y элементом метрического простран­ ства F. Областью определения оператора А, действующего из U

вF, является DA Я U, областью его значений — QA = A{DA ) Ç F. Иногда плохо обусловленные и некорректные задачи называют

некорректными. Этим термином мы будем пользоваться в даль­ нейшем.

Таким образом, чтобы корректно учитывать реальную экспери­ ментальную информацию, необходимо иметь метод решения некор­ ректных задач. Для этой цели, в частности, применяется метод регу­ ляризации А. Н. Тихонова и большая серия методов, развитых на его основе [21, 54, 71].

Строго говоря, в задачах, приведенных в гл. 7, мы должны бы­ ли бы применять на каждой итерации метод регуляризации А. Н. Ти­ хонова для решения плохо обусловленных систем линейных ал­ гебраических уравнений. В действительности имеет место более простая ситуация.

Во-первых, если области допустимых значений аргументов не пересекаются, что имеет место в большинстве практических задач, и учитываются ограничения, налагаемые на допустимые значения оценок £ при вычислениях, то процесс нахождения оценок \ явля­ ется корректным.

Во-вторых, если в практических задачах число определяемых параметров невелико, то одна из возможных причин некорректно­ сти задачи — большая размерность системы — не возникает и соот­ ветствующая система линейных алгебраических уравнений может быть достаточно хорошо обусловлена. Тем не менее, некорректные задачи в процессе принятия решений приходится решать.

Пусть требуется найти решение 0 системы линейных алгебраи­

ческих уравнений

у = АЬ,

минимизируя невязку р2(А0, у) = J(0). При определенных условиях

задача минимизации невязки р2(А0, у) может быть некорректной. В методе регуляризации А. Н. Тихонова вводится функция £7(0), определенная на непустом множестве UQ Q U и называемая стаби­ лизатором. Функция £7(0) должна обладать следующими свойства­

ми [71]:

 

 

 

1) £7(0) ^ 0 для всех 0 е Un;

 

 

2) множество

£7^ = {0 | в е Un; £7(0) ^

С] является р-компакт-

ным

при любом

С = const ^ 0, т. е. из

любой последовательно­

сти

{0*;} 6 fie можно выбрать подпоследовательность

{0^„}, р-схо-

дящуюся к некоторой точке 0 е Qci

 

 

3) множество

UQ = Un П U* непустое ((7* — множество точек

минимумов функции J(0) = p2F(AQ, у)).

 

 

Далее берется какая-либо положительная последовательность

{а^}, сходящаяся

к нулю, и при каждом к = 1,2,...

на множе­

стве Un определяется функция Тихонова

 

 

 

 

Тк(В) = J(0) + afc£2(0),

Qe Un.

 

Минимум функции Тихонова для различных значений к опреде­ ляет минимизирующую последовательность {0fc}, сходящуюся к регуляризованному решению 0Р.

Существуют алгоритмы, в которых по величине погрешности исходных данных определяется единственное (оптимальное) зна­ чение параметра регуляризации ос в функции Тихонова и сразу находится регуляризованное решение 0Р. Нас будет интересовать не только регуляризованное решение 0Р, но и интервальная оценка этого решения, поскольку мы оперируем исходными случайными величинами.

Рассмотрим функцию Тихонова как функцию Лагранжа следу­ ющей задачи: минимизировать функцию £7(0) на множестве U n ^ U при условии

Р2(АВ, у) = 52

Здесь 5 —величина погрешности исходных данных, параметр а функции Тихонова является множителем Лагранжа.

Выбор стабилизатора £1(0) в методе регуляризации неоднозна­ чен, часто для систем линейных алгебраических уравнений его вы­ бирают в виде £7(0) = ||0||2. Для выделения редких сигналов

применяют методы неквадратичной /р-регуляризации,

где ||0||р,

О < р < 1

[110].

 

Если

функция р2(Л0, у) для у = АВ + е может быть

записана

в виде

Р2(Ав, у) = (у - АВУ0~х(у)(у - АВ),

 

 

 

где D(jO — ковариационная матрица погрешностей исходных дан­ ных, и стабилизатор имеет линейный вид

П(В) = L B - R ,

то получим следующее:

1)вектор оценок 0 точки минимума функции Тихонова

Т= (у - АВУ0~\у)(у - АВ) + <x\LB - R)

имеет вид 0 = F ATD~X(у)у + G*R\

2) матрица вторых моментов оценок имеет вид

 

D(0) = С -1 - C - lLT(L C - 'L T) - lL C -';

(8.14)

3) дисперсия оценки параметра регуляризации а (множителя

Лагранжа) имеет вид

 

D(ot) = (LC~lLr)~l.

(8.15)

Здесь F = С ~ Х- C ~ xU ( L C - 'U ) - xL C - \ G = (LC~XU ) - XLC,

С = A*[)~x{y)A. Диагональные элементы второго члена

выраже­

ния (8.14) служат мерой уменьшения дисперсий оценок в методе регуляризации.

Смешанные вторые моменты вектора оценок параметров 0 мо­ гут увеличиваться или уменьшаться в зависимости от конкретной задачи. Смешанный второй момент для 0 и а равен нулю: оценки 0 и а не коррелированы.

Из выражений (8.14) и (8.15) следует, что матрица вторых мо­ ментов вектора параметров 0 является подматрицей, обратной мат­ рице исходных уравнений, получаемой после дифференцирования функции Тихонова Т(0) по 0 и а, а матрица вторых моментов а — той же подматрицей со знаком минус. Таким образом, дисперсии оценок 0 и 3 можно определить с помощью матрицы М (0, а), эле­ менты которой — вторые производные функции Тихонова по 0 и а, взятые со знаком минус и вычисленные при найденных значениях

оценок 6 и заданных значениях 3. Дисперсия оценки 3 показыва­ ет возможный интервал выбора параметра регуляризации. Обратив матрицу М (0, а), получим подматрицы, определяющие ковариаци­ онные матрицы (8.14) и (8.15) оценок 0 и а соответственно.

Отметим, что значение константы R не влияет на значения по­ лучаемых дисперсий (8.14) и (8.15). Однако в методе регуляризации не применяется линейный стабилизатор. Для нахождения интер­ вальных оценок можно, предварительно определив точечные оцен­ ки 0 и а с помощью других известных методов [21, 71], восполь­ зоваться только что полученными результатами, линеаризовав ста­ билизатор 0(0) в окрестности оценки 0. Определив интервальные оценки, нетрудно непосредственно проверить, не вносит ли ли­ неаризация стабилизатора искажений, превышающих погрешность исходных данных.

Пример. Найдем минимум функции Тихонова по 0 и а:

Г (01, 02) = (01 - I)2 + (02 - I)2 + а(02 + 02) -► min.

В этом выражении стабилизатор имеет вид

0 (01, 02) = 02 + 02-

Координаты точки минимума функции Т (0ь 0г) при малых а близки к (1,1). Разложим функцию 0(0 ь 0г) в ряд Тейлора в окрест­ ности точки (1, 1):

O(0i, 02) * 2 + 2(0, - 1) + 2(02 - 1).

После замены переменных 0 , —>0] — 1, 02—>02 — 1 функция Ти­ хонова будет иметь вид

T(0i, 0г) = 02 + 02 + ot(201+ 202 + 2).

Вычислив матрицу, элементы которой — вторые производные функции Т (01, 0г) по 0ь ^02 и а, и обратив ее, получим матрицу вторых моментов оценок 0 и 3:

0,25

-0,25

М - | (0, а) = -0,25

0,25

0,25

Элементы (1,3), (2,3), (3,1) и (3,2) матрицы здесь не указаны, так как они не несут информации (учитываются только соответ­ ствующие подматрицы). Значения элементов матрицы не зависят от величины константы в разложении стабилизатора Q(0i, 62)- По­ этому можно записать эквивалентную задачу следующим образом:

/ ( 01, 62) = Of + 02 -*■ min

при 2(0i + 62) = const = С. Отсюда имеем

/(0i) = 0? + ( у - 0 I )

min, d ^

= 4,

/S

/4

1/4, что совпадает с ранее полу­

дисперсии оценок 0i

и 02 равны

ченными результатами. Без учета условия-ограничения дисперсии оценок равны 1/ 2.

Вопрос о некорректности задачи получения оценок в конфлю­ энтном анализе можно было бы рассмотреть в самом начале, при определении функционала, из которого находится конфлюэнтное решение задачи. К этому функционалу (см., например, (7.8), (7.9), (7.11)) следует добавить стабилизатор £1. Если Q —П(0), то мы при­ дем к изложенным здесь результатам.

Действительно, в общем случае функция Тихонова имеет вид

Т = In Ц х, у 10) + осП(0),

где fî(0) — дифференцируемая функция. Тогда оценка вектора па­ раметров 0 при фиксированном значении а находится из системы уравнений

[In L(x, у 10) + Sfl(0)] = 0, j = 1,2 , . . . , m .

Состоятельность и асимптотическая нормальность таких оце­ нок 0 в регрессионной^юдели доказана в работе [71].

Дисперсии оценок 0 и S определяются по формулам

 

0(0) = А ~ х - А - хВ (В тА ~ хВ ) - хВ гА - \

 

 

 

D(ot) = (В*А ~ ХВ)~Х,

 

 

д2Т

 

д2Т II

 

где А =

dQiôQj

В =

M idA’ i , j = 1, 2,..

, m.

Смешанный второй момент оценок 0 и а равен нулю: оценки 0

иа не коррелированы.

Спомощью матрицы вторых производных получим ковариаци­ онную матрицу оценок

D(0,5) =

 

 

_ { А - 1- А ~ 1В (£ М - 1В ) - 1ВТА ~1

А~1В(ВТА~ 1 В)~1\

" V

(вм -'вг^м - 1

-(вм-'в)-1 у ( }

но учитывать в (8.16) надо только диагональные элементы. Напри­ мер, для задачи

Т = (б, - I)2 + (02 - I)2 + а(0? + 0l) -» min

ковариационная матрица имеет вид

/

Щ

 

-0102

\

 

2(1 + axe? + 0?)

2(i + axe? + е?)

 

D(0, S) =

- 0 102:

 

0?

 

 

2(1 + axe?+ е?)

2(i + axe?+ e?)

l+S

 

 

 

 

 

 

 

 

2(0? +Щ)/

При 0i = 02 = 1 и S «

1 получим приведенную ранее матрицу

М _ 1(0, а). Из

выражения

для

D(0, а) следует, что

с увеличением

значения а (с увеличением вклада ограничений) дисперсии оценок параметров уменьшаются.

В ряде работ показано (см., например, [21]), что с помощью методов безусловной оптимизации функции J(0), в частности мето­ дов сопряженных градиентов, наискорейшего (градиентного) спус­ ка, можно получить регуляризованное решение, если ограничить число итераций п ^ щ поиска экстремума таким образом, чтобы при выполнении условия J(0) = 8, где 8 определяется погрешно­ стью исходных данных, процесс минимизации прекращался. Полу­ ченное решение и будет регуляризованным. При увеличении числа итераций п > щ решение может стать неустойчивым. Параметром регуляризации здесь является число итераций щ . Подобный подход привлекает своей простотой. Для определения дисперсий и оценок в этом случае необходимо учесть вид уравнения траектории движе­

Соседние файлы в папке книги