
- •92 Двоенко с.Д. Методы анализа бмд
- •4. Задачи классификации и кластер-анализа
- •4.1. Постановка задач классификации и кластер-анализа
- •4.2. Байесовское решающее правило классификации
- •4.3. Вероятности ошибок байесовского классификатора
- •4.4. Формирование решающего правила как обучение распознаванию образов
- •4.5. Восстановление плотностей распределения классов
- •4.6. Восстановление функций степени достоверности
- •4.7. Минимизация среднего риска
- •4.8. Линейные разделяющие функции
- •4.9. Область решений линейной разделяющей функции
- •4.10. Алгоритмы построения разделяющих гиперплоскостей
- •4.11. Алгоритм построения оптимальной разделяющей гиперплоскости
- •4.12. Алгоритмы кластер-анализа
4.6. Восстановление функций степени достоверности
Вновь обратимся к формуле оптимального
решающего правила и представим совместную
плотность распределения
в виде
.
Заметим, что в таком выражении, которое
является более традиционным в распознавании
образов, оптимальное решающее правило
непосредственно опирается на апостериорные
вероятности появления классов или,
другими словами, степени достоверности
.
Такие функции, как правило, значительно
проще плотностей распределения классов
,
так как функции степени достоверности
отражают только взаимное различие
плотностей распределения классов в
основном лишь в небольших областях их
перекрытия в признаковом пространстве.
Взаимное различие плотностей распределения
классов важно лишь в областях, где, по
крайней мере, плотности двух классовlиk,
,
отличны от нуля. В остальной же, большей
части пространства, согласно гипотезе
компактности, значения степени
достоверности классов близки к 0 или 1.
Очевидно, что в противном случае
распознавание с приемлемой величиной
риска ошибки просто невозможно. Поэтому
обучение распознаванию строится как
процесс непосредственного восстановления
функций
без восстановления плотностей
.
Пусть
- некоторое параметрическое семейство
действительных функций в пространстве
признаков
,
удовлетворяющих условию
для всех
.
Рассмотрим случайную величину
.
Если в данном параметрическом семействе
существуют такие параметрыck,
,
при которых апостериорные вероятности
классов определяются через их значения
для всех
,
то в каждой точке признакового пространства
условное математическое ожидание
случайной величины
совпадает с математическим ожиданием
:
для всех
.
Поэтому найдем коэффициенты ck,из условий:
,
что означает
.
Если семейство функций
регулярно, то получим критерий обучения
.
Пусть
,
- обучающая последовательность, на
которой случайная переменная
принимает значения
.
Заменим операцию матожидания усреднением по выборке и получим
.
Отсюда получим итерационный градиентный алгоритм оценивания параметров
,
,
где
- коэффициент очередного шага в направлении
антиградиента.
В случае бесконечной обучающей выборки
,
,
предъявляемой последовательно,
рекуррентный алгоритм обучения строится
как алгоритм стохастической аппроксимации
Роббинса-Монро для решения уравнения
регрессии
.
Рассмотрим систему некоторых функций
,
образующих пространствоRp,
которое является спрямляющим для
параметрического семейства
,
таким, что
.
Тогда градиент
определяется выражением
.
4.7. Минимизация среднего риска
Методы
оценивания плотностей распределений
и функций степени достоверности
восстанавливают полностью или частично
вероятностные характеристики исходных
данных. Лишь потом эти характеристики
используются для формирования решающего
правила. С другой стороны, можно строить
алгоритмы обучения для непосредственного
выбора решающего правила
,
минимизирующего средний риск ошибки
распознавания
,
не восстанавливая вероятностные
характеристики исходных данных.
Рассмотрим некоторое заданное
параметрическое семейство решающих
правил и некоторую фиксированную функцию
потерь
.
Тогда средний риск является функцией
параметраc:
.
Тогда требование минимизации среднего риска приводит к условию равенства нулю его градиента
.
Но для функции потерь вида
перестановка операций дифференцирования
и матожидания недопустима, так как
выражение
(тождественно равно нулю) почти для всехcи изменяется скачком в зависимости
от параметраcпри любомx, так
как
зависит отcскачкообразно. Из-за
этого рекуррентные градиентные процедуры
типа стохастической аппроксимации
здесь не используются.
Поэтому для построения процедуры обучения используют комбинацию дихотомических решающих правил вида
,
основанных, как правило, на линейной
дискриминантной функции вида
.
Тогда параметрическая функция потерь
определяется в виде
Такая функция штрафует не просто
неправильное определение класса объекта,
но и слишком близкое расположение
вектора xк разделяющей гиперплоскости
в своем классе относительно порогаи, тем более, попадание вектораxв
область чужого класса. Для такой функции
потерь выражение для среднего рискауже обладает регулярностью, что приводит
к невырожденному уравнению регрессии
.
Тогда в случае бесконечной обучающей
выборки
,
,
предъявляемой последовательно,
рекуррентный алгоритм обучения также
строится как алгоритм стохастической
аппроксимации Роббинса-Монро для решения
уравнения регрессии
.