
- •Тема 10. Статистический подход к распознаванию образов: использование метода группового учета аргументов (мгуа)
- •Постановка задачи аппроксимации функции по экспериментальным данным
- •Метод наименьших квадратов для решения задачи аппроксимации функции по экспериментальным данным
- •Биологические предпосылки и общая схема мгуа для решения задачи аппроксимации функции по экспериментальным данным
- •Формирование обучающей и проверочной последовательностей
- •Критерии селекции
- •Критерий остановки для мгуа
-
Формирование обучающей и проверочной последовательностей
Как было упомянуто ранее исходную выборку следует разбивать на две подвыборки A и B. Подвыборка A используется для определения коэффициентов модели (обучающая последовательность), а подвыборка B — для определения качества (проверочная последовательность). При этом соотношение количества данных в обеих выборках может быть как 50/50, так и 60/40.
Рассмотрим задачу отыскания правила разбиения всего множества имеющихся изображений (исходного множества) на два подмножества (обучающую и проверочную последовательности) в зависимости от свойств исходного множества.
Пусть
—
основное выборочное пространство
объектов, причем каждому объекту из
соответствует
одно из вполне определенных изображений
.
Предположим, что
некоторая
перестановка
изображений
из
(n<N).
Будем
говорить о подмножестве
как о v-й
выборке объема
из
конечной совокупности
.
Каждая
составляющая этой совокупности может
быть многомерным вектором в пространстве
признаков. Предполагается, что
распределение совокупности остается
неизменным в течение всего наблюдения.
Для
того чтобы определить статистические
свойства конечной совокупности
по
выборке
объема
,
нужно найти такое
,
чтобы результаты статистической
обработки любой выборки объема
хорошо
согласовались с результатами обработки
всей совокупности. Кроме того, нужно,
чтобы оставшееся подмножество из (
)
элементов
достаточно хорошо характеризовало
конечную совокупность
.
(*)
Предположим,
что задача состоит в оценке каких-либо
параметров. Допустим, что оценивается
некоторый параметр
по выборке объема
,
например какой-либо коэффициент
уравнения. Обозначим через
оценку параметра
по v-й
выборке объема
.
Тогда
согласно неравенству Чебышева имеем
,
(V.7)
где
— математическое ожидание оценок
;
— дисперсия оценок
.
Очевидно,
что
является функцией по крайней мере двух
переменных:
и
.
При
эта
функция обращается в нуль, а по мере
возрастания разности
также
возрастает. Обозначим ее следующим
образом:
.
В
неравенстве (V.7)
величина
определяет
порог, который с вероятностью, не большей,
чем
, не будет превышен отклонением оценки
параметра от его среднего значения,
определенного по всем возможным выборкам
объемом
.
Назовем
этот порог порогом
достоверности выборки
объемом
.
Для
того чтобы оценки, полученные по обучающей
и проверочной последовательностям,
были одинаково точны, необходимо и
достаточно, чтобы пороги достоверности
этих выборок были равны, т. е. ,
(V.8)
где
и
характеризуют
требования, предъявляемые к обучению
и проверке соответственно.
При
выполнении условия (V.8)
пороги достоверности одинаковы и для
обучения и для проверки, но вероятности
их превышения различны и зависят от
выбора
и
.
В любом случае нужно так выбрать
,
чтобы
удовлетворялось равенство (V.8).
Так, например, при
это равенство справедливо при
для любых функций. Если же
,
то для определения
нужно
знать характер функции
,
что не всегда возможно. Это затрудняет
общее решение задачи. Но в конкретных
случаях, когда вид функции известен,
задача решается полностью. Например,
если оцениваемым параметром является
математическое ожидание, то
где
—
дисперсия, определенная по всей выборке
.
В
этом случае должно выполняться равенство
откуда
.
(V.9)
Задавая
требуемые значения
и
,
можно определить нужный объем обучающей
выборки.
Возникает
вопрос, нельзя ли, основываясь на
статистических свойствах исходного
множества, получить какие-либо рекомендации
по выбору
и
.
Рассмотрим один из возможных подходов
к выбору коэффициентов
и
.
В
задаче обучения распознаванию образов.
Для простоты будем считать, что основная
совокупность состоит из элементов
только двух классов:
и
,
причем
и
—
числа элементов, принадлежащих классам
и
соответственно.
Предлагаемый
подход основан на следующем предположении.
Если при
оценки
математического ожидания достаточно
точны, то требования к обучению могут
быть несколько снижены, а требования к
проверке ставятся в прямую зависимость
от степени пересечения подмножеств.
Если же подмножества таковы, что оценки
их математических ожиданий при
сильно
отличаются от действительных значений,
а пересечение этих подмножеств
незначительно, то для удовлетворительной
классификации следует увеличить точность
оценок увеличением объема обучающей
последовательности. При этом приходится
жертвовать точностью проверки в надежде
на то, что при правильной оценке параметров
классификация будет удовлетворительной.
Если же пересечение подмножеств велико,
то никаким повышением точности оценок
нельзя избежать ошибочной классификации.
Следовательно, в этом случае целесообразно
повысить требования к проверке в ущерб
обучению путем увеличения объема
проверочной последовательности.
Опираясь
на это предположение, ориентировочный
выбор коэффициентов
и
для
каждого класса в отдельности целесообразно
осуществлять согласно формуле
,
(V.10)
где
— номер класса (
);
—
число изображений класса
в
совокупности
;
—
дисперсия класса
,
определенная по совокупности
;
выбирается из соотношения
(
—
дисперсия
классов
и
соответственно;
—
расстояние между средними значениями
классов). Задавшись определенным
значением
по формуле (V.9),
можно выбрать соответствующее
,
которое будет зависеть от статистических
свойств
.
Если
классов больше двух, то
можно определить для каждой пары классов.
Поскольку каждой паре классов соответствует
свое соотношение (V.10),
то
нужно
выбирать различным для каждой пары, а
из всех
,
относящихся к одному и тому же классу,
нужно
выбирать наибольшее.
Когда уже определены
и
для каждого класса, нетрудно по формуле
(V.9)
определить соответствующие числа
.
Обучающая
последовательность составляется из
элементов, где
—
число классов.