- •Глава II
- •§ 1. Смеси и условия их различимости
- •1. Математическая постановка задачи
- •2. Некоторые свойства классов различимых смесей
- •§ 2. Различимые смеси и оценка параметров
- •§ 3. Смеси и метод максимального правдоподобия
- •1. Общие свойства метода
- •2. Смеси нормальных классов
- •При доказательстве этих теорем используется следующая
§ 3. Смеси и метод максимального правдоподобия
1. Общие свойства метода
Рассмотрим задачу классификации наблюдений, когда известны виды плотностей, каждая из которых определяет однородную генеральную совокупность - класс. Параметры совокупности неизвестны, наблюдаемые р-мерные точки независимы и получены из смесиk классов. Априорные вероятности появления точки из класса с номеромi (i = 1, 2, ..., k) неизвестны. Таким образом, наблюдения можно рассматривать как выборку из генеральной совокупности с плотностью распределения
,
где - плотность распределения вероятностей в 1-м классе, который определяется векторным параметром .
В предположении, что смесь - различима, можно ставить задачу о классификации членов последовательности нa k классов. Задача классификации была бы решена, если бы удалось оценить неизвестные ипо результатам наблюдений. Подход, использующий метод максимального правдоподобия для оценивания параметрови, рассмотрен в работах [2], [З], [4].
Обозначим набор всех неизвестных параметров через . Таким образом, если всеразличны, то
.
Если неизвестные параметры каждого класса распадаются на два множестваи, таких, чтоменяются при переходе от класса к классу,a одинаковы для всех классов, то
.
Аналогично можно поступить, если известно, что и т. д.
В принятых обозначениях логарифмическая функция правдоподобия имеет вид
.
Требуется определить такую точку , для которой
,
где - множество допустимых значений параметров. Обозначим черезвероятность наблюдать классi при получении точки , тогда в соответствии с правилом вычисления условных, в данном случае так называемых апостериорных вероятностей
.
Введем вспомогательные величины , такие, чтодля любогоj. В этом случае выражение для можно представить в виде
и использовать итерационную процедуру для определения точки , в которой достигается максимум .
Итерационная процедура состоит в следующем.
Пусть на шаге t процедуры получено значение , при t = 0 - начальные данные.
Положив
,
следует определить такие величины и, для которых выражения
и величина достигают максимума. Легко обнаружить, что максимум величиныпо, при условиидостигается в точке
,
поэтому
.
Определить максимум выражения
по , гораздо проще, чем определить максимум выражения для
по .
Далее (см. п. 2 § 3 главы II) будут приведены выражения для которые максимизируют
при заданных для частного случая, когда - плотности нормального распределения.
Зная теперь и, можно продолжить итерационную процедуру с
.
Прежде чем излагать основные результаты об итерационной процедуре, приведем несколько замечаний и обратим внимание читателя на то, что вспомогательные величины имеют смысл апостериорных вероятностей, а именно
.
Замечание 1. Полезно знать поведение
при возрастании числа итераций t, чтобы в случае сходимости быть уверенным в сходимости к максимуму.
Замечание 2. Если , то полезно знать процедуру, которая давала бы максимум величине
по всем и .
Замечание 3. Для целей классификации следует знать поведение с ростом t, так как в случае сходимости к величине имеется возможность классифицировать наблюдение . Для этого можно использовать правило классификации, состоящее в том, что наблюдениеотносится к классу, если
.
В работе [2] доказана
Теорема 1. Если и.значениянаt-м и (t + 1)-м шагах приведенной ранее итерационной процедуры и , тогда
.
Можно доказать1, что справедлива
Теорема 2. Если для и и величины, полученные на t-м и (t + 1)-м шагах итерационной процедуры, то
.
Рассмотрим подмножество множества, состоящее из таких точек, которые не изменяются за один шаг итерационной процедуры. Это множество естественно назвать множеством неподвижных точек.
Можно доказать [2], что справедлива
Теорема 3. Если множество неподвижных точек состоит из изолированных точек
.
то при числе итераций сходится к одной из точеки эта точка является решением системы уравнений
Система уравнений, записанная в теореме 3, является хорошо известной системой уравнений правдоподобия, которая может быть для , как указано в [4], представлена в виде
,
,
.
Множество решений уравнений правдоподобия шире, чем множество неподвижных точек итерационной процедуры, так как кроме точек максимумов множество содержит множество точек минимумов функции правдоподобия, некоторые точки перегиба и т. д. Поэтому естественнее находить процедуры определения максимума , а не процедуры решения уравнений правдоподобия.