Скачиваний:
60
Добавлен:
01.05.2014
Размер:
672.77 Кб
Скачать

§ 3. Смеси и метод максимального правдоподобия

1. Общие свойства метода

Рассмотрим задачу классификации наблюдений, когда известны виды плотностей, каждая из которых определяет однородную генеральную совокупность - класс. Параметры совокупности неизвестны, наблюдаемые р-мерные точки независимы и получены из смесиk классов. Априорные вероятности появления точки из класса с номеромi (i = 1, 2, ..., k) неизвестны. Таким образом, наблюдения можно рассматривать как выборку из генеральной совокупности с плотностью распределения

,

где - плотность распределения вероятностей в 1-м классе, который определяется векторным параметром .

В предположении, что смесь - различима, можно ставить задачу о классификации членов последовательности нa k классов. Задача классификации была бы решена, если бы удалось оценить неизвестные ипо результатам наблюдений. Подход, использующий метод максимального правдоподобия для оценивания параметрови, рассмотрен в работах [2], [З], [4].

Обозначим набор всех неизвестных параметров через . Таким образом, если всеразличны, то

.

Если неизвестные параметры каждого класса распадаются на два множестваи, таких, чтоменяются при переходе от класса к классу,a одинаковы для всех классов, то

.

Аналогично можно поступить, если известно, что и т. д.

В принятых обозначениях логарифмическая функция правдоподобия имеет вид

.

Требуется определить такую точку , для которой

,

где - множество допустимых значений параметров. Обозначим черезвероятность наблюдать классi при получении точки , тогда в соответствии с правилом вычисления условных, в данном случае так называемых апостериорных вероятностей

.

Введем вспомогательные величины , такие, чтодля любогоj. В этом случае выражение для можно представить в виде

и использовать итерационную процедуру для определения точки , в которой достигается максимум .

Итерационная процедура состоит в следующем.

Пусть на шаге t процедуры получено значение , при t = 0 - начальные данные.

Положив

,

следует определить такие величины и, для которых выражения

и величина достигают максимума. Легко обнаружить, что максимум величиныпо, при условиидостигается в точке

,

поэтому

.

Определить максимум выражения

по , гораздо проще, чем определить максимум выражения для

по .

Далее (см. п. 2 § 3 главы II) будут приведены выражения для которые максимизируют

при заданных для частного случая, когда - плотности нормального распределения.

Зная теперь и, можно продолжить итерационную процедуру с

.

Прежде чем излагать основные результаты об итерационной процедуре, приведем несколько замечаний и обратим внимание читателя на то, что вспомогательные величины имеют смысл апостериорных вероятностей, а именно

.

Замечание 1. Полезно знать поведение

при возрастании числа итераций t, чтобы в случае сходимости быть уверенным в сходимости к максимуму.

Замечание 2. Если , то полезно знать процедуру, которая давала бы максимум величине

по всем и .

Замечание 3. Для целей классификации следует знать поведение с ростом t, так как в случае сходимости к величине имеется возможность классифицировать наблюдение . Для этого можно использовать правило классификации, состоящее в том, что наблюдениеотносится к классу, если

.

В работе [2] доказана

Теорема 1. Если и.значениянаt-м и (t + 1)-м шагах приведенной ранее итерационной процедуры и , тогда

.

Можно доказать1, что справедлива

Теорема 2. Если для и и величины, полученные на t-м и (t + 1)-м шагах итерационной процедуры, то

.

Рассмотрим подмножество множества, состоящее из таких точек, которые не изменяются за один шаг итерационной процедуры. Это множество естественно назвать множеством неподвижных точек.

Можно доказать [2], что справедлива

Теорема 3. Если множество неподвижных точек состоит из изолированных точек

.

то при числе итераций сходится к одной из точеки эта точка является решением системы уравнений

Система уравнений, записанная в теореме 3, является хорошо известной системой уравнений правдоподобия, которая может быть для , как указано в [4], представлена в виде

,

,

.

Множество решений уравнений правдоподобия шире, чем множество неподвижных точек итерационной процедуры, так как кроме точек максимумов множество содержит множество точек минимумов функции правдоподобия, некоторые точки перегиба и т. д. Поэтому естественнее находить процедуры определения максимума , а не процедуры решения уравнений правдоподобия.

Соседние файлы в папке glava1_2