- •Глава II
- •§ 1. Смеси и условия их различимости
- •1. Математическая постановка задачи
- •2. Некоторые свойства классов различимых смесей
- •§ 2. Различимые смеси и оценка параметров
- •§ 3. Смеси и метод максимального правдоподобия
- •1. Общие свойства метода
- •2. Смеси нормальных классов
- •При доказательстве этих теорем используется следующая
2. Смеси нормальных классов
Исследуем теперь задачу оценки параметров смеси, состоящей из известного числа k классов. При этом известно также, что каждый объект Х класса i представляет собой элемент нормальной генеральной совокупности иразличны для разных классов,a совпадают, но неизвестны компоненты ни , ни. Кроме того, неизвестны априорные вероятности классов .
Легко проверить [З], что в этом случае
,
где
и .
Учитывая результаты предыдущего параграфа, нам следует определить процедуру, которая максимизировала бы
для и, или, учитывая замечание 2, определить процедуру, которая максимизировала бы
,
если только каким-либо способом уже получены. Эта процедура даст нам величины для (t + 1)-го шага и по данными. Две последующие теоремы определяют точку максимума дляив итерационной процедуре, приведенной в п. 1 настоящего параграфа.
Для простоты их формулировки будем опускать индекс t, подчеркивающий связь с шагом процедуры. Если последовательность такова, что
то справедливы следующие теоремы.
Теорема 4. Пусть - определенная выше последовательность иp-мерные нормальные плотности, такие, что . Тогда для любых векторов-столбцоввеличиныдостигают максимума при
,
.
Теорема 5. Пусть - определенная выше последовательность иp -мерные нормальные плотности, такие, что , тогда для любых векторов-столбцоввеличинадостигает максимума при
,
и
.
При доказательстве этих теорем используется следующая
Лемма. Пусть -р-мерные векторы-столбцы дляи. Тогда для любогоl
,
где
.
Доказательство этой леммы совершенно аналогично доказательству леммы 3.2.1 из работы [1].
Далее, используя рассуждения, аналогичные тем, которые приведены в работе [1], получим, что
,
где , а .
Результат леммы 3.2.2 из [1] завершает доказательство теоремы 5. Теорема 4 доказывается аналогично.
Таким образом, показано, что при заданных
,
где
и ,
величины
и
максимизируют .
Далее легко получить, что
и
.
Если существуют пределы
, ,
,
,
то точка является точкой максимума функции правдоподобия, возможно, правда, что этот максимум является локальным.
Легко видеть, что в качестве начальных данных можно задать не точку , а набор величин ,, с помощью которых можно получить и т. д. Именно такая итерационная процедура предлагается в работе [З].
Замечание. Точки, для которых являются неподвижными точками итерационной процедуры, но представляют собой посторонние точки, так как в этом случае .
В случае двух классов (k = 2), как показано в работе [З], процедура сильно упрощается. Для произвольных , имеем
,
,
,
.
Далее определяются уточнения иследующим образом:
,
,
где
,
.
Подставляя ивместои, можно итерационную процедуру продолжить до тех пор, пока значенияине перестанут изменяться. Далее, после того как значенияиустановятся, можно определить оценку ковариационной матрицы
.
Естественно точку отнести к классу 1, если. Это означает, что. Отсюда следует, что, будет отнесена к классу 1, если, или к классу 2, если. Следовательно,будет оценкой, разделяющей поверхности классов 1 и 2, аи- оценками параметров разделяющей поверхности (см. § 2 главы I).
Основные трудности этого метода классификации состоят в том, что скорость сходимости итерационного процесса зависит от расстояния Махаланобиса между классами и от начальных значений. Более того, может быть несколько локальных максимумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо говоря, итеративный процесс сходится к абсолютному максимуму,(приk = 2), из точек ,, если угол междуименее 45°. Это ясно показывает возрастание трудностей при росте размерности. Если точкавыбрана случайно, то вероятность выполнения этого условия приp = 5 равна 0,076, при р = 10 - 0,01, при р = 15 - 0,001, при р = 20 - 0,0002 [З]. Поэтому при больших размерностях наблюдений () требуется эту размерность снизить (например, методом главных компонент; см. ниже, главу IV).
Пример неограниченной функции правдоподобия. Рассмотрим простейший случай, когда число классов k = 2 и наблюдаемые величины являются одномерными (р = 1). Плотность распределения
где являются неизвестными параметрами.
В этом случае функция правдоподобия
.
Рассмотрим поведение как функции от . Если , то является ограниченной функцией, так как
для любых и. Если жеи, то стремится к бесконечности как при. Однако, учитывая конечность предела при
,
получаем, что при и, функция стремится к бесконечности как для любогои любыхи, чего не происходит при, так как при
.
Таким образом, любой набор , иобращает в бесконечность функцию правдоподобия.
Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рассмотреть случай, когда компоненты наблюдений какого-либо классаi линейно зависимы, т. е. при.
Пример показывает, что возможны ситуации, когда не выполняется условия теоремы 2 (п. 1 § 3) - условия сходимости итерационной процедуры для получения оценок максимального правдоподобия.
1В работе [2] не указано условие ограниченности , которое необходимо для доказательства теоремы 2.