- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.4.3. Случай 2. Все параметры неизвестны
Если i, i Р(i) неизвестны и на матрицу ковариаций ограничения не наложены, то принцип максимума правдоподобия дает бесполезные вырожденные решения. Пусть p(x|, 2) — двухкомпонентная нормальная плотность смеси
Функция правдоподобия дляп выборок, полученная согласно этому вероятностному закону, есть просто произведение п плотностей p(xk|,2). Предположим, что =x1, так что
Ясно, что для остальных выборок
так что
Таким образом, устремляя к нулю, мы можем получить произвольно большое правдоподобие, и решение по максимуму правдоподобия будет вырожденным.
Обычно вырожденное решение не представляет интереса, и мы вынуждены заключить, что принцип максимума правдоподобия не работает для этого класса нормальных смесей. Однако эмпирически установлено, что имеющие смысл решения можно все-таки получить, если мы сосредоточим наше внимание на наибольшем из конечных локальных максимумов функции правдоподобия. Предполагая, что функция правдоподобия хорошо себя ведет на таких максимумах, мы можем использовать соотношения (9)—(11), чтобы получить оценки для i, i и Р(i). Когда мы включаем элементы матрицы i, в элементы вектора параметров i, мы должны помнить, что только половина элементов, находящихся вне диагонали, независимы. Кроме этого, оказывается намного удобней считать неизвестными параметрами независимые элементы матрицы -1i, а не матрицы i. После этого дифференцирование
по элементам i, и -1i не представляет труда. Пусть xp(k)—p-й. элемент xk, p(i) p-й элемент i, pq(i)-pq-й элемент i и pq(i) — pq-й элемент -1i. Тогда
гдеpq— символ Кронекера. Подставляя эти результаты в (10) и проделав некоторые алгебраические преобразования, мы получим следующие выражения для оценок `i,`i,Р`(i) по локальному максимуму правдоподобия:
где
Хотя обозначения внешне весьма усложняют эти уравнения, их интерпретация относительно проста. В экстремальном случае при (i|xk,), равном единице, если xk принадлежит классу i, и равном нулю в противном случае, оценка (i) есть доля выборок из i, оценка i— среднее этих выборок и i— соответствующая матрица ковариаций выборок. В более общем случае, когда (i|xk,) находится между нулем и единицей, все выборки играют некоторую роль в оценках. Однако и тогда оценки в основном — это отношения частот, средние выборок и матрицы ковариаций выборок.
Проблемы, связанные с решением этих неявных уравнений, сходны с проблемами, рассмотренными в п. 6.4.1. Дополнительная сложность состоит в необходимости избегать вырожденных решений. Из различных способов, которые можно применить для получения решения, самый простой состоит в том, чтобы, используя начальные оценки в (17), получить (i|xk,) и затем, используя соотношения (14)—(16), обновить эти оценки. Если начальные оценки очень хорошие, полученные, возможно, из достаточно большого множества помеченных выборок, сходимость будет очень быстрой. Однако результат зависит от начальной точки, и всегда остается проблема неединственности решения. Более того, повторные вычисления и обращение матриц ковариаций может потребовать много времени.
Значительного упрощения можно достичь, если предположить, что матрицы ковариаций диагональны. Это дает возможность уменьшить число неизвестных параметров, что очень важно, когда число выборок невелико. Если это предположение слишком сильно, то еще возможно получить некоторое упрощение, предполагая, что с матриц ковариаций равны, что тоже снимает проблему вырожденных ешений. Вывод соответствующих уравнений для оценки по максимуму правдоподобия для этого случая рассматривается в задачах 5 и 6.