- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.5.3. Пример
Рассмотрим одномерную двухкомпонентную смесь ср(x|1)~N(,1), р(x|2,) ~ N(,1) где , P(1), P(2) известны. Здесь
Рассматриваемая как функция от х, эта плотность смеси представляет собой суперпозицию двух нормальных плотностей, причем одна имеет пик при x=, а другая при x=. Рассматриваемая как функция от , плотность р(x|) имеет один пик при =x. Предположим, что априорная плотность р() равномерна в интервале от а до b. Тогда после одного наблюдения
где и ' — нормирующие константы, независимые от . Если выборка x1 находится в пределах ах1b, то р(|x1) имеет пик при =x1.В противном случае она имеет пики либо при =a, если х1<a, либо при =b, если х1>b. Отметим, что прибавляемая константа ехр[—(l/2)(x1—)2] велика, если х1 близок к . Это соответствует тому факту, что если х1 близок к , то более вероятно, что он принадлежит компоненте р(x|1), и, следовательно, его влияние на нашу оценку для уменьшается.
С добавлением второй выборки х2плотность р(|x1) обращается в
Рис. 6.5.Байесовское обучение без учителя
Рис. 6.6.Эффект сужения априорной плотности
К сожалению, первое, что мы узнаем из этого выражения, — это то, что р(θ|Xn) усложняется уже при n=2. Четыре члена суммы соответствуют четырем способам, которыми можно извлекать выборки из двухкомпонентных популяций. При п выборках будет 2n членов, и нельзя найти простых достаточных статистик, чтобы облегчить понимание или упростить вычисления.
Возможно использование соотношения
и численного интегрирования для того, чтобы получить приближенное числовое решение р(θ|Xn). Это было сделано для данных табл. 6.1 при значениях =2, P(1)=l/3 и Р(1)=2/3. Априорная плотность р (), равномерная на интервале от -4 до 4, включает данные этой таблицы. Эти данные были использованы для рекуррентного вычисления р(θ|Xn). Полученные результаты представлены на рис. 6.5. Когда п стремится к бесконечности, мы с уверенностью можем ожидать, что р(θ|Xn) будет стремиться к всплеску в точке =2. График дает некоторое представление о скорости сходимости.
Одно из основных различий между байесовским и подходом по максимуму правдоподобия при обучении без учителя связано с априорной плотностью p(). Рис. 6.6 показывает, как изменяется р(θ|Xn), когда предполагается, что р () равномерна на интервале от 1 до 3, в зависимости от более четкого начального знания о . Результаты этого изменения больше всего проявляются, когда п мало. Именно здесь различия между байесовским подходом и подходом по максимуму правдоподобия наиболее значительны. При увеличении п важность априорного знания уменьшается, и в этом частном случае кривые для n=25 практически идентичны. В общем случае можно ожидать, что различие будет мало, когда число непомеченных выборок в несколько раз больше эффективного числа помеченных выборок, используемых для определения p().
6.5.4. Аппроксимация на основе принятия направленных решений
Хотя задачу обучения без учителя можно поставить просто как задачу определения параметров плотности смеси, ни метод максимума правдоподобия, ни байесовский подход не дают простых аналитических результатов. Точные решения даже простейших нетривиальных примеров ведут к необходимости применения численных методов; объем вычислений при этом растет экспоненциально в зависимости от числа выборок. Задача обучения без учителя слишком важна, чтобы отбросить ее только из-за того, что точные решения слишком трудно найти, и поэтому были предложены многочисленные процедуры получения приближенных решений.
Так как основное различие между обучением с учителем и без учителя состоит в наличии или отсутствии меток для выборок, очевидным подходом к обучению без учителя является использование априорной информации для построения классификатора и использования решений этого классификатора для пометки выборок. Такой подход называется подходом принятия направленных решений при обучении без учителя и составляет основу для различных вариаций. Его можно применять последовательно путем обновления классификатора каждый раз, когда классифицируется непомеченная выборка. С другой стороны, его можно применить при параллельной классификации, то есть подождать, пока все п выборок будут классифицированы, и затем обновить классификатор. При желании процесс можно повторять до тех пор, пока не будет больше изменений при пометке выборок3. Можно ввести различные эвристические процедуры, обеспечивающие зависимость любых коррекций от достоверности решения классификатора.
С подходом принятия направленных решений связаны некоторые очевидные опасности. Если начальный классификатор не достаточно хорош или если встретилась неудачная последовательность выборок, ошибки классификации непомеченных выборок могут привести к неправильному построению классификатора, что в свою очередь приведет к решению, очень приблизительно соответствующему одному из меньших максимумов функции правдоподобия. Даже если начальный классификатор оптимален, результат пометки не будет соответствовать истинной принадлежности классам; классификация исключит выборки из хвостов желаемого распределение и включит выборки из хвостов других распределений. Таким образом, если имеется существенное перекрытие между плотностями компонент, можно ожидать смещения оценок и неоптимальных результатов.
Несмотря на эти недостатки, простота процедур направленных решений делает байесовский подход доступным для численных методов, а решение с изъянами чаще лучше, чем отсутствие решения. При благоприятных условиях можно получить почти оптимальный результат при небольших вычислительных затратах. В литературе имеется несколько довольно сложных методов анализа специальных процедур направленных решений и сообщения о результатах экспериментов. Основной вывод состоит в том, что большинство эти процедур работает хорошо, если параметрические предположения правильны, если перекрытие между плотностями компонент невелико и если начальный классификатор составлен хотя бы приблизительно правильно.