- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.6. Описание данных и группировка
Вернемся к нашей первоначальной задаче — обучению на множестве непомеченных выборок. С геометрической точки зрения эти выборки образуют облака точек в d-мерном пространстве. Предположим, что эти точки порождаются одномерным нормальным распределением. Тогда все, что мы можем узнать из этих данных, содержится в достаточных статистиках — в средней выборке и в матрице ковариаций выборок. В сущности, эти статистики составляют компактное описание данных. Средняя выборок обозначает центр тяжести облака. Его можно рассматривать как единственную точку х, которая лучше всего представляет все данные с точки зрения минимизации суммы квадратов расстояний от х до выборок. Матрица ковариаций выборок говорит о том, насколько хорошо средняя выборок описывает данные с точки зрения разброса данных в разных направлениях. Если точки действительно нормально распределены, то облако имеет простую гиперэллипсоидную форму, и средняя выборок обычно находится в области наибольшего сгущения точек.
Конечно, если данные не распределены нормально, эти статистики могут дать сильно искаженное описание данных. На рис. 6.7 показаны четыре различных множества данных, у которых одинаковые средние и матрицы ковариаций. Очевидно, статистики второго порядка не в состоянии отобразить структуру произвольного множества данных.
Предположив, что выборки отобраны из смеси с нормальных распределений, мы можем аппроксимировать большее разнообразие ситуаций. В сущности, это соответствует представлению, что выборки образуют гиперэллипсоидные облака различных размеров и ориентации. Если число компонентных плотностей не ограничено, таким образом можно аппроксимировать практически любую функцию плотности и использовать параметры смеси для описания данных. К сожалению, мы видели, что задача определения параметров смеси не является тривиальной. Более того, в ситуациях, где a priori относительно мало известно о природе данных, предположение об особых параметрических формах может привести к плохим или бессмысленным результатам. Вместо нахождения структуры данных, мы бы навязали им свою структуру.
В качестве альтернативы можно использовать один из непараметрических методов, описанных в гл. 4, для оценки плотности неизвестной смеси. Если говорить точно, результирующая оценка в сущности является полным описанием того, что можно узнать из данных. Области большой локальной плотности, которые могут соответствовать существенным подклассам популяции, можно определить по максимумам оцененной плотности.
Если цель состоит в нахождении подклассов, более целесообразны процедуры группировки (кластерного анализа). Грубо говоря, процедуры группировки дают описание данных в терминах кластеров, или групп точек данных, обладающих сильно схожими внутренними свойствами. Более формальные процедуры используют функции критериев, такие, как сумма квадратов расстояний от центров кластеров, и ищут группировку, которая приводит к экстремуму функции критерия.
Рис. 6.7.Множества данных, имеющие одинаковые статистики второго порядка.
Поскольку даже это может привести к не разрешимым вычислительным проблемам, были предложены другие процедуры, интуитивно многообещающие, но приводящие к решениям, не имеющим установленных свойств. Использование этих процедур обычно оправдывается простотой их применения и часто дает интересные результаты, которые могут помочь в применении более строгих процедур.