- •Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия
- •§ I. Общая постановка задачи. Основные понятия и определения
- •1. Расстояния между отдельными объектами и меры близости объектов
- •2. Расстояние между классами и мера близости классов
- •3. Порог
- •4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров
- •5. Эталонные точки
- •§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур
- •§ 3. Описание кластер-процедур и их основных свойств
- •1. Иерархические процедуры
- •2. Параллельные кластер-процедуры
- •3. Исследование иерархических и параллельных процедур «на допустимость»
- •4. Последовательные кластер-процедуры
- •5. Последовательные кластер-процедуры и метод стохастической аппроксимации
Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия
§ I. Общая постановка задачи. Основные понятия и определения
В этой части работы рассматривается следующая задача.
Совокупность исследуемых объектов, каждый из которых задан многомерным наблюдением, т. е. набором из р замеренных на нем признаков X, требуется разбить на однородные в некотором смысле группы. Так же, как и в главе II, мы не располагаем здесь обучающими выборками. Более того, в отличие от главы II в данном случае практически отсутствует и априорная информация о характере распределения измерений X внутри классов (если не считать самых общих предположений, относящихся либо к компактности или ограниченности диапазона изменений компонент вектора X, либо к свойствам непрерывности и гладкости соответствующих законов распределения). Полученные в результате разбиения группы обычно называются кластерами (таксонами, образами)1, методы их нахождения — кластер-анализом (соответственно численной таксономией или распознаванием образов с самообучением).
При этом исследователь с самого начала должен четко представлять, какую из двух задач классификации он решает. Решает ли он обычную задачу типизации, при которой исследуемую совокупность элементов (наблюдений) следует разбить на сравнительно небольшое число областей группирования (аналоги интервалов группирования при обработке одномерных наблюдений) так, чтобы элементы одной такой области лежали друг от друга по возможности на небольшом расстоянии. Либо он пытается определить естественное расслоение исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части.
Заметим сразу, что если первая задача, задача типизации, всегда имеет решение, то при второй постановке результат может быть отрицательным: может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры, например, образует один кластер.
В некоторых случаях исследуемые наблюдения Х1 .... Хn нам будет удобно интерпретировать в качестве выборки из р-мерной генеральной совокупности, определяемой,' как правило, неизвестной нам вероятностной мерой Р, задание которой, как известно (см. § 1 главы I), равносильно заданию определенного правила однозначного сопоставления каждой, представляющей практический интерес подобласти ΔS из исследуемого факторного пространства X некоторого неотрицательного, действительного, не превосходящего единицы числа Р(ΔS), являющегося
мерой достоверности события {X є ΔS}, т. е. события, заключающегося в том, что случайно извлеченное из генеральной совокупности наблюдение окажется принадлежащим именно заданной подобласти ΔS1. Тогда задача классификации заключается в разбиении факторного пространства X на какое-то число непересекающихся областей. Для упрощения дальнейших обозначений будем называть такую схему вероятностной модификацией задачи кластер-анализа. Заметим, что эта модификация используется, как правило, лишь при исследовании свойств различных процедур.
Необходимость разбиений совокупности объектов на однородные группы часто возникает как в социально-экономических исследованиях (см. «Введение» и главу V настоящей работы, а также [251, [24], [26], [75], [18]), так и в научно-технических, приводимых в биологии [8], [621, [71], палеонтологии, геологии и географии [И], [461, медицине [44], почвоведении [65], документалистике [601, [611, метеорологии 129].