Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия

§ I. Общая постановка задачи. Основные понятия и определения

В этой части работы рассматривается следующая задача.

Совокупность исследуемых объектов, каждый из которых задан многомерным наблюдением, т. е. набором из р замеренных на нем признаков X, требуется разбить на однородные в некотором смысле группы. Так же, как и в главе II, мы не располагаем здесь обучаю­щими выборками. Более того, в отличие от главы II в данном случае практически отсутствует и априорная информация о характере рас­пределения измерений X внутри классов (если не считать самых общих предположений, относящихся либо к компактности или ограничен­ности диапазона изменений компонент вектора X, либо к свойствам непрерывности и гладкости соответствующих законов распределе­ния). Полученные в результате разбиения группы обычно называются кластерами (таксонами, образами)1, методы их нахождения — кластер-анализом (соответственно численной таксономией или распоз­наванием образов с самообучением).

При этом исследователь с самого начала должен четко представ­лять, какую из двух задач классификации он решает. Решает ли он обычную задачу типизации, при которой исследуемую совокупность элементов (наблюдений) следует разбить на сравнительно небольшое число областей группирования (аналоги интервалов группирования при обработке одномерных наблюдений) так, чтобы элементы одной такой области лежали друг от друга по возможности на небольшом расстоянии. Либо он пытается определить естественное расслоение исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части.

Заметим сразу, что если первая задача, задача типизации, всегда имеет решение, то при второй постановке результат может быть отри­цательным: может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры, например, образует один кластер.

В некоторых случаях исследуемые наблюдения Х1 .... Хn нам бу­дет удобно интерпретировать в качестве выборки из р-мерной гене­ральной совокупности, определяемой,' как правило, неизвестной нам вероятностной мерой Р, задание которой, как известно (см. § 1 главы I), равносильно заданию определенного правила однозначного сопостав­ления каждой, представляющей практический интерес подобласти ΔS из исследуемого факторного пространства X некоторого неотри­цательного, действительного, не превосходящего единицы числа Р(ΔS), являющегося

мерой достоверности события {X є ΔS}, т. е. события, заключающегося в том, что случайно извлеченное из гене­ральной совокупности наблюдение окажется принадлежащим именно заданной подобласти ΔS1. Тогда задача классификации заключается в разбиении факторного пространства X на какое-то число непересе­кающихся областей. Для упрощения дальнейших обозначений будем называть такую схему вероятностной модификацией задачи кластер-анализа. Заметим, что эта модификация используется, как правило, лишь при исследовании свойств различных процедур.

Необходимость разбиений совокупности объектов на однородные группы часто возникает как в социально-экономических исследова­ниях (см. «Введение» и главу V настоящей работы, а также [251, [24], [26], [75], [18]), так и в научно-технических, приводимых в биоло­гии [8], [621, [71], палеонтологии, геологии и географии [И], [461, медицине [44], почвоведении [65], документалистике [601, [611, метеоро­логии 129].

Соседние файлы в папке glava3