- •Лекция № 10
- •Единиц в системе гис
- •2. Предварительная обработка данных.
- •3. Методы классификации, основанные на описании классов ядрами.
- •4. Параметрические методы классификации, основанные на модели смеси распределений.
- •5. Иерархические методы классификации.
- •6. Методы районирования.
- •Контрольные вопросы
4. Параметрические методы классификации, основанные на модели смеси распределений.
Модель смеси распределений в наиболее простом случае конечного числа классов М и однотипности компонент записывается в виде
где /о(х) - плотность генеральной совокупности; М — число компонент смеси; р{ - вероятность появления г-й компоненты смеси; f(x, &j) - плотность ;-й
16
компоненты смеси; S, - вектор параметров для z-й компоненты смеси (например, для одномерного нормального распределения S,- = (tur, с,)).
Модель смеси распределений применительно к задачам классификации подразумевает, что z-й класс полностью характеризуется г-й компонентой смеси и вероятностью ее появления. Задача классификации ОТЕ состоит в определении, в рамках какого из классов появление данной ОТЕ наиболее вероятно.
Самым сложным этапом при классификации на основе модели смеси распределений является процедура идентификации смеси, т. е. алгоритм получения числа классов М и оценок для р{ и 9, которые необходимы для построения решающего правила. Не все смеси идентифицируемы, т.е. не для всех типов распределений можно найти единственные оценки М, pt и Ы. Например, смесь нормальных распределений идентифицируема, а смесь равномерных нет.
Существуют различные подходы к оцениванию по множеству ОТЕ параметров смеси, наиболее распространенным из которых является ЕМ-алгоритм.
Название ЕМ-алгоритм происходит от сокращений английских терминов Estimation (оценивание) и Maximization (максимизация).
Этот метод для фиксированного числа классов (элементов смеси) К позволяет определять оценки параметров смеси/?, и Qi, ie {],...,К) путем многократного нахождения очередных приближений к оценкам (шаг Estimation) и максимизации с учетом приближений функции правдоподобия (шаг Maximization).
5. Иерархические методы классификации.
Иерархические методы классификации нацелены либо на последовательное объединение ОТЕ в заранее заданное или незаданное меньшее количество классов, либо, наоборот, на расчленение одного или нескольких классов до нужной степени детализации. Процедуры первого типа носят название иерархических агломеративных алгоритмов классификации, второго - иерархических дивизимных алгоритмов классификации.
Исходной информацией для проведения иерархической классификации обычно служит матрица близостей вида ОТЕ-ОТЕ. Исключением является, на-
1 /
пример, дивизимный алгоритм на основе метода 2-средних (т. е. метода к-средних при к —2).
Преимуществами иерархических алгоритмов являются возможности их применения без наличия априорной информации о свойствах классов (например, ядер классов или обучающих выборок), модификации для целей географического районирования, применения при неизвестном числе классов и наглядной визуализации хода и результатов классификации на специальном графике, который называется дендрограммой:
На оси х этого графика изображаются ОТЕ (в том порядке, в котором они объединялись или разъединялись), по оси у - либо шаг алгоритма, либо расстояние между вновь объединяемыми или разделяемыми классами. Два объединяемых или разъединяемых класса соединяются П-образной линией. Ее нижние концы упираются в середины двух классов, а длины вертикальных отрезком равны расстоянию между классами.
К недостаткам иерархических процедур следует отнести большую вычислительную стоимость их реализации. Данный недостаток частично компенсируется существованием так называемых «быстрых» (или «пороговых») иерархических алгоритмов.
Агломеративные алгоритмы. Классический агломеративныи алгоритм иерархической классификации начинает свою работу с формирования А"/ - N классов (при этом каждая ОТЕ на нулевом шаге представляет отдельный класс) и проводит в общем случае 1= N -1 итерацию. На каждом шаге алгоритма происходит объединение двух «ближайших» классов в один, т.е. Кп-1 = Кп./. Последний (N-l)-u шаг алгоритма характеризуется объединением двух сформиро-
18
ванных на предыдущих этапах классов в один класс, включающий в себя все имеющиеся (поступившие на вход анализа) ОТЕ. Выбор расстояния настолько влияет на результат классификации, что зачастую оно вносится в название алгоритма (например, «агломеративный алгоритм средней связи»).
Если число классов К, которое нужно получить, известно заранее, достаточно провести / = N- К итераций, в результате которых и будет сформировано ровно К классов. Если количество классов заранее неизвестно, то анализируются либо значения функционала качества разбиения для К е {2,..., Ктах), либо применяются другие методы (см., например, метод анализа сложности группи-ровочного дерева в работе В. И. Блануца, 1993. - С. 94). Информацию о количестве классов может дать и визуальный анализ денд рограммы.
Необходимо отметить существование так называемых «быстрых» агломе-ративных алгоритмов. Они основаны на использовании некоторой заранее задаваемой или настраиваемой в процессе классификации последовательности пороговых значений с/,..., С\ (при этом вполне возможно, что С/ = с = const Vn e
На очередной итерации алгоритма п е {1,..., 1} объединяются те классы, расстояния между которыми не превышают заданного порога с,. Таким образом, на каждом шаге не требуется искать минимальный элемент в матрице расстояний. При верном выборе пороговых значений такой подход повышает скорость работы алгоритма без потери качества классификации. Детальное описание процедур агломеративных иерархических классификаций можно найти в работе [М. Жамбю, 1989].
Дивизимный алгоритм. Дивизимный алгоритм иерархической классификации начинает свою работу с формирования единственного класса, содержащего все ОТЕ, и проводит в общем случае /= N -1 итерацию. На каждом шаге алгоритма происходит последовательное разделение одного из классов на два таким образом, чтобы качество получаемой классификации было максимальным. Последний шаг работы алгоритма делит единственный оставшийся
19
нерасчлененный класс, состоящий из двух ОТЕ, на два класса (по одной ОТЕ в каждом).
Диеизимный алгоритм на основе расчленения графа близостей. Диви-зимный алгоритм расчленения графа, по аналогии с «быстрым» агломератив-ным алгоритмом, требует задания последовательности пороговых значений С\,..., с/. На каждой итерации алгоритма п е{1,..., 1} происходит исключение из графа ребер с большими значениями, после чего проверяется, на сколько подграфов (компонент связности) распался исходный граф. Каждый подграф представляет собой отдельный класс.