Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Распознавание образов.doc
Скачиваний:
8
Добавлен:
01.05.2025
Размер:
2.78 Mб
Скачать

4.5. Иерархические процедуры

Иерархические (деревообразные) процедуры бывают двух типов: агломеративные и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из n одноэлементных классов, а конечным – из одного класса, в дивизимных наоборот. Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства).

Громоздкость вычислительной реализации является недостатком иерархических процедур.

Рассмотрим пример агломеративного иерархического алгоритма. На первом шаге каждое наблюдение рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятого расстояния, по формуле пересчитывается матрица расстояний. Размерность матрицы, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс. Иерархическую классификацию представляют в виде дендрограммы (dendron (греч.) – дерево). Дивизимные иерархические процедуры используются для распознавания образов [4].

Пример Провести классификацию n=6 объектов, каждый из которых характеризуются двумя признаками:

№ объекта i

1

2

3

4

5

6

xi1

5

6

5

10

11

10

xi2

10

12

13

9

9

7

Расположение объектов в виде точек на плоскости показано на рис. 4.1.

Рис. 4.1. Классификация объектов

Решение

Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами возьмем обычное евклидово расстояние. Тогда согласно формуле (4.2) расстояние между первым и вторым объектами

,

а между первым и третьим объектами

.

Очевидно, что .

Аналогично находим расстояние между шестью объектами и строим матрицу расстояний

.

Из матрицы расстояний следует, что четвертый и пятый объекты наиболее близки и поэтому объединяются в один кластер. После объединения объектов имеем пять кластеров:

Номер кластера

1

2

3

4

5

Состав кластера

(1)

(2)

(3)

(4,5)

(6)

Расстояние между кластерами определим по принципу «ближайшего соседа», воспользовавшись формулой пересчета (4.11). Расстояние между объектом S1 и кластером S(4,5) будет

Таким образом, расстояние равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер S(4,5), т.е. . Тогда матрица расстояний примет вид

.

Объединим второй и третий объекты, имеющие наименьшее расстояние . После объединения объектов имеем четыре кластера:

.

Вновь найдем матрицу расстояний. Для того чтобы рассчитать расстояние до кластера S(2,3) воспользуемся матрицей расстояний R2. Например, расстояние между кластерами S(4,5) и S(2,3) равно

Проведя аналогичные расчеты, получим

.

Объединим кластеры S(4,5) и S6, расстояние между которыми, согласно матрице R3, наименьшее . В результате получим три кластера

и .

Матрица расстояний будет иметь вид:

.

Объединим теперь кластеры S(1) и S(2,3) , расстояние между которыми . В результате получим два кластера: и. S(4,5,6) Расстояние между ними, найденное по принципу «ближайшего соседа», будет .

Результаты иерархической классификации объектов представлены на рис. 4.2 в виде дендрограммы: по горизонтали откладываются номера объектов, а по вертикали – значения мер близости, при которых происходили соединения классов.

Рис. 4.2. Дендрограмма

На рис. 4.2 приводятся расстояния между кластерами, которые объединяются на одном этапе. В этом примере предпочтение следует отдать предпоследнему этапу классификации, когда все объекты объединены в два кластера и S(4,5,6).