- •Раздел II. Распознавание образов Введение
- •Глава 1. Общие основы теории распознавания образов
- •1.1. Основные понятия теории распознавания образов
- •1.2. Основные задачи, возникающие при разработке систем распознавания образов
- •1.3. Основные принципы построения систем распознавания
- •1. Принцип перечисления членов класса
- •2. Принцип общности свойств
- •3. Принцип кластеризации
- •1. Эвристические методы
- •2. Математические методы
- •3. Лингвистические (синтаксические) методы
- •Глава 2. Решающие функции
- •2.1. Общие понятия
- •2.2. Линейные решающие функции
- •Глава 3. Классификаторы образов с самообучением
- •3.1. Классификация образов с помощью функций расстояния
- •3.2. Классификация образов по критерию минимума расстояния
- •1. Случай единственности эталона
- •2. Множественность эталонов
- •3.3. Обобщение принципов классификации по минимуму расстояния
- •Глава 4. Распознавание образов с помощью кластеров
- •4.1. Основные понятия кластерного анализа
- •4.2. Расстояние между образами и мера близости
- •4.3. Расстояние между кластерами
- •4.4. Функционалы качества разбиения
- •4.5. Иерархические процедуры
- •4.6. Эвристические методы и алгоритмы
- •4.7. Алгоритм k – внутригрупповых средних
- •Глава 5. Обучаемые классификаторы образов. Детерминистский подход
- •5.1. Классификация образов с помощью персептронного подхода
- •5.2. Принцип подкрепления - наказания
- •5.3. Сходимость принципа подкрепления - наказания
- •5.4. Обобщение алгоритма персептрона для классификации нескольких классов
- •Глава 6. Распознавание образов на основании метода потенциальных функций
- •6.1. Получение решающих функций
- •6 .2. Выбор потенциальных функций
- •6.3. Сходимость алгоритмов обучения
- •6.4. Обобщение алгоритма метода потенциальных функций на несколько классов
- •Глава 7. Структурное распознавание образов Введение
- •7.1. Синтаксический подход к распознаванию образов
- •7.2. Система синтаксического распознавания образов
- •7.3. Методы предварительной обработки
- •1. Кодирование и аппроксимация
- •2. Фильтрация, восстановление и улучшение
- •3. Сглаживание
- •4. Сегментация
- •7.4. Языки описания образов
- •1. Выбор непроизводных элементов
- •2 Выделение непроизводных элементов на границах
- •Задание для самостоятельной работы
- •7.5. Языки и порождающие грамматики
- •7.6. Обработка изображений
- •1. Классы изображений
- •2. Ввод изображений
- •3. Преобразование изображений
- •Литература
4.5. Иерархические процедуры
Иерархические (деревообразные) процедуры бывают двух типов: агломеративные и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из n одноэлементных классов, а конечным – из одного класса, в дивизимных наоборот. Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства).
Громоздкость вычислительной реализации является недостатком иерархических процедур.
Рассмотрим
пример агломеративного иерархического
алгоритма. На первом шаге каждое
наблюдение
рассматривается как отдельный кластер.
В дальнейшем на каждом шаге работы
алгоритма происходит объединение двух
самых близких кластеров, и, с учетом
принятого расстояния, по формуле
пересчитывается матрица расстояний.
Размерность матрицы, очевидно, снижается
на единицу. Работа алгоритма заканчивается,
когда все наблюдения объединены в один
класс. Иерархическую классификацию
представляют в виде дендрограммы
(dendron (греч.) – дерево). Дивизимные
иерархические процедуры используются
для распознавания образов [4].
Пример Провести классификацию n=6 объектов, каждый из которых характеризуются двумя признаками:
№ объекта i |
1 |
2 |
3 |
4 |
5 |
6 |
xi1 |
5 |
6 |
5 |
10 |
11 |
10 |
xi2 |
10 |
12 |
13 |
9 |
9 |
7 |
Расположение объектов в виде точек на плоскости показано на рис. 4.1.
Рис. 4.1. Классификация объектов
Решение
Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами возьмем обычное евклидово расстояние. Тогда согласно формуле (4.2) расстояние между первым и вторым объектами
,
а между первым и третьим объектами
.
Очевидно,
что
.
Аналогично находим расстояние между шестью объектами и строим матрицу расстояний
.
Из
матрицы расстояний следует, что четвертый
и пятый объекты наиболее близки
и поэтому объединяются в один кластер.
После объединения объектов имеем пять
кластеров:
Номер кластера |
1 |
2 |
3 |
4 |
5 |
Состав кластера |
(1) |
(2) |
(3) |
(4,5) |
(6) |
Расстояние между кластерами определим по принципу «ближайшего соседа», воспользовавшись формулой пересчета (4.11). Расстояние между объектом S1 и кластером S(4,5) будет
Таким
образом, расстояние
равно расстоянию от объекта 1 до ближайшего
к нему объекта, входящего в кластер
S(4,5),
т.е.
.
Тогда матрица расстояний примет вид
.
Объединим
второй и третий объекты, имеющие
наименьшее расстояние
.
После объединения объектов имеем четыре
кластера:
.
Вновь найдем матрицу расстояний. Для того чтобы рассчитать расстояние до кластера S(2,3) воспользуемся матрицей расстояний R2. Например, расстояние между кластерами S(4,5) и S(2,3) равно
Проведя аналогичные расчеты, получим
.
Объединим
кластеры S(4,5)
и S6,
расстояние между которыми, согласно
матрице R3,
наименьшее
. В результате получим три кластера
и
.
Матрица расстояний будет иметь вид:
.
Объединим
теперь кластеры S(1)
и S(2,3)
, расстояние между которыми
.
В результате получим два кластера:
и. S(4,5,6)
Расстояние между ними, найденное по
принципу «ближайшего соседа», будет
.
Результаты иерархической классификации объектов представлены на рис. 4.2 в виде дендрограммы: по горизонтали откладываются номера объектов, а по вертикали – значения мер близости, при которых происходили соединения классов.
Рис. 4.2. Дендрограмма
На рис. 4.2 приводятся расстояния между кластерами, которые объединяются на одном этапе. В этом примере предпочтение следует отдать предпоследнему этапу классификации, когда все объекты объединены в два кластера и S(4,5,6).
