Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Распознавание образов.doc
Скачиваний:
8
Добавлен:
01.05.2025
Размер:
2.78 Mб
Скачать

Глава 4. Распознавание образов с помощью кластеров

4.1. Основные понятия кластерного анализа

В задачах распознавания образов группировка первичных данных является основным приемом решения задачи классификации. При наличии нескольких признаков (исходных или обобщенных) задача классификации может быть решена методами кластерного анализа. Основное отличие этих методов заключается в том, что отсутствуют обучающие выборки, т.е. априорная информация о распределении генеральной совокупности, которая представляет собой вектор Х.

Рассмотрим следующую задачу. Пусть исследуется совокупность n объектов, каждый из которых характеризуется Х признаками, измеренными k раз. Требуется разбить эту совокупность на однородные группы (классы). При этом отсутствует априорная информация о характере распределения измерений Х внутри классов.

Полученные в результате разбиения группы называют кластерами (от англ. cluster – группа элементов, характеризуемых каким-либо общим свойством). Методы нахождения кластеров называются кластер – анализом или распознаванием образов с самообучением.

Рассмотрим три различных подхода к проблеме кластерного анализа: эвристический, экстремальный и статистический.

Эвристический подход характеризуется отсутствием формальной модели изучаемого явления и критерия для сравнения различных решений. Основой подхода является алгоритм, построенный исходя из интуитивных соображений.

При экстремальном подходе также не формулируется исходная модель, а задается критерий, определяющий качество разбиения на кластеры. Этот подход полезен, когда цель исследования четко определена. Качество разбиения в этом случае может измеряться эффективностью выполнения цели.

Основой статистического подхода решения задач кластерного анализа является вероятностная модель исследуемого процесса. Данный подход дает возможность решать задачи, связанные с воспроизводимостью результатов кластерного анализа.

Рассмотрим формы представления исходных данных и определение мер близости. В кластерном анализе формой представления исходных данных служит прямоугольная матрица, каждая строка которой представляет результат измерения k признаков на одном из обследованных объектов (образов):

.

В конкретных ситуациях может представлять интерес, как группировка объектов (образов), так и группировка признаков.

Числовые значения, входящие в матрицу Х, могут соответствовать трем типам переменных – количественным, ранговым и качественным. Количественные переменные обладают свойством упорядоченности и над ними можно производить арифметические операции. Значения ранговых переменных тоже упорядочены, и их можно пронумеровать натуральными числами. Однако использование этих чисел в арифметических операциях будет некорректным. Качественными называются переменные, принимающие два (дихотомные) или более значений. Этим значениям также можно поставить в соответствие некоторые числа, но они не будут отражать упорядоченности значений качественной переменной. Упорядоченности подвергаются дихотомные переменные, два значения которых (как правило, они обозначаются числами 0 и 1) можно считать упорядоченными. Желательно, чтобы таблица исходных данных содержала один тип переменных. В противном случае разные типы переменных стараются свести к одному типу.

Матрица Х не является единственным способом представления исходных данных. Исходная информация может быть задана в виде квадратной матрицы

, i,j=1,2,…,k,

элемент который определяет степень близости i – го образа к j – му, т.е. сходство этих образов.

Большинство алгоритмов кластерного анализа исходят из матрицы расстояний (или сходства), либо требуют вычисления отдельных ее элементов. Если данные представлены в форме Х, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний или близости (сходства) между образами или признаками.

Достаточно просто определяется близость между признаками. Чаще всего мерами близости служат различные статистические коэффициенты связи. Если признаки количественные, то можно использовать оценки обычных парных выборочных коэффициентов корреляции

, . Однако коэффициент корреляции измеряет только линейную связь. Если связь нелинейная, то следует произвести подходящее преобразование шкалы признаков.

Рассмотрим наиболее распространенные типы нормировок, переводящих признаки в безразмерные величины. Пусть имеются одномерные наблюдения Нормировки:

,

,

где - среднее арифметическое,

- выборочная дисперсия позволяют изменять

масштабы шкал признаков для использования корреляционных статистических связей. Существуют различные коэффициенты связи, определенные для ранговых, качественных и дихотомных переменных.