
- •Кластерный анализ
- •2.1. Введение
- •2.2. Признаки объекта
- •2.3. Мера сходства объектов и классов. Расстояния.
- •2.3.1 Метрика Махалонобиса
- •2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
- •2.3.1.2. Скейлинг (масштабное преобразование) и стандартизованное расстояние
- •2.3.1.3 Ковариационная матрица
- •2.3.1.4 Алгоритм вычисления расстояния по Махалонобису
- •2.3.2. Функции сходства.
- •2.3.3 Расстояние между списками
- •2.4. Общая схема классификации и распознавания образов
- •2.4.1. Понятие об обучении. Обучение с учителем и без учителя.
- •2.4.2. Общая схема системы классификации
- •2.5. Разделяющие поверхности и разделяющие функции
- •2.5.1 Линейные и кусочно-линейные разделяющие функции
- •2.6. Методы классификации. Алгоритмы классификации.
- •2.6.1. Алгоритм максимина
- •2.6.2. Алгоритм к-средних
- •2.6.3. Нечеткий алгоритм к-средних (Fuzzy k-means)
- •Алгоритм изодата
2.3. Мера сходства объектов и классов. Расстояния.
В общих чертах, процедура классификации заключается в том, чтобы отнести каждый предъявляемый объект к тому или иному классу. Сами классы могут быть либо заданы заранее, либо могут устанавливаться системой классификации в процессе ее обучения, а именно: в ходе применения решающих правил к некоторому количеству предъявляемых объектов, принадлежность которых к определенному классу уже известна.
Рассмотрим одно исключительно важное понятие, которое будет широко использоваться в дальнейшем при рассмотрении различных методов классификации, а именно: понятие расстояния. Интуитивно ощущается, что понятие расстояния - это наиболее естественное средство оценки того, насколько близки между собой объект и данный класс, два класса, или два объекта. Это связано с тем, что понятие расстояния между объектами и классами отражает степень сходства двух рассматриваемых объектов, если отображать их точками в пространстве существенных признаков. Для определения понятия расстояния в задачах распознавания используется большое число различных математических выражений. Это связано со многими причинами: скорость выполнения вычислительных операций на ЭВМ; в некоторых задачах классификации значения признаков могут быть двоичного типа («да» или «нет») и т. д.
Прежде чем использовать расстояние в качестве меры сходства объектов, рассмотрим следующие понятия.
Метрическим пространством называется
пара
,
состоящая из множества элементов
и расстояния
- неотрицательной, однозначной,
действительной функции
,
определенной для всех
и удовлетворяющей трем условиям
(аксиомам):
-
, тогда и только тогда, когда
;
-
=
- условие (аксиома) симметричности;
-
- неравенство треугольника.
Например, евклидово двумерное пространство
является метрическим, поскольку
расстояние между двумя точками
удовлетворяет всем трем условиям, в чем легко убедиться.
Применительно к задачам классификации,
в которых используется расстояние
необходимо рассмотреть еще два важных
понятия, а именно: точных верхней и
нежней граней. Пусть задано некоторое
линейно упорядоченное множество чисел
(множество на котором выполняется
отношение нестрого порядка).
Если для рассматриваемого множества
существует такое число
,
что
выполняется неравенство
,
то говорят, что
ограничено сверху числом
,
а само это число называют верхней гранью
множества
.
Очевидно, что любое число
,
так же является верхней гранью множества
.
Другими словами, существует множество
всех верхних граней множества
.
Наименьшая из всех верхних граней
называется точной верхней гранью
множества
и обозначается
(читается супремум
).
Аналогичным образом, множество
может быть ограничено снизу, т.е.
существует такое число
,
что выполняется неравенство
,
которое называют нижней гранью множества
.
Наибольшая из всех нижних граней
называется точной нижней гранью множества
и обозначается
(читается инфинум
).
Примеры:
-
для множества
, а
, т.е. точные грани данного множества являются его элементами;
-
для множества
, а
, т.е. точные грани данного множества не являются его элементами;
Пусть
-
множество классов. Будем называть
расстоянием между объектом
и некоторым классом
величину
определяемую выражением
(2.1)
Расстояние между двумя классами
и
определяется величиной
,
которая вычисляется аналогичным образом:
.
(2.2)
Как правило, на практике определение расстояния между объектом и классом определяется из соотношения
(2.1а)
а между классами
.
(2.2а)
Очевидно, что, чем меньше расстояние между двумя объектами, то тем больше сходство между ними. Это утверждение справедливо лишь в случае «правильно» выбранных признаков, что выполняется далеко не всегда.
Проиллюстрируем это на примере сравнения
двух отрезков, (смотри рис. 2.5.). Отрезки
и
имеют разную длину
,
а их проекции на плоскость
одинаковы. Поэтому, если в качестве
существенных признаков, рассматривать
только проекции этих отрезков на
плоскость
,
то можно сделать неправильный вывод:
отрезки
и
равны. Что не соответствует действительности.
С другой стороны, установление значений существенных признаков объектов, как правило, связано с различного рода измерениями. Известно, что любая процедура измерений вносит в результат два типа ошибок – систематическую и случайную. Систематическая ошибка обусловлена конструктивными особенностями измерительного прибора (в частности, это может быть точность измерений присущая данному прибору). Например, если измерять расстояние с помощью линейки, то систематическая ошибка по порядку величины будет равна толщине линий деления на линейке (чем толще линия деления, тем больше систематическая ошибка). Случайные ошибки, напротив, связаны с неконтролируемыми факторами, которые оказывают случайное влияние на результаты измерений. Наличие ошибок измерений приводит к тому, что уже нельзя однозначно утверждать к какому из классов относится рассматриваемый объект, можно говорить только о вероятности его принадлежности к тому или иному из классов.
Вернемся к задаче классификации
треугольников. Пусть значения углов
треугольников измеряются с абсолютной
погрешностью
.
Тогда значения углов треугольников
будут определяться из соотношения
,
здесь,
-это
-тое
измерения значения
-
того угла треугольника. В этом случае,
к примеру, класс равнобедренных
треугольников в пространстве измерений
углов треугольников будет отображаться
уже не точкой, а сферической областью
(см. рис. 2.6.). Таким образом, из-за наличия
ошибок измерений, изменяются и границы
классов.
Из этих примеров следует, что выбор существенных признаков, которые обеспечивали бы достоверное распознавание, не всегда легко достигается на практике, и в некоторых случаях приходится прибегать к привлечению других методов, чаще всего – это методы математической статистики, «нечеткие» множества и «нечеткие» вычисления.
В задачах распознавания образов для вычисления расстояния кроме понятия евклидова расстояния, обозначим его
(2.3)
используются
и ряд других соотношений. В общих чертах,
это связано с тем, что при вычислении
расстояния
используется достаточно большое
количество операций, что может существенно
увеличить время обработки данных на
ЭВМ, и, следовательно, автоматизированная
система классификации может оказаться
не эффективной, для использования в
реальных условиях. Поэтому, с одной
стороны, специально для уменьшения
количества операций и повышения
быстродействия вычислений на ЭВМ были
и предложены другие определения понятия
«расстояние». Другой важный момент,
определяющий выбор той или иной метрики,
связан с тем, что в одной метрике классы
могут быть пересекающимися, а в другой
нет. Приведем некоторые из них, которые
используются для вычисления расстояния
в задачах классификации:
1.
-
расстояние по Манхэттену («метрика
городских кварталов»)
(2.4)
2.
-
Чебышевское расстояние
(2.5)
В
этих выражениях
и
-
векторы существенных признаков объектов,
между которыми вычисляется расстояние,
а
- значение
-того
признака
-го
объекта.
В
метрическом пространстве объекты,
принадлежащие одному классу, занимают
определенную область. Поверхность,
которая охватывает эту область, называется
разделяющей поверхностью, так как она
разделяет это пространство на отдельные
области-классы. Такая поверхность
представляет собой геометрическое
место точек удовлетворяющих уравнению
.
На плоскости это уравнение, в общем
случае, определяет некоторую кривую.
В
качестве примера таких разделяющих
линий на плоскости
рассмотрим геометрическое место точек,
равноудаленных от начала координат на
расстояние, равное единице в различных
метриках (рис. 2.7). Для трех вышеприведенных
определений расстояния получим:
X2 X2 X2
Рассмотрим еще один способ вычисления расстояний: расстояние в метрике Камберра
(2.6.)
Геометрическое место точек, равноудаленных
от заданной, для
будет изменяться в зависимости от
выбранной опорной или базовой точки.
Например, геометрическое место точек
на плоскости, удаленных на расстояние
от опорной точки
с координатами
,
задается уравнением
Рассмотрим
частный случай
.
Тогда геометрическое место точек,
удаленных на расстояние, равное 1, от
опорной точки с координатами
можно определить по формуле (см. рис.
2.8)
Для конкретного случая классификации объектов, выбирают ту или иную метрику с тем, чтобы с одной стороны уменьшить вычислительную сложность задачи классификации, а, с другой стороны, выбранная метрика должна обеспечивать «наилучшее» разбиение на классы.
Проиллюстрируем
последнее утверждение на простом примере
(см. рис. 2.9.). Как видно из рисунка, классы
в метрике Евклида являются пересекающимися,
что существенно усложняет классификацию
объектов. В таком случае лучше использовать
метрику Чебышева, которая позволяет
достаточно просто разбить множество
существенных признаков на сепарабельные
классы, и тем самым обеспечить эффективную
и достоверную классификацию объектов.