
- •Кластерный анализ
- •2.1. Введение
- •2.2. Признаки объекта
- •2.3. Мера сходства объектов и классов. Расстояния.
- •2.3.1 Метрика Махалонобиса
- •2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
- •2.3.1.2. Скейлинг (масштабное преобразование) и стандартизованное расстояние
- •2.3.1.3 Ковариационная матрица
- •2.3.1.4 Алгоритм вычисления расстояния по Махалонобису
- •2.3.2. Функции сходства.
- •2.3.3 Расстояние между списками
- •2.4. Общая схема классификации и распознавания образов
- •2.4.1. Понятие об обучении. Обучение с учителем и без учителя.
- •2.4.2. Общая схема системы классификации
- •2.5. Разделяющие поверхности и разделяющие функции
- •2.5.1 Линейные и кусочно-линейные разделяющие функции
- •2.6. Методы классификации. Алгоритмы классификации.
- •2.6.1. Алгоритм максимина
- •2.6.2. Алгоритм к-средних
- •2.6.3. Нечеткий алгоритм к-средних (Fuzzy k-means)
- •Алгоритм изодата
2.3.1 Метрика Махалонобиса
Метрика Махалонобиса, или расстояние по Махалонобису используется для вычисления расстояний между объектами и центрами классов. Эта метрика является обобщением евклидовой метрики и, в отличие от других метрик, учитывает, так называемый скейлинг или масштабное преобразование значений существенных признаков. При этом расстояние становится безразмерной величиной. Метрика Махаланобиса может использоваться в процедурах классификации, использующих такие алгоритмы, как простой или нечеткий алгоритм К-средних и алгоритм ИЗОДАТА.
Метрика Махаланобиса позволяет значительно улучшить процедуру обучения автоматической системы классификации в следующих случаях:
-
Существенные признаки объектов выбраны неадекватно, классы плохо разделяются;
-
Существенные признаки объектов сильно коррелируют между собой;
-
Разделяющая поверхность между классами сильно изогнута;
-
Классы могут состоять из подклассов, не соприкасающихся между собой в пространстве существенных признаков;
-
Р
азделяющие поверхности между классами имеют очень сложную форму.
Эти случаи размещения объектов в пространстве существенных признаков проиллюстрированы на рис. 2.10.
Расстояние
по Махалонобису
между объектом
и центром
некоторого класса вычисляется по
формуле:
, (2.7.)
где
- матрица, обратная к ковариационной
матрице
для данного класса,
матрица – столбец элементы которой –
разности одноименных координат объекта
и центра класса
.
Для того чтобы найти расстояние между объектом и классом в метрике Махалонобиса используются такие величины как центр класса, дисперсия, среднеквадратическое отклонение и матрица ковариаций. Рассмотрим их определения и методы вычисления.
2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
Пусть
имеется некоторый класс
,
который содержит
объектов, у каждого из которых
существенных признаков, то есть
,
,
.
Центром
класса
является вектор
,
компоненты которого – средние значения
одноименных, существенных признаков
всех объектов данного класса. Другими
словами, средним
значением
-
того существенного признака объектов
того
класса является арифметическое среднее:
.
(2.8)
Таким образом, центр класса
- вектор, координаты
которого – среднеарифметические
значения одноименных существенных
признаков, или среднеарифметический
вектор
.
Дисперсия
– это мера «размытости» класса, или
мера отклонения значений существенных
признаков объектов от центра данного
класса. В
-мерном
пространстве существенных признаков
дисперсия для класса
определяется в виде вектора-строки или
матрицы-строки вида
,
причем элементы этой матрицы - дисперсии
того
признака - определяются из соотношения:
. (2.9.)
Здесь,
как и раньше,
- количество объектов в данном классе.
Стандартным
или среднеквадратичным
отклонением
называется корень квадратный из дисперсии
,
причем среднеквадратическое отклонение
того
признака объектов
того
класса определяется по формуле
.
(2.10.)
Эта величина измеряется в тех же единицах, что и среднее значение существенных признаков данного класса.