- •Кластерный анализ
- •2.1. Введение
- •2.2. Признаки объекта
- •2.3. Мера сходства объектов и классов. Расстояния.
- •2.3.1 Метрика Махалонобиса
- •2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
- •2.3.1.2. Скейлинг (масштабное преобразование) и стандартизованное расстояние
- •2.3.1.3 Ковариационная матрица
- •2.3.1.4 Алгоритм вычисления расстояния по Махалонобису
- •2.3.2. Функции сходства.
- •2.3.3 Расстояние между списками
- •2.4. Общая схема классификации и распознавания образов
- •2.4.1. Понятие об обучении. Обучение с учителем и без учителя.
- •2.4.2. Общая схема системы классификации
- •2.5. Разделяющие поверхности и разделяющие функции
- •2.5.1 Линейные и кусочно-линейные разделяющие функции
- •2.6. Методы классификации. Алгоритмы классификации.
- •2.6.1. Алгоритм максимина
- •2.6.2. Алгоритм к-средних
- •2.6.3. Нечеткий алгоритм к-средних (Fuzzy k-means)
- •Алгоритм изодата
2.3.1 Метрика Махалонобиса
Метрика Махалонобиса, или расстояние по Махалонобису используется для вычисления расстояний между объектами и центрами классов. Эта метрика является обобщением евклидовой метрики и, в отличие от других метрик, учитывает, так называемый скейлинг или масштабное преобразование значений существенных признаков. При этом расстояние становится безразмерной величиной. Метрика Махаланобиса может использоваться в процедурах классификации, использующих такие алгоритмы, как простой или нечеткий алгоритм К-средних и алгоритм ИЗОДАТА.
Метрика Махаланобиса позволяет значительно улучшить процедуру обучения автоматической системы классификации в следующих случаях:
-
Существенные признаки объектов выбраны неадекватно, классы плохо разделяются;
-
Существенные признаки объектов сильно коррелируют между собой;
-
Разделяющая поверхность между классами сильно изогнута;
-
Классы могут состоять из подклассов, не соприкасающихся между собой в пространстве существенных признаков;
-
Р азделяющие поверхности между классами имеют очень сложную форму.
Эти случаи размещения объектов в пространстве существенных признаков проиллюстрированы на рис. 2.10.
Расстояние по Махалонобису между объектом и центром некоторого класса вычисляется по формуле:
, (2.7.)
где - матрица, обратная к ковариационной матрице для данного класса, матрица – столбец элементы которой – разности одноименных координат объекта и центра класса .
Для того чтобы найти расстояние между объектом и классом в метрике Махалонобиса используются такие величины как центр класса, дисперсия, среднеквадратическое отклонение и матрица ковариаций. Рассмотрим их определения и методы вычисления.
2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
Пусть имеется некоторый класс , который содержит объектов, у каждого из которых существенных признаков, то есть
, , .
Центром класса является вектор , компоненты которого – средние значения одноименных, существенных признаков всех объектов данного класса. Другими словами, средним значением - того существенного признака объектов того класса является арифметическое среднее:
. (2.8)
Таким образом, центр класса - вектор, координаты которого – среднеарифметические значения одноименных существенных признаков, или среднеарифметический вектор
.
Дисперсия – это мера «размытости» класса, или мера отклонения значений существенных признаков объектов от центра данного класса. В -мерном пространстве существенных признаков дисперсия для класса определяется в виде вектора-строки или матрицы-строки вида , причем элементы этой матрицы - дисперсии того признака - определяются из соотношения:
. (2.9.)
Здесь, как и раньше, - количество объектов в данном классе.
Стандартным или среднеквадратичным отклонением называется корень квадратный из дисперсии , причем среднеквадратическое отклонение того признака объектов того класса определяется по формуле
. (2.10.)
Эта величина измеряется в тех же единицах, что и среднее значение существенных признаков данного класса.