2 Метод главных компонент
Для решения задачи классификации объектов, принадлежащих трем классам, предлагается свести эту задачу к поэтапному решению двухклассовых задач. На первом этапе предлагается идентифицировать объекты одного класса (условно 1), а оставшиеся объекты, принадлежащие двум другим классам, определить как объекты другого класса (условно 2). Если классифицируемый объект не принадлежит классу 1, то он участвует во втором этапе классификации, в котором определяется принадлежность к одному из двух оставшихся классов. Для этого требуется выбрать класс, который будет классифицироваться на первом этапе. Этот выбор был сделан с использованием метода главных компонент. Изображение трех классов в пространстве первых двух главных компонент представлено на рисунке 2.
Рисунок 2 – Объекты в пространстве двух первых главных компонент
Доля дисперсии первых двух главных компонент составляет 91,7 % и 3,7 % соответственно. На основании рисунка 2 было принято решение на первом этапе выделить класс 3 (ФЖ), так как объекты этого класса сгруппированы наиболее плотно.
3 Метод классификации по минимуму расстояния
Для того, чтобы провести классификацию по минимуму расстояния необходимо определять весовой вектор (формула (2)) и порог классификации (формула (3)).
|
(2) |
|
(3) |
|
(4) |
где и – средние значения первого и второго классов, соответственно; – СКО классов; и – вероятности первого и второго класса, соответственно (1/3 и 2/3 в нашем случае); – евклидова норма.
На рисунке 3 представлены гистограммы (сверху) и распределение Гаусса (снизу) для 1 этапа (слева) и для 2 этапа (справа). В таблице 16 представлены весовые вектора и пороги классификации для двух этапов.
Рисунок 3 – Классификация по минимуму расстояния
Таблица 16 – Коэффициент W для метода по минимуму расстояния
Этап классификации |
Коэффициенты весового вектора |
Порог классификации |
Этап 1 |
W1 = [-0,96 ; -0,09; -0,09; 0,09; -0,09; -0,08; -0,08; -0,07; -0,06; -0,07; -0,06] |
-440 |
Этап 2 |
W2 = [-0,66; -0,24; -0,59; -0,35; -0,07; -0,12; -0,05; -0,03; 0,002; 0,04; 0,04] |
-519 |
В таблице 17 представлены средние выборочные и стандартные отклонения распределений проекций объектов заданных классов на весовые векторы w11 и w12.
Таблица 17 – Среднее и дисперсии проекций
Этап классификации |
Класс |
Среднее |
Дисперсия |
Этап 1 (проекции на вектор w1) |
ФЖ |
-309 |
4,37 * 103 |
ФР + ЖТ |
-647 |
45,53 * 103 |
|
Этап 2 (проекции на вектор w2) |
ФР |
-449 |
26,81 * 103 |
ЖТ |
-590 |
25,93 * 103 |
На основании таблицы 16 можно записать уравнения разделяющих плоскостей представленных в таблице 18. Общий вид уравнения разделяющей плоскости задается формулой (5).
|
(5) |
На основании таблицы 18 можно сформулировать решающие правила, т.е. действия, которые необходимо выполнить для того, чтобы отнести объект к тому или иному классу.
Таблица 18 – Коэффициент w для метода по минимуму расстояния
Этап классификации |
Уравнение разделяющей плоскости |
Этап 1 |
–0,96(x1) – 0,09(x2) – 0,09(x3) + 0,09(x4) – 0,09(x5) – 0,08(x6) – 0,08(x7) – 0,07(x8) – 0,06(x9) – 0,07(x10) – 0,06(x11) + 440 = 0 |
Этап 2 |
–0,66(x1) – 0,24(x2) – 0,59(x3) – 0,35(x4) – 0,07(x5) – 0,12(x6) – 0,05(x7) – 0,03(x8) + 0,002(x9) + 0,04(x10) + 0,04(x11) + 519 = 0 |
Алгоритм классификации по минимуму расстояния:
В соответствие с
1. Вычислить скалярное произведение векторов
т.е. –0,96(x1) – 0,09(x2) – 0,09(x3) + 0,09(x4) – 0,09(x5) – 0,08(x6) – 0,08(x7) – 0,07(x8) – 0,06(x9) – 0,07(x10) – 0,06(x11) + 440
2. Если , то данный объект принадлежит классу ФЖ, иначе происходит классификация 2 этапа (пункты 3 и 4)
3. Вычислить скалярное произведение векторов
т.е. –0,66(x1) – 0,24(x2) – 0,59(x3) – 0,35(x4) – 0,07(x5) – 0,12(x6) – 0,05(x7) – 0,03(x8) + 0,002(x9) + 0,04(x10) + 0,04(x11) + 519
4. Если , то данный объект принадлежит классу ФР, иначе ЖТ.
Проведем оценку точности, чувствительности и специфичности данного алгоритма классификации. В Таблице 19 используются следующие обозначения:
TP – число правильно определенных положительных исходов;
FP – число исходов, ошибочно отнесённых к положительным;
TN – число правильно определенных отрицательных исходов;
FN – число исходов, ошибочно отнесенных к отрицательным;
Чувствительность – ;
Специфичность – ;
Точность – ;
Таблица 19 – Оценка ошибок классификации
Этап классификации |
TP |
FP |
TN |
FN |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
30 |
12 |
48 |
0 |
100 |
80 |
87 |
2 этап |
22 |
6 |
24 |
8 |
73 |
80 |
77 |
В таблице 20 представлена оценка классификации по распределению Гаусса.
Таблица 20 – Оценка ошибок классификации по распределению Гаусса
Этап классификации |
TP, % |
FP, % |
TN, % |
FN, % |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
97 |
15 |
85 |
3 |
97 |
85 |
91 |
2 этап |
69 |
37 |
63 |
31 |
69 |
63 |
66 |
При использовании метода классификации по минимуму расстояния достигнута точность 87 % на первом этапе и 77% на втором этапе. Для гауссовского распределения точность на первом и втором этапе соответственно составили 91 % и 66 %.
Показатели точности и гистограммы показывают, что второй этап классификации обладает меньшей точностью из-за излишнего пересечения классов в проекции на весовой вектор.
Код программы для расчета параметров при классификации методом по минимуму расстояния представлен в приложении А.