Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kurs_TPR.doc
Скачиваний:
13
Добавлен:
27.09.2019
Размер:
2.06 Mб
Скачать

§2. Условия применимости математических

методов классификации

При разработке методов классификации на ЭВМ необходимо оценить сходство между объектами количественно. Для этого можно использовать мнения людей, что часто применяется социологами. Но непрактично и ненаучно получать оценки таксономического сходства внутри множества объектов с помощью группы субъектов. В научной практике избегают использовать суждения, основанные на большинстве голосов или популярности [5].

Для количественной оценки сходства объектов используют детальное описание их свойств, которые необходимо задать числами. Каждый объект Хj из данного множества Х(n) задается в виде вектора значений свойств-признаков,

Хj=(xj1, xj2, ..., xjp), j=1, 2, ..., n, p1. (2.2)

Получается матрица данных размерностью np,

, (2.3)

номер строки которой – номер объекта, номер столбца – номер признака каждого объекта.

От природы основных признаков объекта зависят важные теоретические выводы. Объекты, подлежащие классификации, представлены в пространстве признаков. Формально это признаковое пространство является p-мерным. Но в связи с корреляцией (зависимостью) между признаками оно может быть преобразовано в пространство меньшей размерности.

Обычной математической основой для классификации объектов являются функции на парах элементов (Xi,Xj), i,j=1,2,…,n, вычисляемые по их признакам [4-6]. В результате получается матрица сходства rij или различия uij между всеми возможными парами (Xi,Xj). Эти коэффициенты бывают трех видов.

1. Коэффициенты типа расстояния имеют общий вид

, (2.4),

где xis – значение s-го признака для элемента Xi, p – число признаков, m – положительное целое число. При m = 1 – манхэттеновское расстояние, при m = 2 – евклидово расстояние.

2. Коэффициент ассоциативности (КА)

a(Xi,Xj)=pc/p,

pc – число совпадающих признаков элементов Xi, Xj, p – общее число признаков. КА используется для элементов, представленных в виде двоичного кода или словесных обозначений.

3. Коэффициент корреляции (КК) между векторами Xi, Xj определяет меру их угловой близости и выражается через их нормированное скалярное произведение

i, j = 1,2,…,n, (2.5a)

или

, i, j =1,2,…,n. (2.5b)

4. Условная вероятность принадлежности элемента X к классам 1,2,…,k , Р(X/t), t =1,2,…,k, используется в том случае, когда известны, хотя бы приближенно, законы распределения вероятностей значений признаков объектов в каждом классе.

5. Линии регрессии применяются в том случае, когда элементы классов концентрируются вдоль некоторых линий (рис.2.3), приближенные уравнения которых находятся по данным наблюдениям.

При решении различных задач классификации в зависимости от вида признаков, описывающих классы, используются и различные виды расстояний (метрик) r(Xi,Xj). Но все они должны удовлетворять следующим условиям:

r(Xi,Xj)  0 – неотрицательность,

r(Xi,Xj) = 0 тогда и только тогда, когда Xi=Xj – аксиома тождества,

r(Xi,Xj) = (Xj,Xi) – аксиома симметрии,

r(Xi,Xj)  r(Xi,Xs) + r(Xs,Xj) – аксиома треугольника.

Р ис. 2.3

Кроме отмеченных выше видов расстояний в классификаии используются следующие:

,

(2.6a)

- расстояние Махаланобиса [7], в котором  - ковариационная матрица каждого класса, значок «’» обозначает транспонирование, (Xi-Xj) – вектор-строка, (Xi-Xj)’ – вектор-столбец. Если матрица  диагональная, на главной диагонали ее стоят дисперсии признаков 12,22,…,Р2, то расстояние Махаланобиса принимает вид

(2.6b)

Далее для проведения классификации математическими методами необходимо задать математическое правило классификации, соответственно связанное с выбранной мерой близости объектов. Поэтому классификация проводится по расстояниям, коэффициентам ассоциативности и корреляции, по вероятностям, по линиям регрессии. Например, при классификации по расстоянию два объекта Xi, Xj относятся к одному классу s, s{1,2,…,k}, если r(Xi,Xj)r0, r0 – заданное пороговое значение расстояния для каждого класса; при классификации по вероятности объект X относят к тому классу i0, для которого условная вероятность максимальна,

(2.7)

Итак, для проведения классификации объектов математическими методами необходимо составить их описание числовыми признаками, задать меру их близости и правило классификации.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]