Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Саратовский государственный университет им. Н.Г. Чернышевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kurs_TPR.doc

Скачиваний:

Добавлен:

27.09.2019

Размер:

2.06 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 145 6 7 8 9 10 11 12 13 14 > Следующая >>>

§2. Условия применимости математических

методов классификации

При разработке методов классификации на ЭВМ необходимо оценить сходство между объектами количественно. Для этого можно использовать мнения людей, что часто применяется социологами. Но непрактично и ненаучно получать оценки таксономического сходства внутри множества объектов с помощью группы субъектов. В научной практике избегают использовать суждения, основанные на большинстве голосов или популярности [5].

Для количественной оценки сходства объектов используют детальное описание их свойств, которые необходимо задать числами. Каждый объект Х_j из данного множества Х⁽ⁿ⁾ задается в виде вектора значений свойств-признаков,

Х_j=(x_j₁, x_j₂, ..., x_jp), j=1, 2, ..., n, p1. (2.2)

Получается матрица данных размерностью np,

, (2.3)

номер строки которой – номер объекта, номер столбца – номер признака каждого объекта.

От природы основных признаков объекта зависят важные теоретические выводы. Объекты, подлежащие классификации, представлены в пространстве признаков. Формально это признаковое пространство является p-мерным. Но в связи с корреляцией (зависимостью) между признаками оно может быть преобразовано в пространство меньшей размерности.

Обычной математической основой для классификации объектов являются функции на парах элементов (X_i,X_j), i,j=1,2,…,n, вычисляемые по их признакам [4-6]. В результате получается матрица сходства r_ij или различия u_ij между всеми возможными парами (X_i,X_j). Эти коэффициенты бывают трех видов.

1. Коэффициенты типа расстояния имеют общий вид

, (2.4),

где x_is – значение s-го признака для элемента X_i, p – число признаков, m – положительное целое число. При m = 1 – манхэттеновское расстояние, при m = 2 – евклидово расстояние.

2. Коэффициент ассоциативности (КА)

a(X_i,X_j)=p_c/p,

p_c – число совпадающих признаков элементов X_i, X_j, p – общее число признаков. КА используется для элементов, представленных в виде двоичного кода или словесных обозначений.

3. Коэффициент корреляции (КК) между векторами X_i, X_j определяет меру их угловой близости и выражается через их нормированное скалярное произведение

i, j = 1,2,…,n, (2.5a)

или

, i, j =1,2,…,n. (2.5b)

4. Условная вероятность принадлежности элемента X к классам ₁,₂,…,_k , Р(X/_t), t =1,2,…,k, используется в том случае, когда известны, хотя бы приближенно, законы распределения вероятностей значений признаков объектов в каждом классе.

5. Линии регрессии применяются в том случае, когда элементы классов концентрируются вдоль некоторых линий (рис.2.3), приближенные уравнения которых находятся по данным наблюдениям.

При решении различных задач классификации в зависимости от вида признаков, описывающих классы, используются и различные виды расстояний (метрик) r(X_i,X_j). Но все они должны удовлетворять следующим условиям:

r(X_i,X_j)  0 – неотрицательность,

r(X_i,X_j) = 0 тогда и только тогда, когда X_i=X_j – аксиома тождества,

r(X_i,X_j) = (X_j,X_i) – аксиома симметрии,

r(X_i,X_j)  r(X_i,X_s) + r(X_s,X_j) – аксиома треугольника.

Р ис. 2.3

Кроме отмеченных выше видов расстояний в классификаии используются следующие:

(2.6a)

- расстояние Махаланобиса [7], в котором  - ковариационная матрица каждого класса, значок «’» обозначает транспонирование, (X_i-X_j) – вектор-строка, (X_i-X_j)’ – вектор-столбец. Если матрица  диагональная, на главной диагонали ее стоят дисперсии признаков ₁²,₂²,…,_Р², то расстояние Махаланобиса принимает вид

(2.6b)

Далее для проведения классификации математическими методами необходимо задать математическое правило классификации, соответственно связанное с выбранной мерой близости объектов. Поэтому классификация проводится по расстояниям, коэффициентам ассоциативности и корреляции, по вероятностям, по линиям регрессии. Например, при классификации по расстоянию два объекта X_i, X_j относятся к одному классу _s, s{1,2,…,k}, если r(X_i,X_j)r₀, r₀ – заданное пороговое значение расстояния для каждого класса; при классификации по вероятности объект X относят к тому классу _i₀, для которого условная вероятность максимальна,

(2.7)

Итак, для проведения классификации объектов математическими методами необходимо составить их описание числовыми признаками, задать меру их близости и правило классификации.

<<< < Предыдущая 1 2 3 45 / 145 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.06.2015744.96 Кб40Kursovaya_rabota_Noxalogia4.doc
#
29.03.201643.25 Кб16kursovik (2).docx
#
21.08.20194.96 Mб109Kursovoe_proektirovanie.doc
#
14.04.2019955.9 Кб70Kurs_lektsy_po_istorii_SGU.doc
#
09.06.201547.82 Кб73kurs_plyazhny_turizm_Antalii.docx
#
27.09.20192.06 Mб13Kurs_TPR.doc
#
20.12.2018509.56 Кб19kyrsach (1).docx
#
29.03.201635.92 Кб211Lab 1.docx
#
09.06.2015172.54 Кб16lab-1.doc
#
20.11.201961.96 Кб3LADIN_A.S._modul_№2.docx
#
09.11.2019427.01 Кб8LCR.doc