Добавил:

arhimagist Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

конспект_АИД_полный_2017.doc

Скачиваний:

Добавлен:

08.07.2017

Размер:

4.26 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2511 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

2.2.8. Задача статистической классификации для количества классов больше 2

Как ставится задача классификации, когда у нас имеется m классов: ₁, ₂, ... _m ?

Имеем:

C(j|i) – стоимость ошибки, когда принимается решение _j, а наблюдается _i.

P(j|i) = f(x|i) dx – условная вероятность ошибки.

X =  X _i – пространство разбивается таким образом при решении задачи классификации;

q₁, q₂, ... q_m – это априорные вероятности классов.

В общем виде задача сводится к минимизации общей стоимости решения:

Q = q_i { C(j|i) P(j|i)} – средний риск

Область X _k определяется в виде набора следующих неравенств:

q_i f(x|i)C(k|i) < q_i f(x|i)C(j|i) ,

где j = 1,..., m j  k

Рассмотрим пример для 3-х классов: m = 3

Найдем правило для первого класса X ₁ :

q_i f(x|i)C(1|i) < q_i f(x|i)C(j|i) , j = 2,3

Фактически мы получаем здесь два неравенства:

j=2: q₂ f(x|2)C(1|2) + q₃ f(x|3)C(1|3) <

< q₁ f(x|1)C(2|1) + q₃ f(x|3)C(2|3)

j=3: q₂ f(x|2)C(1|2) + q₃ f(x|3)C(1|3) <

< q₁ f(x|1)C(3|1) + q₂ f(x|2)C(3|2)

Самая простая интерпретация, когда мы рассматриваем следующий случай: C(i|j) = const.

Тогда, например, для m=3 получаем для рассматриваемого 1-го класса следующее:

	q₂ f(x\|2) < q₁ f(x\|1)
	q₃ f(x\|3) < q₁ f(x\|1)

Фактически определяется max{q_i f(x|i)} – то есть приводится байесовский критерий к критерию максимальной апостериорной вероятности.

Если вернуться к линейно-дискриминантным функциям на основе отношения правдоподобия , то получим из рассмотренного выше следующее соотношение:

	>
	>

U_1,2 =
U_1,3 =	отношения правдоподобия, сравниваемые с порогом
U_2,3 =

Для класса X ₁:		U_1,2 >
		U_1,3 >
Для класса X ₂:		U_1,2 >
		U_2,3 >
Для класса X ₃:		U_1,3 >
		U_2,3 >

Возможное количество пар таких решений будет равно N = - это количество разделяющих поверхностей.

Для m = 3: имеем разделяющие поверхности, показанные на рисунке:

Мы имеем уравнение попарных разделяющих поверхностей в следующем виде:

U_ij = ^T^-1(_i - _j) - (M_i - M_j)^T^-1(_i - _j) > ln

Для случая m = 3 можно показать, что все уравнения проходят через одну точку, это означает, что у нас отсутствуют зоны неопределенности.

2.2.9. Линейная дискриминантная функция Фишера

Данный подход не требует предположений о нормальном распределении данных.

Пусть имеется обучающая выборка: x ₁, x ₂, ... x _N , где:

N₁элементов изj, множестваX₁

N₂элементов из множестваX₂

Общее число элементов N=N₁+N₂

Задача состоит в построении разделяющей функции для двух классов:

X₁= {}

X₂= {}

Задача Фишера состоит в построении вырожденного линейного преобразования:

y=W^T, ║W║ = 1

y= ║W║║x║cos() фактически это выражение дает нам проекции векторовxна векторw

У Фишера такое преобразование рассматривается как проекция на ось W: {}{y} =Y

Нужно найти такой вектор W, чтобы множества Y₁ и Y₂ были наиболее разнесены (то есть, удалены друг от друга).

Критерий разнесения может быть выбран разным.

Исходить будем из следующих параметров: для каждой выборки определим среднее значение:

m_i =

= y_i = W^T = W^T{} = W^Tm_i

Далее мы строим |-|:

|-| =W^T( ) - это скалярная величина

Далее проблема состоит в оценке функции разброса:

= (y - )² - разброс внутри класса

= +- суммарный разброс

Разброс внутри класса – это нечто вроде дисперсии, только ненормированной.

- средняя дисперсия выборки в Y.

Далее критерий строится следующим образом:

J() =

Далее идет дело техники: как это вычислить и как оптимизировать.

Мы определяем матрицу разброса внутри класса:

= (W^Tx - W^Tm_i)² = W^T(x - m_i)W^T(x - m_i) =

= W^T(x - m_i)(x - m_i)^TW = W^T[(x - m_i)(x - m_i)^T]W = = W^TS_iW

S_i – матрица разброса внутри X _i_.

Таким образом получаем следующий результат: =W^TS_iW

S₁ + S₂ = S_W - суммарная матрица разброса для всех результатов.

+ =W^TS_WW

Таким же образом можно представить (-)²:

( - )² = (W^T - W^T )² = W^T()W^T() =

= W^T()()^TW = W^TS_BW

S_B

Матрица S_B - матрица разброса между классами

Тогда мы получаем искомый критерий в следующем виде:

J() =

Далее стоит задача оптимизации данного отношения (мы должны его максимизировать).

Рассмотрим свойства матрицы S_B:

S_B = ()()^T

это квадратная матрица размерности nn
произведение этой матрицы на произвольный вектор

S_B = ()()^T = С()

C - скаляр

дает вектор, который по направлению совпадает с разностью ()

ранг матрицы S_B равен единице, это легко показать, если представить ее в виде dd^T:

	d₁d₁ d₁d₂ ... d₁d_n
	d₂d₁ d₂d₂ ... d₂d_n
	.		= (d₁ d₂ ... d_n)
	.
	d_nd₁ d_nd₂ ... d_nd_n

- матрица вырожденная и ранг ее равен единице.

Условная оптимизация по Лагранжу

Запишем функцию Лагранжа: F = W^TS_BW - W^TS_WW, где  -произвольная константа

Эта функция зависит от W

Мы должны найти производную этой функции по вектору :

= 2S_B- 2S_W = 0

= 2A - такое правило существует, его легко доказать

Получаем следующее:

S_BW - S_WW

C() = S_W , отсюда кончательно имеем:

= S_W^-1().

Так как вектор произвольной длины, положим =1, тогда имеем :

= S_W^-1().

Соответственно линейный дискриминант Фишера получается в следующем виде.

y = ^T = X^TW = S_W^-1() - это проекция вектора на ось W

Мы должны выбрать некоторый

порог решения 

Правило решения имеет вид X^TS_W^-1() = 

Матрица S_W = S₁ + S₂  N пропорциональна суммарной матрице ковариации и соответственно для случая нормального распределения исходных данных дискриминант Фишера дает результат такой же, как и байесовская линейная дискриминантная функция:

X^T^-1(M₁ – M₂) + C₁ ...  C₂

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2511 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете Анализ и интерпретация данных

#
08.07.201728.67 Кб5вопросы2017.doc
#
08.07.201769.12 Кб11Задачи.doc
#
08.07.20174.26 Mб42конспект_АИД_полный_2017.doc