Пошаговый дискриминантный анализ.

Мы рассмотрели случай отнесения p-мерного вектора x = ( x₁, ... , x_p )^T к одной из k групп Wi, объекты которых имеют нормальные распределения

i = 1 , .. , k

Поскольку x служит реализацией случайного вектора X = ( X₁, ... , X_p )^T , для разделения k групп мы использовали все переменные X₁, ... , X_p . Однако, на практике часто требуется выявить такое подмножество этих переменных, по которому можно построить “наилучшее” разделение k групп. Для этого в дискриминантном анализе можно воспользоваться F-статистикой, построенной на основе частных корреляций. В дискриминантном анализе F-статистика для отбора переменных основывается на критерии однофакторного дисперсионного анализа. F-статистика назвается F-включения переменных, не вошедших в искомое подмножество и F-исключения, выбранных переменных.

В сущности логика пошагового анализа такова : в начале определяется переменная, для которой средние значения в k группах “наиболее различны”. Для каждой переменной различие измеряется с помощью F- статистики однофакторного дисперсионного анализа и выбирается та переменная, которой соответствует наибольшее значение F. На каждом шаге процедуры рассматривается условной распределение каждой переменной, не включенной в подмножество, при заданных включенных переменных.

Из числа не включенных определяется переменная, для которой средние значения условных распределений в k группах “наиболее различны”. Это различие измеряется с помощью F- статистики однофакторного дисперсионного анализа. Процесс завершается, когда ни одна из оставшихся переменных не вносит значимого вклада в разделение k групп. Пользователь выбирает допустимый минимум F-включения соответствующий максимальному уровню a и минимум F-исключения, причем минимум F-исключения должен быть меньше, чем минимум F-включения.

Рассмотрим пошаговую процедуру более подробно. Пусть x_i1, ... , x_ini - случайная выборка из Wi, i = 1 ,... , k. Тогда используя обозначения и определения предыдущих разделов можно описать пошаговую процедуру следующим образом.

Алгоритм пошагового дискриминантного анализа.

Шаг 0. Для каждой переменной X_j , j = 1 , ... , k , аналогично F-статистики для проверки гипотезы H₀ : m_1j = ... = m_kj в однофакторном дисперсионном анализе вычисляется статистика F-включения с k - 1 и n - k степенями свободы. Если все значения F-включения меньше принятого минимума, то считается, что ни одна переменная не вносит весомого вклада в разделение групп.

Шаг1. Переменная X_j1 , которой соответствует наибольшее значение F-включения, считается первой. Для каждой группы Wi , i = 1 , ... , k , оценивается коэффициент и определяется постоянная линейной дискриминантной функции. Кроме того, вычисляется таблица результатов классификации, U-статистика и ее F-аппроксимация. Вычисляется также значения F-исключения с k - 1 и n - k степенями свободы для переменной X_j1 , которое равно значению F- включения. Затем находится значение F-включения с k - 1 и n - k - 1 степенями свободы для каждой из переменных, не включенных в искомое подмножество. Таким образом, проверяется гипотеза H₀ : m _1
j*j1 = ... = m _k
j_*j1 , где m _i
j*j1 - среднее условного распределения X_j в группе Wi при фиксированном значении X_j1 , i = 1 , ... , k , j = 1 , ... , p , j <>j₁. Если все значения F-включения меньше его минимума, то выполняется шаг S. В противном случае процедура переходит к выполнению второго шага.

Шаг 2. Выбирается переменная X_j2 для которой значение F-включения максимально. Вычисляются оценки двух коэффициентов и постоянные дискриминантных функций для каждой группы Wi , i = 1 , ... , k . Определяется таблица результатов классификации, U-статистика и ее F-аппроксимация. Кроме того, для X_j1,j2 ищутся значения статистик F-исключения с k - 1 и n - k - 1 степенями свободы. Затем для каждой не включенной переменной вычисляется статистика F-включения k - 1 и n - k - 2 степенями свободы. Если все значения F-включения меньше установленного минимума, то выполняется шаг S, в противном случае шаг 3.

Шаг 3. а) Обозначим символом L множество из l переменных, предварительно отобранных для построения процедуры классификации. Если значение F-исключения меньше принятого минимума хотя бы для одной переменной из L , то переменная, для которой это значение минимально, исключается из L и выполняется (b), в котором l заменяется на l - 1. Если теперь некоторые значения F-включения для переменных, не принадлежащих L, больше принятого для этой статистики минимума, то переменная для которой это значение максимально включается в L и l заменяется на l + 1.

b) Для каждой группы Wi , i = 1 , ... , k , оцениваются l коэффициентов дискриминантной функции и вычисляется постоянная. Определяется таблица результатов классификации, U-статистика и ее F-аппроксимация. Кроме того, для каждой переменной из L вычисляется значение F-исключения и соответствующие степени свободы, тем самым проверяется гипотеза H₀ : m _{1
s* ( l - 1 )} = ... = m _k_{s*
( l - 1 )} для каждой переменной X_l из L при фиксированных значениях остальных l - 1 переменных из L. Символом m _{i
s* ( l - 1 )} обозначается среднее условного распределения переменной X _s в Wi при фиксированных значениях остальных переменных в L. И, наконец, вычисляется значения статистики F-включения и соответствующих степеней свободы для каждой переменной не включенной в L. Таким образом, проверяется гипотеза H₀ : m _{1
j* ( l )} = ... = m _k_{j*
( l )} , где m _{i
s* ( l - 1 )} обозначается среднее условного распределения переменной X _j в Wi при фиксированных значениях остальных переменных из L , i = 1 , ... , k , j = 1 , ... , p , X _j не принадлежит L.

Шаги 4 , 5 , ... . Шаг 3 повторяется рекуррентно. Когда F-включения становятся меньше заданного минимума для всех переменных не включенных в L или когда все переменные оказываются включенными в искомое подмножество и значение F-исключения становится меньше заданного минимума, выполняется шаг S.

Шаг S На этом шаге для каждого вектора X _im , m =1 , ... , n_i , i = 1 , ... , k , производится вычисление апостериорных вероятностей его принадлежности к группам W1 , ... , Wk. На основании этих вероятностей каждый объект классифицируется как принадлежащий одной из групп и составляется таблица результатов классификации.

Примечание. Программа дискриминантного анализа представлена в пакете STATISTIKA. которая позволяет реализацию п.1-7 резюме раздела “Классификация в случае групп с многомерными нормальными распределениями”, а также предусматривает возможность выполнения алгоритма пошагового анализа.

<<< < Предыдущая 1 23 / 33

Соседние файлы в папке Дискриминантный анализ

#
01.05.201410.28 Mб46DIALOG_D.DOC
#
01.05.201452.22 Кб46OVERVIEW.DOC
#
01.05.201437.89 Кб43STURTUP.DOC
#
01.05.2014389.12 Кб46THEO_DIS.DOC