Скачиваний:
46
Добавлен:
01.05.2014
Размер:
389.12 Кб
Скачать

Пошаговый дискриминантный анализ.

Мы рассмотрели случай отнесения p-мерного вектора x = ( x1, ... , xp ) T к одной из k групп Wi, объекты которых имеют нормальные распределения

i = 1 , .. , k

Поскольку x служит реализацией случайного вектора X = ( X1, ... , Xp ) T , для разделения k групп мы использовали все переменные X1, ... , Xp . Однако, на практике часто требуется выявить такое подмножество этих переменных, по которому можно построить “наилучшее” разделение k групп. Для этого в дискриминантном анализе можно воспользоваться F-статистикой, построенной на основе частных корреляций. В дискриминантном анализе F-статистика для отбора переменных основывается на критерии однофакторного дисперсионного анализа. F-статистика назвается F-включения переменных, не вошедших в искомое подмножество и F-исключения, выбранных переменных.

В сущности логика пошагового анализа такова : в начале определяется переменная, для которой средние значения в k группах “наиболее различны”. Для каждой переменной различие измеряется с помощью F- статистики однофакторного дисперсионного анализа и выбирается та переменная, которой соответствует наибольшее значение F. На каждом шаге процедуры рассматривается условной распределение каждой переменной, не включенной в подмножество, при заданных включенных переменных.

Из числа не включенных определяется переменная, для которой средние значения условных распределений в k группах “наиболее различны”. Это различие измеряется с помощью F- статистики однофакторного дисперсионного анализа. Процесс завершается, когда ни одна из оставшихся переменных не вносит значимого вклада в разделение k групп. Пользователь выбирает допустимый минимум F-включения соответствующий максимальному уровню a и минимум F-исключения, причем минимум F-исключения должен быть меньше, чем минимум F-включения.

Рассмотрим пошаговую процедуру более подробно. Пусть xi1, ... , xini - случайная выборка из Wi, i = 1 ,... , k. Тогда используя обозначения и определения предыдущих разделов можно описать пошаговую процедуру следующим образом.

Алгоритм пошагового дискриминантного анализа.

Шаг 0. Для каждой переменной Xj , j = 1 , ... , k , аналогично F-статистики для проверки гипотезы H0 : m1j = ... = mkj в однофакторном дисперсионном анализе вычисляется статистика F-включения с k - 1 и n - k степенями свободы. Если все значения F-включения меньше принятого минимума, то считается, что ни одна переменная не вносит весомого вклада в разделение групп.

Шаг1. Переменная Xj1 , которой соответствует наибольшее значение F-включения, считается первой. Для каждой группы Wi , i = 1 , ... , k , оценивается коэффициент и определяется постоянная линейной дискриминантной функции. Кроме того, вычисляется таблица результатов классификации, U-статистика и ее F-аппроксимация. Вычисляется также значения F-исключения с k - 1 и n - k степенями свободы для переменной Xj1 , которое равно значению F- включения. Затем находится значение F-включения с k - 1 и n - k - 1 степенями свободы для каждой из переменных, не включенных в искомое подмножество. Таким образом, проверяется гипотеза H0 : m 1 j*j1 = ... = m k j*j1 , где m i j*j1 - среднее условного распределения Xj в группе Wi при фиксированном значении Xj1 , i = 1 , ... , k , j = 1 , ... , p , j <>j1. Если все значения F-включения меньше его минимума, то выполняется шаг S. В противном случае процедура переходит к выполнению второго шага.

Шаг 2. Выбирается переменная Xj2 для которой значение F-включения максимально. Вычисляются оценки двух коэффициентов и постоянные дискриминантных функций для каждой группы Wi , i = 1 , ... , k . Определяется таблица результатов классификации, U-статистика и ее F-аппроксимация. Кроме того, для Xj1,j2 ищутся значения статистик F-исключения с k - 1 и n - k - 1 степенями свободы. Затем для каждой не включенной переменной вычисляется статистика F-включения k - 1 и n - k - 2 степенями свободы. Если все значения F-включения меньше установленного минимума, то выполняется шаг S, в противном случае шаг 3.

Шаг 3. а) Обозначим символом L множество из l переменных, предварительно отобранных для построения процедуры классификации. Если значение F-исключения меньше принятого минимума хотя бы для одной переменной из L , то переменная, для которой это значение минимально, исключается из L и выполняется (b), в котором l заменяется на l - 1. Если теперь некоторые значения F-включения для переменных, не принадлежащих L, больше принятого для этой статистики минимума, то переменная для которой это значение максимально включается в L и l заменяется на l + 1.

b) Для каждой группы Wi , i = 1 , ... , k , оцениваются l коэффициентов дискриминантной функции и вычисляется постоянная. Определяется таблица результатов классификации, U-статистика и ее F-аппроксимация. Кроме того, для каждой переменной из L вычисляется значение F-исключения и соответствующие степени свободы, тем самым проверяется гипотеза H0 : m 1 s* ( l - 1 ) = ... = m k s* ( l - 1 ) для каждой переменной Xl из L при фиксированных значениях остальных l - 1 переменных из L. Символом m i s* ( l - 1 ) обозначается среднее условного распределения переменной X s в Wi при фиксированных значениях остальных переменных в L. И, наконец, вычисляется значения статистики F-включения и соответствующих степеней свободы для каждой переменной не включенной в L. Таким образом, проверяется гипотеза H0 : m 1 j* ( l ) = ... = m k j* ( l ) , где m i s* ( l - 1 ) обозначается среднее условного распределения переменной X j в Wi при фиксированных значениях остальных переменных из L , i = 1 , ... , k , j = 1 , ... , p , X j не принадлежит L.

Шаги 4 , 5 , ... . Шаг 3 повторяется рекуррентно. Когда F-включения становятся меньше заданного минимума для всех переменных не включенных в L или когда все переменные оказываются включенными в искомое подмножество и значение F-исключения становится меньше заданного минимума, выполняется шаг S.

Шаг S На этом шаге для каждого вектора X im , m =1 , ... , ni , i = 1 , ... , k , производится вычисление апостериорных вероятностей его принадлежности к группам W1 , ... , Wk. На основании этих вероятностей каждый объект классифицируется как принадлежащий одной из групп и составляется таблица результатов классификации.

Примечание. Программа дискриминантного анализа представлена в пакете STATISTIKA. которая позволяет реализацию п.1-7 резюме раздела “Классификация в случае групп с многомерными нормальными распределениями”, а также предусматривает возможность выполнения алгоритма пошагового анализа.

Соседние файлы в папке Дискриминантный анализ