Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс Ст ФА ДА.doc
Скачиваний:
8
Добавлен:
17.09.2019
Размер:
2.19 Mб
Скачать

2. Размерность пространства дискриминационных функций q

Можно дать 2 пояснения возможной величине q

А). Первое по-проще – скорее на интуитивном уровне.

Метод КДА образуя новое пространство размерности q задает там некий алгоритм распознавания новых объектов.

Заметим что для определения положения новых координат используются по сути характеристики рассеяния и положения центров классов. Количество центров (точек-центроидов) =количеству классов К.

Отметим что если мы хотим с помощью некоторого количества точек задать положение некоторого пространства, то мерность этого пространства четко связана с минимально необходимым количеством таких точек:

Для задания одномерного пространства – прямой надо 2 точки для двумерного плоскости – 3 точки и т.д. То есть при наличии К точек (центров классов) мерность пространства которое мы можем задать с их помощью q=К-1.

С поправкой на то что если количество классов К больше чем мерность d исходного пространства Х то тогда q негде набрать независимых координат больше чем d, в таком случае q=d

Т.о. q = минимальному из чисел К-1 и d

Б).Для определения решается . В предположении что - невырожденная, то есть существует далее для определения количества ненулевых нам существенен только ранг .

П оскольку яв­ляется суммой К матриц ранга единица или менее

(убедитесь сами – матрицы - есть внешние произведения векторов ( - ) и поскольку только К-1 из них независимые матрицы, - (матрицу последнего класса можно получить имея всю выборку и К-1 матрицу )

То имеет ранг К-1 или меньше.

Так что не более К-1 собственных значений есть не нули и искомые век­торы весовых функций соответствуют этим ненулевым собственным значениям. Что и дает мерность пространства - К-1 (с той же поправкой что и выше q = минимальному из чисел К-1 и d)

Инструменты оптимизации в шаговой процедуре КДА

Отметим определенную общность в методах многомерной шаговой регресии и КДА. В алгоритмах многомерной ШР скомбинированы два механизма – расчет параметров (МНК) и собственно шаговый механизм последовательно определяющий состав структуры модели.

Нечто подобное, 2-этапное наблюдаем и алгоритмах КДА.

Существует процедура расчета параметров оптимального положения осей пространства У при заданой структуре пространства Х –это задача расчета параметров дискриминационных функций, описаная выше.

И существует шаговая процедура (обсуждаем реализацию в SPSS) в рамках которой последовательно усложняется пространство признаков вплоть до некоторого оптимума, задаваемого, по сути, величинами порогов F-критерия (или уровня значимости ) на ввод и на вывод аргумента в ДА.

Задавая предельные пороговые значения Fвв и Fвыв мы можем повлиять на этот процесс и учесть:

особенности задачи дискриминации,

повлиять на структуру дискриминантных функций,

максимизировать распознающие качества искомого классификатора.

Это есть механизм выбора оптимальной структуры пространства Х.

Процедура SPSS предоставляет возможность выбрать один из 5-ти вариантов формирования F-критерия (через “лямбда Уилкса”, раст. Махалонобиса, необъясненную дисперсию, наименьшее F-отношение , Расстояние V Pao)

Как сказано выше выбранная форма F-критерия определит насколько улучшились (при введении нового признака) или ухудшились (при выведении ранее введенного в модель признака ) разделяющие свойства пространства Х

Ниже рассмотрим эти варианты.

Критерии шаговой процедуры ДА (SPSS)

для определения оптимального состава Х

В пакете SPSS для определения оптимального состава Х применяется шаговый алгорим включения-исключения c различными критериями качества разделимости классов в получаемой конфигурации переменных Х.

Вариантов критериев предложено 5:

  1. Критерий отбора переменных “лямбда Уилкса Wilks' lambda

это отношение разброса точек внутри класса от средних в классах (внутригрупповая дисперсия) к общему разбросу точек от общего среднего (общей дисперсии).

Д ля записи формулы критерия определим:

Внутригрупповой расброс характеризует матрица ковариаций

Межгрупповой расброс - матрица :

Матрицу полного расброса можно вычислить как или как

Так как простым скалярным показателем расброса является определитель матрицы расброса то “лямбда Уилкса” определяют как

Отбор переменных в шаговом дискриминантном анализе, для ввода в уравнение осуществляется на основании того, насколько они уменьшают значение "лямбда" Уилкса. На каждом шаге вводится переменная минимизирующая это значение или что то-же - максимизирующая соответствующий F-критерий

Кроме того, SPSS проверяет уже включенные в модель переменные; та из них, которая имеет слишком маленькое значение F исключения, исключается.

F -значение для изменения в лямбде Уилкса при включении переменной в модель, содержащую р независимых переменных, равно:

где

p- текущее значение количества переменных пространства Х

n— общее число наблюдений, К — число групп, — лямбда Уилкса до включения новой переменной,

лямбда Уилкса после включения новой переменной.

  1. Расстояние Махалонобиса Mahalonobis distance .

На каждом шаге вводится переменная, максимизирующая расстояние Махалонобиса между ближайшими групповыми центрами. Расстояние между классами k1 и k2 определяется по формуле:

Или в скалярном виде

  1. Необъясненная дисперсия.

На каждом шаге вводится переменная, минимизирующая

сумму необъясненной изменчивости между группами.

Необъясненная дисперсия между i и j классом понимается как (1-R2ij ) , где R2ij- коэффициент множественной корреляции, когда в качестве зависимой переменной рассматривается переменная, принимающая значения 0 и 1 в зависимости от того, в какую группу,i или j попадает наблюдение.

Включается та переменная, которая минимизирует сумму необъясненных дисперсий

4/ Наименьшее F-отношение Smallest F-ratio . На каждом шаге вводится переменная, максимизирующая наименьшее F-отношение для пар классов (i и j), F-статистика равна:

5/ Расстояние V Pao . Rao's V distance

где р — число переменных в модели,K  число групп,

 nk — объем выборки k-й группы, —среднее x i-й переменной в k-й группе, —среднее x i-й переменной по всем группам,   элемент матрицы, обратной к ковариационной  Чем больше различия между группами, тем больше VРао.

Формирование версии F-критерий происходит подобним способом как в п.1

Выводы по КДА

Еще раз отмечаем, что полученные КДФ непосредственно не решают проблему разделения классов (путаница в терминологии в том что дискриминантные функции переводятся как разделяющие функции)

В результате работы КДА (или “множественного дискриминантного анализа”_ получают уменьшенной размерности новое пространство признаков ( КДФ ), где состав оптимизирован с помощью шаговой процедуры.

Теперь, в уменьшенной размерности пространстве признаков

более точно возможно оцкнить отдельные ковариационные матрицы для каждого класса и использовать допущение (и проверить его) об общем нормальном многомерном распределении, что невозможно было бы (в силу большой размерности ) сделать в исходном пространстве х.

Становятся реальны и эффективны процедуры расчета расстояния Махалонобиса (снижается уровень проблем обращения матрицы ковариаций и получаем наилучший, с точки зрения критерия шаговой процедуры, состав х) для определения принадлежности к классу или вероятности класса для данного объекта х*.

Далее пройтись по методичке (файл описание работы с ДА в SPSS)Возможно расчитать результат КДА при раличных и общей матрице ковариайий при этом простые классифицирующие функции (ПКФ)– остаются без изменений (результаты расчета даются через РМ в КДФ и не совпадут с резудьтатами ПКФ)

Нормальный дискриминантный анализ

И так , на вопрос: как проводим классификацию в каноническом ДА мы знаем ответ – по минимуму меры М, М - мера Махаланобиса в пространстве КДФ У ;. , (1*)

Но когда такая мера является наилучшей? – оказывется только в случае многомерного нормального распределения р(у) в классах ( р(у/к) или рк(у)).

Действительно, мы помним, что именно расстояние М от центра класса стоит в степени МНР рк(у):

(2*)

где - матрица ковариаций КДФ .

Мы вспомним [стр.консп 14 (принцип правдопобия)], что класс объекта х в простейшем случае (при равных априорных вероятностях) определяем исходя из (**)

Далее учитываем что мы имеем не объект х, а у(х) (так как мы перешли в пространство КДФ), затем учтем (2*) и добавим предположение о равенстве ковариационных матриц в классах.

Тогда очевидна что (**) - то же что (1*).

Действительно в названных условиях подставляя (2*) в (**) замечаем что коэффициент при е для всех к – одинаков и для определения следует сравнивать только степени (2*) а там стоит то есть получаем что из (**) следует (1*).

В связи с распространенностью случая нормальности распределения х (или у) в классах представляет серьезный интерес исследование вида границ между классами в таких системах данных.

Эти результаты относят к т.н нормальному ДА, Ниже мы уже не будум останавливатся на проблемах исходной размерности х, считая, что используя КДА мы всегда можем перейти в пространство меньшей размерности у, и там применить механизвм НДА.

Вопросы

Раздедяющие функции и границы классов в нормальном дискриминантном анализе. Геометрическая интерпретация. Вывод простых классифицирующих функций Фишера.

- на самост проработку – Р.Дуда П.Харт. Распознавание образов и анализ сцен. Стр. 36-42