- •Постановка задачи классификации (с учителем)
- •Решение задачи многоклассовой классификации одним классификатором
- •Решение задачи многоклассовой классификации независимыми бинарными классификаторами.
- •I. Обзор методов классификации с учителем
- •2 . Линейное расстояние (манхеттенская мера) тоже выражение что и (п.1) но для общего случая
- •3. Обобщенное степенное расстояние Минковского
- •4. Взвешенное Эвклидово расстояние
- •5. Расстояние Махаланобиса
- •1. Компонентный анализ и 2. Выделение главных компонент
- •1. Компонентный анализ
- •2. Размерность пространства дискриминационных функций q
2. Размерность пространства дискриминационных функций q
Можно дать 2 пояснения возможной величине q
А). Первое по-проще – скорее на интуитивном уровне.
Метод КДА образуя новое пространство размерности q задает там некий алгоритм распознавания новых объектов.
Заметим что для определения положения новых координат используются по сути характеристики рассеяния и положения центров классов. Количество центров (точек-центроидов) =количеству классов К.
Отметим что если мы хотим с помощью некоторого количества точек задать положение некоторого пространства, то мерность этого пространства четко связана с минимально необходимым количеством таких точек:
Для задания одномерного пространства – прямой надо 2 точки для двумерного – плоскости – 3 точки и т.д. То есть при наличии К точек (центров классов) мерность пространства которое мы можем задать с их помощью q=К-1.
С поправкой на то что если количество классов К больше чем мерность d исходного пространства Х то тогда q негде набрать независимых координат больше чем d, в таком случае q=d
Т.о. q = минимальному из чисел К-1 и d
Б).Для определения решается . В предположении что - невырожденная, то есть существует далее для определения количества ненулевых нам существенен только ранг .
П оскольку является суммой К матриц ранга единица или менее
(убедитесь сами – матрицы - есть внешние произведения векторов ( - ) и поскольку только К-1 из них независимые матрицы, - (матрицу последнего класса можно получить имея всю выборку и К-1 матрицу )
То имеет ранг К-1 или меньше.
Так что не более К-1 собственных значений есть не нули и искомые векторы весовых функций соответствуют этим ненулевым собственным значениям. Что и дает мерность пространства - К-1 (с той же поправкой что и выше q = минимальному из чисел К-1 и d)
Инструменты оптимизации в шаговой процедуре КДА
Отметим определенную общность в методах многомерной шаговой регресии и КДА. В алгоритмах многомерной ШР скомбинированы два механизма – расчет параметров (МНК) и собственно шаговый механизм последовательно определяющий состав структуры модели.
Нечто подобное, 2-этапное наблюдаем и алгоритмах КДА.
Существует процедура расчета параметров оптимального положения осей пространства У при заданой структуре пространства Х –это задача расчета параметров дискриминационных функций, описаная выше.
И существует шаговая процедура (обсуждаем реализацию в SPSS) в рамках которой последовательно усложняется пространство признаков вплоть до некоторого оптимума, задаваемого, по сути, величинами порогов F-критерия (или уровня значимости ) на ввод и на вывод аргумента в ДА.
Задавая предельные пороговые значения Fвв и Fвыв мы можем повлиять на этот процесс и учесть:
особенности задачи дискриминации,
повлиять на структуру дискриминантных функций,
максимизировать распознающие качества искомого классификатора.
Это есть механизм выбора оптимальной структуры пространства Х.
Процедура SPSS предоставляет возможность выбрать один из 5-ти вариантов формирования F-критерия (через “лямбда” Уилкса”, раст. Махалонобиса, необъясненную дисперсию, наименьшее F-отношение , Расстояние V Pao)
Как сказано выше выбранная форма F-критерия определит насколько улучшились (при введении нового признака) или ухудшились (при выведении ранее введенного в модель признака ) разделяющие свойства пространства Х
Ниже рассмотрим эти варианты.
Критерии шаговой процедуры ДА (SPSS)
для определения оптимального состава Х
В пакете SPSS для определения оптимального состава Х применяется шаговый алгорим включения-исключения c различными критериями качества разделимости классов в получаемой конфигурации переменных Х.
Вариантов критериев предложено 5:
Критерий отбора переменных “лямбда” Уилкса Wilks' lambda
это отношение разброса точек внутри класса от средних в классах (внутригрупповая дисперсия) к общему разбросу точек от общего среднего (общей дисперсии).
Д ля записи формулы критерия определим:
Внутригрупповой расброс характеризует матрица ковариаций
Межгрупповой расброс - матрица :
Матрицу полного расброса можно вычислить как или как
Так как простым скалярным показателем расброса является определитель матрицы расброса то “лямбда” Уилкса” определяют как
Отбор переменных в шаговом дискриминантном анализе, для ввода в уравнение осуществляется на основании того, насколько они уменьшают значение "лямбда" Уилкса. На каждом шаге вводится переменная минимизирующая это значение или что то-же - максимизирующая соответствующий F-критерий
Кроме того, SPSS проверяет уже включенные в модель переменные; та из них, которая имеет слишком маленькое значение F исключения, исключается.
F -значение для изменения в лямбде Уилкса при включении переменной в модель, содержащую р независимых переменных, равно:
где
p- текущее значение количества переменных пространства Х
n— общее число наблюдений, К — число групп, — лямбда Уилкса до включения новой переменной,
—лямбда Уилкса после включения новой переменной.
Расстояние Махалонобиса Mahalonobis distance .
На каждом шаге вводится переменная, максимизирующая расстояние Махалонобиса между ближайшими групповыми центрами. Расстояние между классами k1 и k2 определяется по формуле:
Или в скалярном виде
Необъясненная дисперсия.
На каждом шаге вводится переменная, минимизирующая
сумму необъясненной изменчивости между группами.
Необъясненная дисперсия между i и j классом понимается как (1-R2ij ) , где R2ij- коэффициент множественной корреляции, когда в качестве зависимой переменной рассматривается переменная, принимающая значения 0 и 1 в зависимости от того, в какую группу,i или j попадает наблюдение.
Включается та переменная, которая минимизирует сумму необъясненных дисперсий
4/ Наименьшее F-отношение Smallest F-ratio . На каждом шаге вводится переменная, максимизирующая наименьшее F-отношение для пар классов (i и j), F-статистика равна:
5/ Расстояние V Pao . Rao's V distance
где р — число переменных в модели,K — число групп,
nk — объем выборки k-й группы, —среднее x i-й переменной в k-й группе, —среднее x i-й переменной по всем группам, — элемент матрицы, обратной к ковариационной Чем больше различия между группами, тем больше VРао.
Формирование версии F-критерий происходит подобним способом как в п.1
Выводы по КДА
Еще раз отмечаем, что полученные КДФ непосредственно не решают проблему разделения классов (путаница в терминологии в том что дискриминантные функции переводятся как разделяющие функции)
В результате работы КДА (или “множественного дискриминантного анализа”_ получают уменьшенной размерности новое пространство признаков ( КДФ ), где состав оптимизирован с помощью шаговой процедуры.
Теперь, в уменьшенной размерности пространстве признаков
более точно возможно оцкнить отдельные ковариационные матрицы для каждого класса и использовать допущение (и проверить его) об общем нормальном многомерном распределении, что невозможно было бы (в силу большой размерности ) сделать в исходном пространстве х.
Становятся реальны и эффективны процедуры расчета расстояния Махалонобиса (снижается уровень проблем обращения матрицы ковариаций и получаем наилучший, с точки зрения критерия шаговой процедуры, состав х) для определения принадлежности к классу или вероятности класса для данного объекта х*.
Далее пройтись по методичке (файл описание работы с ДА в SPSS)Возможно расчитать результат КДА при раличных и общей матрице ковариайий при этом простые классифицирующие функции (ПКФ)– остаются без изменений (результаты расчета даются через РМ в КДФ и не совпадут с резудьтатами ПКФ)
Нормальный дискриминантный анализ
И так , на вопрос: как проводим классификацию в каноническом ДА мы знаем ответ – по минимуму меры М, М - мера Махаланобиса в пространстве КДФ У ;. , (1*)
Но когда такая мера является наилучшей? – оказывется только в случае многомерного нормального распределения р(у) в классах ( р(у/к) или рк(у)).
Действительно, мы помним, что именно расстояние М от центра класса стоит в степени МНР рк(у):
(2*)
где - матрица ковариаций КДФ .
Мы вспомним [стр.консп 14 (принцип правдопобия)], что класс объекта х в простейшем случае (при равных априорных вероятностях) определяем исходя из (**)
Далее учитываем что мы имеем не объект х, а у(х) (так как мы перешли в пространство КДФ), затем учтем (2*) и добавим предположение о равенстве ковариационных матриц в классах.
Тогда очевидна что (**) - то же что (1*).
Действительно в названных условиях подставляя (2*) в (**) замечаем что коэффициент при е для всех к – одинаков и для определения следует сравнивать только степени (2*) а там стоит то есть получаем что из (**) следует (1*).
В связи с распространенностью случая нормальности распределения х (или у) в классах представляет серьезный интерес исследование вида границ между классами в таких системах данных.
Эти результаты относят к т.н нормальному ДА, Ниже мы уже не будум останавливатся на проблемах исходной размерности х, считая, что используя КДА мы всегда можем перейти в пространство меньшей размерности у, и там применить механизвм НДА.
Вопросы
Раздедяющие функции и границы классов в нормальном дискриминантном анализе. Геометрическая интерпретация. Вывод простых классифицирующих функций Фишера.
- на самост проработку – Р.Дуда П.Харт. Распознавание образов и анализ сцен. Стр. 36-42