- •Постановка задачи классификации (с учителем)
- •Решение задачи многоклассовой классификации одним классификатором
- •Решение задачи многоклассовой классификации независимыми бинарными классификаторами.
- •I. Обзор методов классификации с учителем
- •2 . Линейное расстояние (манхеттенская мера) тоже выражение что и (п.1) но для общего случая
- •3. Обобщенное степенное расстояние Минковского
- •4. Взвешенное Эвклидово расстояние
- •5. Расстояние Махаланобиса
- •1. Компонентный анализ и 2. Выделение главных компонент
- •1. Компонентный анализ
- •2. Размерность пространства дискриминационных функций q
1. Компонентный анализ и 2. Выделение главных компонент
1. Компонентный анализ
Задача следующая: Имеется пространство в котором задана выборки (единый элипс рассеяния).Необходимо найти новые взаимно ортогональные оси так, чтобы дисперсии проекций точек на были максимальны:
- вдоль первой надо получать максим. по сумме расброса точек
- – д.б. ортогональна и при этом иметь вдоль себя также проекции с макс. расбросом и т.д. до с
Вспомним варианты расположения эллипса рассеяния в координатах
На рис 1 - круг рассеяния – х-ы независимы и дисперсии по каждой оси одинаковы – на какую новую ось не проектируй – получишь те же шарики – вид сбоку.
На рис 2. х-ы независимы, то есть матрица ковариаций диагональная . Оси эллипса рассеяния расположены паралельно осям координат - поэтому в данном случае мы имеем уже решенную задачу КА – так как оси рассеяния элипса паралельны осям координат х и удовлетворяют условиям задачи КА
Теперь нам понятна задача КА–
Когда имеем общий случай элипса рассеяния в Х – рис 3 и матрица ковариаций недиагональна то нашей целью есть получить новые координаты в У
такие чтобы все выглядело в них как на рис 2.
То есть сначила найти ось у1 по макс. расброса рис 4 Затем ортоганальную ей у2 по макс расброса рис 5. и так далее с тем чтобы получить в новых координатах у рис 5 положение элипса рассеяния так как оно расположено в старых координатах х на рис. 2
Каким образом решать такую задачу.
Запишем - сумму ср. квадр отклонений точек на оси : Если выразим что то если обознач
, и , то есть это -тая строка матрицы , то в вект. виде получим
или где -ковариационная матрица переменных х
(вспомним о золотой матрице ковариаций – центрированной ХTХ)
Для однозначности нахождения наилучшего и соответствующего уравнения прямой проекции вводят условия нормировки и нам надо найти решение
Справа мы имеем квадратичную форму и можно было бы- как нам привычно (МНК)– взять производную по составляющим вектора и решать соответствующую систему для его определения.
Однако
Так мы найдем только первую главную компоненту. – ту вдоль которой имеется наибольший расброс точек в Х - рис. 4. Но нам надо найти и другие компоненты –
А вторая компонента , будучи ортогональна первой должна иметь направление при этом вдоль максимального расброса в оставшихся направлениях пространства
Для того чтобы решить эту задачу надо вычислить остатки и для них , как ранее на х-ах, построить матрицу ковариаций и снова решить задачу макс. уже при условии нормировки и ортоганальности (*)
Задача посложнее – доп операции по вычислению остатков и
учет дополнительного ограничения (*)
Далее – для третьей оси - снова вычисление остатков и новая поцедура поиска уже вектора . В целом имеем серию процедур последовательной максимизации - на дисперсии остатков от процедуры N =( ) при условии н нормировки и учета условия ортогональности векторов
Все это не очень технологично.
Роль спектральной теоремы в решении задачи компонентного анализа
Но оказывается задачу КА
поиска наибольших дисперсий по взаимно ортогональным направлениям возможно решить в терминах собственных значений и собственных векторов матрицы ковариаций . Вернее более правильно так ------
– известно (из лин алгебры) что для любой положительно определенной матрицы существует преобразование ее в диагональную матрицу : (**) причем ее диагональные элементы есть - собственные числа матрицы , а - матрица ее собственных ее векторов
Выражение (**) называют спектральной теоремой или спектральным разложением матрицы
Если в качестве мы возьмем матрицу ковариаций , то -будут одновременно и СбствЧ и наилучшие дисперсии на осях пространства пространства (на рис 5) из переменных , где - строки матрицы собств. векторов , а в силу того что они налучшие дисперсии, удовлетворяют
Тогда можно применить известный для нас механизм нахождения СЧ и СВ
(вставка о сб.ч. и сб.в.)
1.решаем – это условие нахождения собственных чисел и находим ( это одновременно наши наилучшие дисперсии)
2.затем в условие для собственного вектора (*)
подставляем получая (**)
Решая последовательно (**) для каждого находим все вектора которые есть и направляющие линий проекции
Однако приведенные чисто алгебраические методы поиска и тоже не очень технологичны – например при 10-м порядке матрицы для получения надо решать уравнение десятой степени и находить 10 его корней и тд.
Поэтому для нахожднния и применяют другой приближенный, но достаточно изящный подход
Посмотрите на рис 3 У данного элипса рассеяния недиагональная матрици ковариаций
Если мы найдем целесообразный метод вращения координат то в результате найдутся новые положения осей как на рис 5 что в них элипс будет стоять уже как на рис 2 а значит в преобразованных координатах будем иметь диагональную ков. матрицу , где по диагонали стоят искомые дисперсии (собств. числа ) а итоговая матрица преобразования в будет искомой матрицей собственных векторов и одновременно направляющими линий проекции . Для вращения применяется метод Якоби.
Напомним что рассмотренный выше этап МГК где находятся эти новых компоненты называется компонентным анализом -КА
2. Этап МГК – выделение главных компонент
Построение главных компонент … реализуется так, что полученные и соответственно были упорядочены на диагонали по величине, поэтому нам интересны именно первые несколько - наиболее концентрировавшие в себе дисперсию данных.
Именно они называются главными компонентами и именно их число используют в дальнейшем для анализа.
Число главных компонент q
Наиболее распространенных критерия выбора числа ГК – 2 .
1 .Критерий Кайзера (Kaiser, 1960) Основан на учете того, что процедуры преобразования проводятся не с ковариционной а с корелляционной матрицей – где по диагонили (дисперсии) стоят 1.
Т аким образом в преобразованной матрице , где на диагонали тоже будут стоять дисперсии – их величина отражает относительное перераспределение
дисперсий - от ряда дисперсий 1 1 1 1 1 1 к кряду допустим 4 1 0.5 0.2 0.1 0.1
По данному критерию считается достаточным выбрать число компонент с величиной . Здесь это 2 компоненты.
2 . Другой распространенный критерий – критерий Кэттеля (Cattell,1966) или критерий каменистой оссыпи. Строят зависимость :
по оси у- величина по оси х – номер компон. .
Количество компонент выбирается на том месте оси номеров компонент где излом графика наиболее резко переходит к основной затихающей тенднции :
Здесь число главных компонент - 4
Таким образом определяется целесообразная размерность нового сокращенного ортогонального пространства признаков.
Еще раз зачем нужен МГК. – Это метод целесообразного сокращения количества координат пространства. Вместо исходного d мерного в рассмотрение берется небольшое количество новых координат с наибольшими , в которых сконцентрирована и отражается львиная часть исходной дисперсии Х-ов. .
То есть будем оперировать в дальнешем только ГК вытеснив незначимые компоненты и, игнорируя по сути, шумовые составляющие Х.
Оценка эффективности процедуры МГК
– Эффективность МГК покажет насколько точно с помощью новых компонент представлены старые d штук х. Это возможно расчитать , записав обратные зависимости – переменных х от главных компонент у.
Ниже будем называть полученные новые переменные уже не компонентами Y (как выше в компонентном анализе - ) а факторами F как это принято в ФА.
Xi=Ai1F1+Ai2F2+...+AiqFq+Ui, (*)
В матричном виде X=AF+U,
Где F называют матрицей счетов, А-матрицей факторных нагрузок, F1…..Fq - общими факторами а Ui- характерными факторами.
Ui по построению (как остатки) предполагаются некоррелированными друг с другом и с общими факторами.
Построив систему (*) оценивают
процент общности определенный общими факторами и
остаток - процент шума вносимый характерными факторами
Внимание
Здесь заканчивается МГК. – далее другие процедуры ФА
Процедуры вращения в ФА (
Дальнешие процедуры ФА отказываются от конструкции факторов как концентрирующих максимум исходной дисперсии признаков и применяют механизм их линейной деформации (вращения) так, что-бы исходные Х сгруппировались (по возможности) в “группы по интересам” – факторам.
Цель – найти положение факторов так что-бы все максимально компактно разделились на “группы влияния” - (условно -подмножества ) в каждом из которых какие-то входят в “свой” фактор . с большими нагрузками , а остальные (не входящие в подмножество фактора ) в данный фактор входят с малыми нагрузками .
Визуальное выделение групп переменных и интерпретация факторов.
Группы переменных разделились по факторам как только мы определилисть с количеством факторов, получили систему (*) и произвели какую-то версию их вращения.
Но для того чтобы увидеть эти группы факторов надо проанализировать величины факторных нагрузок в каждой из исходных переменных.
Факторные нагрузки являются инструментом для предметной интерпретации факторов. Увидеть группировки х-ов можно на графике в постранстве нагрузок факторов.
В постранстве нагрузок факторов (если их 2) изображаются переменные х точкой (вектором) и видно как группы “по интересам” ”прижимаются” к соответствующим осям факторов (на рисунке-компонент), большая нагрузка - большая кореляция с данным фактором).
При выделении более 2-х факторов увидеть сформировавшиеся группы переменных можно из таблицы нагрузок факторов – в SSPS название таблиц – Component Matrix (Матрица компонент) после поворота фактoров – Rotated Component Matrix (Матрица повернутых компонент).
Затем надо попытаться обобщить предметный смысл каждой такой выделенной группы переменных и на основе этого сформулировать предметный смысл соответствующего фактора
Критерии целесообразностии ФА
Ну и последнее. Все описанные процедуры ФА целесообразны, если признаки Х достаточно сильно кореллированы. Тогда эфективна задача МГК - можно перераспределить дисперсии х в несколько ГФ - главных факторов,
А вращение факторов поможет найти такое их положение, что каждый из факторов будет зависеть в основном только от выделившейся группы кореллированных переменных х.
Однако если исходные х-ы слабо кореллированы, то “не тратьте куме сили” – их перераспределять, а пуще того, вращать – бессмысленно, – исходные х-ы уже практически факторы, -“ вже маэмо, що маэмо”.
Для оценки ситуации стоит или не стоит провадить ФА оценивают матрицы корреляций х, то есть оценивают - какая присутствует степень связанности исходного пространства в Х. Наиболее показательны следующие критерии -
критерий сферичности Бартлетта-Уилкса и критерий адекватности выборки Кайзера.
1. Критерий сферичности Бартлетта-Уилкса
где n – объем выборки, m – число переменных, ln – натуральный логарифм, |R| - определитель матрицы корреляций, cтепень свободы
С помощью критерия проверяется гипотеза о том что корр. матрица есть единичной матрицой то есть , в которой все элементы главной диагонали равны 1, а все остальные – нулю – то есть нет парных корреляций.
Ориентируются при этом на величину коэффициента сферичности и уровня значимости . Если этот коэффициент достаточно велик, а соответствующий ему уровень значимости мал (p< 0.05 ), то это свидетельствует о надежном отличии корреляционной матрицы от единичной. При высоком уровне значимости - ставится под вопрос адекватность использования ФА с имеющимися данными.
Однако возможных причин неэффективности ФА больше:
Малое количество х, замусоренность пространства х практически идентичными переменными, включенность в состав Х посторонних, некоррелированних переменных и тд. Все это в целом позволяет оценить
2.! Мера адекватности выборки Кайзера-Мейера-Олкина (КМО)
Статистика теста определяет отношение общей дисперсией, (т.е. дисперсии которая определена общими факторами) к полной дисперии данных. Критерий оценивает насколько парная корреляция исходных переменных х может быть объяснена факторами
Т.о. критерий оценивает адекватность факторной модели набору переменных, составившему данную корреляционную матрицу – стоит ли делать факторный анализ с этими данными.
Значения КМО по 6-бальной шкале оценивают следующим образом:
0.9-"отличные",0.8 -"хорошие",0.7-"средние",0.6-"посредственные" , 0.5 -"плохие", а ниже 0.5 - неприемлемые".
Для оценки вклада в “неединичность” корреляционной матрицы каждой переменной х в отдельности используют меру выборочной адекватности ( коэффициент MSA в системе SPSS- это индивидуальный КМО для каждой переменной). Бальные характеристики Кайзера справедливы для оценки и этих величин тоже. Оценки по MSA каждой переменной позволяют исключить из расчетов одну или несколько переменных, и тем самым повысить результативность ФА.
Выводы по ФА
Аппарат ФА - достаточно субъективен (за что его и критикуют) . Вращение чаще применяют ортогональное (в SPSS-“варимакс”)
- полученные Главные Компоненты вращают, оставляя их при этом взаимно ортогональными
и косоугольное, допуская их не ортогональность – лишь бы полученные факторы были тесно кореллированы с образуемой “группой влияния” Х-ов,
Общий принцип – лишь бы попасть на красивую интерпретацию факторов как латентной причины группы “по интересам” следствий – х-ов.
Однако плюсы ФА перевешивают минусы – симбиоз грамотного предметного специалиста и математического аппарата ФА часто попадает в цель и получают очень красиво интерпретируемые результаты внутренней структуры изучаемого явления.
Из-за недостатка времени и указаной субъективности аппарата вращения мы не будем подробно останавливатся на всех разновидностях механизма образования факторов – с ними коротко можно познакомится в самоучителе по ssps, а мы прогоним на практике через ФА в ssps, наши данные и посмотрим результаты группировки переменных в факторы.
Резюме – инструмент ФА – это инструмент выявления скрытых латентных причин (факторов F) каждый из которых должен наилучшим образом объяснять нам изменения, вариации в переменных (следствиях, признаках) х в корреллированных “по интересам” группах х-ов
Канонический ДА
Общее и различия в постановке и принципе решения задач КДА и ФА
В КДА также как в МГК ищутся некоторое количество ортогональных осей на которых с точки зрения эффективности разделения подмножеств Х1,…,ХК точек множества , , Х1= j=1,n1 …ХК= j=1,nк положение проекций этих точек оптимально.
З адача таким образом аналогично в МГК сводится к некоторому условию
решение которого определит нам и качество критериев и положение осей
А механизм получения такого решения нам уже знаком – вращение осей исходного пространства Х до тех пор пока вместо положительно определенной матрицы не получим диаг. матрицу .
На ее диагонали - нужные нам , а итоговая матрица преобразования есть матрица собств. векторов и одновременно направляющие осей .
Есть и особенности задачи КДА относительно задачи МГК.
1. Как определить критерий качества проекций точек х и соответствующую им матрицу отношения дисперсий .
– то есть, вид критерия , характеризующего эффективность положения прямых проекции с точки зрения разделимости классов, а также соответствующую им матрицу для которой -есть характеристич. числа, а собственные вектора которой будут направляющими линий проекции
2. Возможное количество этих линий проекции q - то есть размерность пространства дискриминационных функций
3.Критерии шаговой процедуры ДА для определения оптимального состава Х
4. Характеристики качества разделенности классов отд. приложение – методичка к SPSS
Рассмотрим последовательно эти особенности.
Определение критерия качества проекций в КДА и механизма расчета направляющих осей пространства дискриминантных функций.
1. Критерии качества проекций точек х на оси и соответствующая им матрица отношения дисперсий .
Определим интересующий нас показатель;
1. Если вектор определен как строка матрицы то есть и -к-тый центроид в Х, то матрица разброса (ковариаций) внутри к-того класса
Матрица суммарного внутриклассового расброса
Напомним для дальнейшего, что ранг каждой матрицы образованной как внешнее произведение векторов (типа ВВТ )- не более 1. Докажите это.
Пример – = (*) и видим, что если вторую строку умножим на то получим первую строку. Т.о ранг (*) не более 1. и тд
Поскольку ранг каждой из не более единицы, и поскольку только К-1 из них – линейно независимы - (имея центры и к-1 матрицу данных … возможно ввостановить . Покажите это) то ранг матрицы суммарного внутриклассового расброса не более К-1
2 . Определим полный вектор средних значений в Х - m и полную матрицу разброса : и Тогда
Т ак как известно что полный разброс есть сумма разброса внутри класса и разброса между классами то
Тогда естественно определить второй член в (*) как - матрицу разброса между классами, :
Как и выше очевидно что ранг матрицы как и тоже не более чем К-1.
Как будет показано немного ниже из этого следует что максимальная размерность пространства проекции из Хd в Уq будет не более чем К-1
То есть
Проекция из d-мерного пространства в (К-1)-мерное пространство осуществляется с помощью К-1 разделяющих функций
i=1, . . . , К-1 (88)
Если считать составляющими вектора , а векторы весовых функций столбцами матрицы размера d*(К-1), то проекцию можно записать в виде одного матричного уравнения
. (89)
Выборки x1, . . ., хn проецируются на соответствующее множество выборок y1, . . ., yn которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы определяем
и
и
то можно непосредственно получить
(**)
Определим теперь интересующий нас показатель разделимости классов как отношение дисперсии межгрупповой к дисперсии внутригрупповой
(1) - Известно как частное Релея
на интересующих нас новых координатах
О чевидно что это
хороший показатель
- чем он выше тем лучше
разделяющие свойства данной линии у:
чем>числитель тем дальше центры друг от друга, чем< знаменатель тем более компактны группы.
Уравнения (**) показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в пространство меньшей размерности.
Мы ищем матрицу отображения ,которая максимизирует
отношение разброса между классами к / разбросу внутри класса.
Простым скалярным показателем разброса является определитель матрицы разброса.
Определитель есть произведение собственных значений, а следовательно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса.
Пользуясь этим показателем, получим функцию критерия
(2)
Задача нахождения прямоугольной матрицы , которая максимизирует по (1) или (2) – известное как частное Релея, сводится к нахождению обобщенных собственных векторов, соответствующим наибольшим собственным значениям в
(**)
Несколько замечаний относительно этого решения.
Во-первых, если — невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собственного значения. То есть образуем из (**) или
То есть можем стандартно искать и как СобствЧисла и СобВек матрицы . Так мы можем решить задачу.
Однако в действительности так решать нежелательно, так как при этом потребуется ненужное вычисление матрицы . Вместо этого можно найти собственные значения как корни характеристического полинома (обобщенная задача определения СЗ)
,
обобщенная задача определения СЗ, а затем решить
непосредственно для собственных векторов vi. Как решать далее дело вкуса в том числе можно
применить итерационный алгоритм вращения осей (метод Якоби)
получим как и прежде в ФА диагон. матрицу
собственных значений матрицы и соответстующую ей матрицу преобразований (собственных векторов)