Скачиваний:
110
Добавлен:
01.05.2014
Размер:
10.78 Mб
Скачать

6.8.3.Критерии рассеяния

6.8.3.1. Матрицы рассеяния

Другой интересный класс функций критериев можно получить из матриц рассеяния, используемых в множественном дискриминантном анализе. Следующие определения непосредственно выте­кают из определений, данных в разд. 4.11.

Средний векторi-й группы

Общий средний вектор

Матрица рассеяния дляi-й группы

Матрица рассеяния внутри группы

Матрица рассеяния между группами

Общая матрица рассеяния

Как и раньше, из этих определений следует, что общая матрица рассеяния представляет собой сумму матрицы рассеяния внутри группы и матрицы рассеяния между группами:

Отметим, что общая матрица рассеяния не зависит от того, как множество выборок разделено на группы. Она зависит только от общего множества выборок. Матрицы рассеяния, внутригрупповые и межгрупповые, все же зависят от разделения. Грубо говоря, существует взаимный обмен между этими двумя матрицами, при этом межгрупповое рассеяние увеличивается, если внутригрупповое уменьшается. Это удобно, потому что, минимизируя внутригрупповую матрицу, мы максимизируем межгрупповую.

Чтобы более точно говорить о степени внутригруппового и меж­группового рассеяния, нам нужно ввести скалярную меру матрицы рассеяния. Рассмотрим две меры — след и определитель. В случае одной переменной эти величины эквивалентны, и мы можем опреде­лить оптимальное разделение как такое, которое минимизирует SW или максимизирует ST. В случае многих переменных возникают сложности, и было предложено несколько критериев оптимально­сти.

6.8.3.2. След в качестве критерия

Самой простой скалярной мерой матрицы рассеяния является ее след—сумма ее диагональных элементов. Грубо говоря, след измеряет квадрат радиуса рассеяния, так как он пропорционален сумме дисперсий по направлениям координат. Таким образом, очевидной функцией критерия для минимизации является след SW. В действительности это не что иное, как критерий в виде суммы квадратов ошибок, поскольку из (33) и (34) следует

Так какtrST =trSW +trSB и trST не зависит от разделения вы­борок, мы не получаем никаких новых результатов при попытке максимизировать trSB. Однако нас должно утешать то, что при попытке минимизировать внутригрупповой критерий Je=trSB мы максимизируем межгрупповой критерий

6.8.3.3. Определитель в качестве критерия

В разд. 4.11 мы использовали определитель матрицы рассеяния для получения скалярной меры рассеяния. Грубо говоря, он измеряет квадрат величины рассеяния, поскольку пропорционален произведению дисперсий в направлении главных осей. Так как SB будет вырожденной матрицей, если число групп меньше или равно размерности, то | SB | — явно плохой выбор для функции критерия. Матрица SW - может быть вырожденной и непременно будет таковой в случае, если n - с меньше, чем размерность d6. Однако, если мы предполагаем, что SW невырожденна, то приходим к функции критерия

Разделение, которое минимизируетJd, обычно подобно разделению, которое минимизирует Je, но они не обязательно одинаковы. Мы заметили ранее, что разделение, которое минимизирует квадратичную ошибку, может изменяться, если изменяется масштаб по осям. Этого не происходит с Jd. Чтобы выяснить, почему это так, рассмотрим невырожденную матрицу Т и преобразование переменных х'=Tх. Считая разделение постоянным, мы получаем новые средние векторы m'i=Tmi, и новые матрицы рассеяния S'i=TSiТt. Таким образом, Jd а изменяется на

Из того, что масштабный множитель |Т|2 - одинаков для всех разделений, следует, что Jd и J'd дают одно и то же разделение, и, значит, оптимальная группировка, основанная на Jd, инвариантна относительно линейных невырожденных преобразований данных.

6.8.3.4. Инвариантные критерии

Нетрудно показать, что собственные значения λ1,…,λd матрицы SW-1SW инвариантны при невырожденных линейных преобразованиях данных. Действительно, эти собственные значения являются основными линейными инвариантами матриц рассеяния. Их числовые значения выражают отношение межгруппового рассеяния к внутри групповому в направлении собственных векторов, и обычно желательно, чтобы разделение давало большие значения. Конечно, как мы отметили в разд. 4.11, тот факт, что ранг SB не может превышать с—1, означает, что не более чем с—1 этих собственных значений будут не равны нулю. Тем не менее хорошими считаются такие разделения, у которых ненулевые собственные значения велики.

Можно изобрести большое число инвариантных критериев группировки с помощью компоновки соответствующих функций этих собственных значений. Некоторые из них естественно вытекают из стандартных матричных операций. Например, поскольку след матрицы — это сумма ее собственных значений, можно выбрать для максимизации функцию критерия 7

Используя соотношениеST=SW+SB, можно вывести следую­щие инвариантные модификации для trSW и |SW|:

Так как все эти функции критериев инвариантны относительно линейных преобразований, это же верно для разделений, которые приводят функцию к экстремуму. В частном случае двух групп только одно собственное значение не равно нулю, и все эти критерии приводят к одной и той же группировке. Однако, когда выборки разделены более чем на две группы, оптимальные разделения, хотя часто и подобные, необязательно одинаковы.

По отношению к функциям критерия, включающим 5 г, отметим, что st не зависит от того, как выборки разделены на группы. Таким образом, группировки, которые минимизируют |SW|/|ST|, в точности те же, которые минимизируют |SW|. Если мы вращаем и масштабируем оси так, что ST- становится единичной матрицей, можно видеть, что минимизация trST-1SW эквивалентна минимизации критерия суммы квадратов ошибок trSW после этой нормировки. Рис. 6.14 иллюстрирует эффект такого преобразова­ния. Ясно, что этот критерий страдает теми же недостатками, о ко­торых мы предупреждали в разд. 6.7, и является, вероятно, наименее желательным критерием.

Сделаем последнее предупреждение об инвариантных критериях. Если можно получить очевидно различные группировки масштабированием осей или применением другого линейного преобразования, то все эти группировки должны быть выделены инвариантной процедурой. Таким образом, весьма вероятно, что инвариантные функции критериев обладают многочисленными локальными экстремумами и соответственно более трудно поддаются выделению экстремума.

Разнообразие функций критериев, о которых здесь говорилось, и небольшие различия между ними не должны заслонить их существенной общности. В каждом случае основой модели служит то, что выборки образуют с хорошо разделенных облаков точек. Матрица внутригруппового рассеяния SW используется для измерения компактности этих точек, и основной целью является нахождение наиболее компактной группировки. Хотя этот подход оказался полезным во многих задачах, он не универсален. Например, он не выделит очень плотное облако, расположенное в центре редкого облака, или не разделит переплетенные вытянутые группы. Для таких случаев нужно создать другие критерии, которые больше подходят к структуре сущест­вующей или искомой.

Рис. 6.14.Результат преобразования к нормированным главным компонентам (разделение, которое минимизируетS-1TSW в а,минимизирует сумму квадра­тичных ошибок вб).

аненормированные, б —нормированные.

Соседние файлы в папке Анализ и интерпретация данных