Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений

.pdf

Скачиваний:

Добавлен:

20.10.2023

Размер:

8.58 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 2317 18 19 20 21 22 23 > Следующая >>>

зок склоняет нас к тому, чтобы интерпретировать первый фактор у (1> как фактор общей одаренности, а второй фактор г/<2>как фактор гума нитарной одаренности.

В прямой постановке задачи классификации (т. е. при классифи кации обследованных учащихся) исследователь должен был бы, в пер

вую очередь, определить, как эти два общие фактора г/(1>и г/<2)

выража

ются через исходные признаки хП), х<2), ...,

х<6>; затем подсчитать зна

чения (г/ѵІ), уі2)) (ѵ =

1, 2, .... 220) этих двух факторов для каждого из

обследованных учеников и,

наконец, нанести 220 точек (у ѵ{u, у ѵ{2)) на

плоскость

г/О) 0 у(2\

Расположение

«точек-учеников»

на плоскости

позволило бы исследователю полу

чить

ряд

вспомогательных

сведений,

№

полезных при формулировке оконча

у®

тельных выводов (наличие четко вы

раженных

«сгущений

точек» •— клас

0,5 -

сов,

их

число, их

интерпретация

и т. п.)1. Кстати метод Томсона (4.32)

/ т(з)

дает в качестве оценки общих факто

*х(!)

ров выражения:

•х(г)

г/< 1) =

0,245x0 +

0,208х<2>+

Ю)

0,158х<3>+ 0,278x0+ 0,271х<5>+

К------

0.5

•т(б)

0,157х<6>,

yW = 0,352^Р) +

.х(5)

0,201х<2) +

0,309х<3>— 0,351х(4>—

•хі*)

-0,5

—0,303х<5>—0,126x0.

При обратной (двойственной) по

у 0)

становке задачи, т. е. при классифи

кации исследуемых

признаков хО),

Рис.

4.7. Изображение

исходных

х<2),

..., х<6>,

оказывается

полезной

следующая геометрическая интерпре

признаков х<‘>,

... , х<6> в плоско

сти двух общих факторов д(1>, у<2>

тация общих факторов и исходных

признаков. Рассмотрим рис. 4.7, на

а коорди

котором осями координат являются общие факторы г/(1>и у<-2\

наты точек (у[\\ у™) = (qtl, qi2) определяются нагрузками /-го ис ходного признака на общие факторы (/ = 1, 2, ..., 6). Соответственно точку {ди, <7і2) удобно интерпретировать как изображение і-го исход ного признака х<(). Расположение точек на рис. 4.7 свидетельствует о естественном распадении совокупности исходных признаков на две группы: группу гуманитарных признаков (хС), х<2>, х<3)) и группу математических признаков (х<4>, х<5>, х<в>).

Кстати, подобная геометрическая интерпретация помогает вы брать вращение системы общих факторов, наиболее подходящее с точ ки зрения возможности их содержательной интерпретации. Дело в

1 Аналогичную задачу классификации ткачих при исследовании их произ водительности труда см. в п. 4 предыдущего параграфа.

183


том, что как мы уже отмечали, параметры				модели факторного			ана
лиза, в том числе и сами общие факторы у (1),					уір,),		опре
деляются	не однозначно, а лишь	с точностью			до некоторого		орто
гонального преобразования, т. е.		с точностью до вращения				осей у*1),
у(2\ ...,	в пространстве. При этом выбор окончательного реше
ния, т. е.	закрепление системы у(1),		у(2\...,	у (р,)	в определенном по
ложении,	находится в распоряжении		исследователя. Другими слова
ми, исследователь должен решить вопрос:				как,	располагая некото
рым частным решением у ^ \ г/<2>, ..., у<Р'\				полученным,		например,
с помощью центроидного метода,		выбрать такое			ортогональное		пре

образование, такой поворот осей г/<1>, г/<2>, ..., у (р,), при котором по

лучаемые при этом новые общие факторы г/*1), г/<2), ..., у(р">допус-' кают наиболее естественную и убедительную содержательную интер претацию. Рассматривая расположение исходных признаков в плос кости г/(1>0 г/<2> или в пространстве, натянутом на первые три об щих фактора, естественно повернуть координатную систему таким образом, чтобы координатные оси прошли через наиболее четко вы раженные сгущения точек-признаков (см. поворот, намеченный пунк

тирными осями г/<Р и г/(2>на рис. 4.7). При этом иногда бывает полезно отказаться от ортогональности общих факторов, переходя к косо угольной системе координат.

§ 3. ЭВРИСТИЧЕСКИЕ МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ

Описанные выше методы сокращения размерности факторного пространства (метод главных компонент и модели факторного анализа) допускали интерпретацию в терминах той или иной строгой вероятно стной модели и, следовательно, подразумевали возможность исследо вания свойств рассматриваемых процедур в рамках теории математи ческой статистики (см. п. 3., § 1,2 настоящей главы). В данном пара графе речь пойдет о методах, подчиненных некоторым частным целе вым установкам (наименьшее искажение геометрической структуры исходных «выборочных точек», наименьшее искажение их эталонного разбиения на классы и т. д.), но не формулируемых в терминах вероят ностно-статистической теории ]. Процедура выбора той или иной целе вой установки, подходящей именно для данной конкретной задачи, практически не формализована, носит эвристический характер, т. е., как правило, обусловливается лишь опытом и интуицией исследо вателя. Поэтому мы и будем называть такие методы эвристическими.

Надо признаться, что при отсутствии априорной или выборочной предварительной информации о природе исследуемого вектора наблю дений и о генеральных совокупностях, из которых эти наблюдения извлекаются, точно в таком же невыгодном положении находятся методы, факторного анализа и главных компонент. Однако для них

1 Отсутствие строгой вероятностно-статистической модели, лежащей в ос нове тех или иных методов, не исключает возможности использования отдель ных вероятностно-статистических понятий и соответствующей терминологии, как это имеет место, например, в методе экстремальной группировки факторов, в методе корреляционных плеяд и некоторых других.

184

все-таки существует принципиальная возможность теоретического обоснования (при наличии соответствующей дополнительной инфор мации), в то время как эвристические методы не претендуют и на это.

Хочется подчеркнуть, что факт описания здесь методов сниже ния размерности, не использующих предварительной информации, например, обучающих или квазиобучающих выборок, следует рас ценивать лишь как следствие признания неизбежности ситуаций, в которых мы такой информации не имеем, но не как стремление рек ламировать эти методы в качестве наиболее эффективных. В действи тельности же обоснованное и эффективное решение задач снижения размерности без слепой надежды на удачу, можно, по нашему мнению, получить лишь на пути глубокого профессионального анализа, до полненного статистическими методами, использующими предвари тельную выборочную (обучающую) информацию.

1. Методы, не использующие обучающих выборок

а) Нелинейное отображение выборочных точек в пространство мень шей размерности, наименее искажающее их геометрическую конфигу рацию. Пусть, как обычно, Х ъ Х 2, ..., Хп — результаты р-мерных

наблюдений, «снятые» на п исследуемых объектах. И пусть	=
= рЕ (Xi, X j) = 1 / 2 1 (4 V) — */V>)2 — евклидово расстояние	между
ѵ=1
точками Х і и Xj в исходном р-мерном пространстве.

Метод, предложенный в работе 131], состоит в нелинейном однознач ном отображении п данных точек (векторов) из р-мерного исходного факторного пространства Rp в пространство меньшей размерности. Особенно важны отображения в двухили трехмерное пространство (р' = 2,3), так как полученная там конфигурация из п точек поддает ся непосредственному графическому изображению. Ставится цель ми нимально (в некотором смысле) исказить исходную конфигурацию из п точек. Опишем этот метод и укажем некоторые возможности его модификации.

Пусть в результате некоторого однозначного отображения (проек ции) П имеющиеся у нас исходные многомерные наблюдения

( 1 )

преобразованы (спроектированы) в соответствующие п наблюдений

185

р а сп о л о ж ен н ы е в п р остр ан ств е R p ' м еньш ей	р азм ер н ости , т . е .	=
= П (X,).	Х„ к конфигурации Ylt
При переходе от конфигурации Хь Х2,	Х„ к конфигурации Ylt

У2, ■ Уп, попарные расстояния d*j между исходными точками X, и Xj преобразуются в расстояния йц = р£ (К,, Yj)- В качестве меры

искажения конфигурации исходных точек введем величину А, кото рую естественно рассматривать как функцию от переменных г/^ѵ> (ѵ =

= 1, 2,	p', i =	1, 2,	n).\
	A W P	У1 >• • • >У п )		V	К / - * ; ] 2
				—

i < /	4
г < У

Предлагается следующая эвристическая итерационная процедура подбора переменных г/-ѵ> с целью минимизации функции

A(z/i‘\ У ?\ .... Уір,),		.... Уп'})- пусть			1	^		Ы*ц — dij(m)]2
A(z/i‘\ У ?\ .... Уір,),		.... Уп'})- пусть			Ат	і <\			d‘i
						і <\			d‘i
		после т-й итерации, где с =					п
ошибка отображения		после т-й итерации, где с =					^	d,y и cfü-(m) =
							і < /
2	[г/(-ѵ)(т) —г//ѵ) (m)]2.			Следующая (т +			1)-я		итерация за
ѵ =	1
дается:
	г/'ѵ) (ш + 1) =			(v) ,
	г/'ѵ) (ш + 1) =			у/Г' (т) —абіѴ(m),
где			d&m	I	d2 Ащ
	б , ѵ ( w )		d&m	I	d2 Ащ
	б , ѵ ( w )		Ф/[ѵ) (от) j		d [t/jv) (m)]2
			Ф/[ѵ) (от) j		d [t/jv) (m)]2
а а определено эмпирически (автор [31] использовал а								«	0,3 или 0,4).
На первом шаге итерационной процедуры набор						Ylt У2, .... Уп				фик
сируется	случайным образом или находится с помощью								метода	глав

ных компонент (см. § 1 настоящей главы).

На ряде примеров удалось показать, что данная процедура приво дит к отображению П, которое достаточно хорошо сохраняет некото рые геометрические свойства исходной конфигурации точек.

Так, в качестве исходных данных брались 9 точек, расположен ных на прямой в R9 на равных расстояниях друг от друга; после при менения к ним описанной выше процедуры, задающей преобразо вание П, на плоскости были получены точки, лежащие на одной прямой.

При отображении конфигурации из 8 точек, лежащих на окружно сти в R9 на равных расстояниях друг от друга, и центра этого круга, на плоскости R2 были получены точки, лежащие практически на ок-

186

ружности, и центр круга. В обоих случаях начальное приближение на плоскости выбиралось случайно, а А = 10'1в; исходные данные одномерны в 1-м и двумерны во 2-м случае, поэтому отображение на плоскость можно провести с нулевой ошибкой.

При отображении набора из 30 точек, равномерно распределен ных на 3-мерной спирали, была получена конфигурация из то чек на синусоидальной кривой и примерно равноотстоящих друг от друга.

Следующий пример показывает, что метод нелинейных отображе ний может давать лучшие результаты, чем метод главных компонент

[30].

Даны 5 сферических 4-мерных гауссовских распределений спе циального вида, из каждого делается выборка по 15 точек. Оказалось что при нелинейном отображении исходной конфигурации в R 2 на плос кости можно выделить 5 групп точек, причем эти группы соответству ют исходным группам.

При отображении методом главных компонент удается выделить только 4 группы точек. Две исходные группы точек после проекти рования на плоскость оказались полностью «перекрытыми».

Во всех рассмотренных примерах сходимость алгоритма была по лучена за 20 и менее шагов.

Возможности применения данного метода ограничены, с одной сто роны, видом или сложностью распределений, из которых были сдела ны выборки, и, с другой стороны, общим количеством точек. При по пытке применить алгоритм для анализа выборок из очень сложных распределений высокой размерности оказалось, что ошибка отобра жения слишком велика (Л > 0,1), и двумерная конфигурация резко искажает исходную. В то же время есть основания предполагать, что описанный метод может быть успешно использован для анализа таких данных, которые содержат выборки из гиперсферических и гипер эллиптических распределений.

Отметим, что данный метод требует большого объема оперативной памяти машины, поэтому общее число точек ограничено (у автора [31] максимальное значение п = 250). При п > 250 целесообразно объе динять наблюдения в группы и заменять группу некоторым ее пред ставителем (например, центром группы), сокращая таким образом число векторов («Замечание о методах предварительной обработки классифицируемых наблюдений» см. в конце главы III). Данная про цедура сравнительно проста, она не зависит от вида распределений элементов выборки, не требуется никакой априорной информации об

этих распределениях. Можно	предложить		следующие два видоизме
нения данного алгоритма.
Во-первых, рассмотрим
AW	У	[dlj-ldij]
AW	У	1Ч	-
	і < !	1Ч	-
	і < !

При растяжении каждого вектора У; в 1 раз (У* = RY;) расстояние

187

между преобразованными точками так же, как легко видеть, растя- dij Ря (Yi, Yj) ==Xdij, так что

	к		2		п	,	Z2	п	du
А ß)	2 <4І		2		,	,	Z2		du
А ß)	2 <4І		с	я 2 4 - і - — 2					dij
І < }					і < І			і </	dij
	/	п		\	1		п	,2	\
2 ( 4 -		2	duf		1	Ф	п	dij	\	(4.33)
2 ( 4 -		2	duf	/	Z +	Ф	2	d*i	\X2.	(4.33)
		і < І		/	я		г < /	d*i	/
Из (4.33) следует, что		min	А (X) достигается при
Х =	2	( d i} )			2	( 4 / 4 )				(4.34)
	І < /				і < І

В то же время очевидно, что наилучшее в смысле минимума функции ошибки А значение X равно 1 (иначе конфигурацию можно «растянуть», уменьшив значение А), следовательно.

	,2	(4.35)
2 du	d-ij	(4.35)
2 du	І2 < j

Представляется целесообразным на каждом шаге итерационной проце дуры «растягивать» все векторы в X раз по формуле (4.34), уменьшая тем самым значения функции ошибки. Из сказанного следует, что ус ловие (4.35) является необходимым условием минимума функции ошиб ки в смысле преобразования «растяжения» всех векторов конфигура ции.

Во-вторых, оставаясь в рамках тех же качественных критериев близости конфигураций исходной и преобразованной совокупностей точек, можно предложить использовать вместо функции ошибки А более гладкую (бесконечно дифференцируемую) функцию новых координат, например:

	</,” ...... » Г ) =
	« / ) ■ -	S W '” - » ! '”)1
2	К ,] I < !	( 4 ) 2
І </
Рассмотрим подробнее случай р' =		2.	Обозначим
Z = ( 2<», г<2>,	..., г'2" - » , г ™ ) = { у ?\		у ? \	г/<2))-

188

вектор в	2 « -м ер н ом п р остр ан ств е;
IZ \|\|=	f	2п
IZ \|\|=	1 /	2 [г(ѵ)]2 —норма вектора Z,

*ѵ = 1

(Z\, Z2) — 2 z(iv) z2v)—скалярное произведение векторов Zx и Z2.

					V = 1
						Â (Z) = А (г(1>, z(2),		z(2n)) =
				1	у	[(d?/)a -	-	г (2/ - ' ) ) 2 - (z ^ ) - г (2/))»]а
		V ( ä - , y			, < I			( * „ )
	i	<	1
				1	2			2<г/-П)8- (г<»>- 2(2/))2]2
	S		1	(</)2	/“	“ >		« f f
	i	<	1
	Выпишем в явном виде первые производные функции Д:
						дЛ	____ 4_
						az(2i-D	“	с Х
X	^			(г(2і--1 )_		2(2/-1)) [(d*;)2_ (z(2 i- l)_ г(2/-1))2_(г(2«_ г(2/))2]2
X	2						«	f f
	/= 1						«	f f
	і Ф І
						д Л		X
						0г<2г>		X
						0г<2г>
			«	( г ( 2 і ) _ г ( 2 / ) ) [ ( ^ . ) 2 _ ( г ( 2 , - - 1 ) _ г ( 2 / - 1) ) 2 _ ( г ( 2 Ц _ г ( 2 / ) ) 2] 2
	X	у					(402
		/	=	1			(402
		/	=	1
		і	Ф	І
где	с =			2 ( 4 ) 2-
				г < 1

Пусть г(1) = г (2>= г<3) = 0, z(4)> 0 .

Тогда легко показать, что выполняются следующие условия:

Л (Z) > О,

189

Q = {Z : А (Z) <1 c) — ограниченное множество, где с — произволь ная константа,

/	д А (Z)	d S ( Z )	d % ( Z ) \	^ , ( Z)
\	0г<‘> ’	d z ^ ’	öz<2"> 1 '

■— градиент функции A (Z) удовлетворяет условию Липшица на мно

жестве Q, так как А' (Z) — непрерывно дифференцируемая векторфункция.

Следовательно, для нахождения минимума функции А (Z) приме ним метод сопряженных градиентов [11], а именно, следующую итера ционную процедуру

Z (т + 1) --- Z (т) 4 ат U (т),

U(m)=: — A'[Z(m)] + ßmH(m— 1) т-= 0, 1, ...,

где Z(m) и U(m) — векторы, полученные на т-м шаге, а коэффициенты а т и ßm находятся из условий:

ат: А [Z (т)— ат U (т)] =- min А [Z (т)—ail (т)],

о(А ' [Z {т)\ , Â'[Z (ш)] —'К' [Z ( т — 1)])

Р т "	и	(.0
	II А	[Z ( т — 1)]і!2

Можно доказать, что для любого начального приближения такой алгоритм сходится в смысле

lim I А' [Z (т)] I —О,

где под lim <р (т) понимается так называемый нижний предел функ-

т~* оо

ции ср (т), т. е. sup inf ф (п). Заметим, что экспериментальные ис-

тп > т .

следования метода сопряженных градиентов показывают, что на прак тике наблюдается не только сходимость на подпоследовательностях (т. е. по нижнему пределу), но и обычная сходимость, т. е.

lim [I A' [Z (т)] I = 0.

m ->• о с

б) Метод экстремальной группировки признаков. При изучении сложных объектов, заданных многими параметрами, возникает задача разбиения параметров на группы, каждая из которых характеризует объект с какой-либо одной стороны. Но получение легко интерпрети руемых результатов осложняется тем, что во многих приложениях из меряемые параметры (признаки) лишь косвенно отражают существен ные свойства, которыми характеризуется данный объект.

Так, в психологии измеряемые параметры •— это реакции людей на'различные тесты, а выражением существенных свойств, общими факторами, являются такие характеристики, как тип нервной сис темы, работоспособность и т. д.

190

Оказывается, что во многих случаях изменение какого-либо общего фактора сказывается неодинаково на измеряемых признаках, в част ности, исходная совокупность из р признаков обнаруживает такое ес тественное «расщепление» на сравнительно (с р) небольшое количество групп, при котором изменение признаков, относящихся к какой-либо одной группе, обусловливается в основном каким-то одним общим фак тором, своим для каждой такой группы. После принятия этой гипо тезы разбиение на группы естественно строить так, чтобы параметры,, принадлежащие к одной группе, были коррелированы сравнительно сильно, а параметры, принадлежащие к разным группам ■— слабо. После такого разбиения для каждой группы признаков строится слу чайная величина, которая в некотором смысле наиболее сильно коррелирована с параметрами данной группы; эта случайная величина интерпретируется как искомый фактор, от которого существенно зави сят все параметры данной группы.

Очевидно, подобная схема является одним из частных случаев об щей логической схемы факторного анализа. В отличие от ранее описан ных классических моделей факторного анализа при так называемом экстремальном подходе [5], группировка признаков и выделение общих факторов делаются на основе экстремизации некоторых эври стически введенных функционалов. Разбиение, оптимизирующее дан ный функционал, называется экстремальной группировкой парамет ров. Таким образом, под задачей экстремальной группировки набора случайных величин хР), х(2>, ..., х<г) на заранее заданное число клас

сов р' понимают отыскание такого набора подмножеств Sx,						S 2,
Sp'	натурального ряда	чисел 1, 2, ...,	р, что	Р'	= {1,	2, ..., р),
				U S;
а Si			і=1
	П S g — 0 при І'Ф q, и таких р' нормированных (т. е. с единич
ной дисперсией £>/<*'> =		1) факторов /Р>,	/<2), ...,	/(''б,	которые макси

мизируют какой-либо критерий оптимальности.

Следуя [5], остановимся здесь на алгоритмах для двух различных критериев оптимальности.

Первый алгоритм экстремальной группировки признаков в каче стве критерия оптимальности использует функционал


Ji — 2	[сог(<»,/<•>)]+ ... -f- 2		[сог(х<г>, /<р'>)]2,
і еs,		г еSp'
в котором под сог (х, /)		понимается обычный		парный коэффициент
корреляции между признаком х и фактором /				[1]. Обозначим Л г =
= {х<*>, і 6 S J ,	/ = 1, 2,	..., p'. Максимизация функционала J1 (как
по разбиению признаков на группы Ах, ...,			Ар>, так и по выбору фак

торов /С)( jF(2)j ...,/(р')) отвечает требованию такого разбиения парамет ров, когда в одной группе оказываются наиболее «близкие» между собой, в смысле степени коррелированное™, признаки: в самом деле, при максимизации функционала Jxдля каждого фиксированного набо ра случайных величин /С), /<2), ..., /(p'), в одну 1-ю группу будут по падать такие признаки, которые наиболее сильно коррелированы с ве личиной в то же время среди всех возможных наборов случайных

191

величин ff1), /(2), /<р') будет выбираться такой набор, что каждая из величин ffl) в среднем наиболее «близка» ко всем признакам своей группы.

Очевидно, что при заданных классах Sx, S2,						..., S p>оптимальный
набор факторов /б),	ff2),	ffp')	получается в результате независимой
максимизации каждого слагаемого
V	[cor(x<‘>, /(О)]* (/==1,2,...,					р'),
		max	Jt =	V	Xf,
	f O ) ,	f(2)........	f(/)	i =	!

где Я,г — максимальное собственное значение матрицы 2 г, составлен ной из коэффициентов корреляции переменных, входящих в А х. При этом оптимальный набор факторов ff1), I = 1, 2, ..., р' задается фор мулами:

	2	a j l)
------ --— -- l		, 1 = 1,2, ...,p',	(4.36)
г /	s	“ М ' Ч
Г	г,/es,

где

Д/ =сог (х(0, л:0)), а а (0 = (а (/ ), 4 г), ..., а ^ )

— собственный вектор матрицы 2 г, отвечающий максимальному соб ственному значению Яг, т. е.

2,-а<0 = Ѵа<0.
С другой стороны, считая известными факторы Д1), Д2>, ...,	нетруд

но построить разбиение Slt S 2, ..., SP', максимизирующее Jx при фик сированных ff-1'), ff2), .... ffp'), а именно:

S, = {/: cor2 (лД>, ffl)) ^cov2(xfi), ffq)) для всех q —1,2,..., p'. (4.37)

Заметим, что соотношения (4.36) и (4.37) являются необходимыми ус ловиями максимума Д.

Для одновременного нахождения оптимального разбиения 51? 5 2,
..., Sp' и оптимального набора факторов ff1), ff2), ..., ffp'>предлагается
итерационный алгоритм, чередующий выбор оптимальных (по отноше
нию к разбиению, полученному на предыдущем шаге)	факторов и вы
бор разбиения оптимального к факторам, полученным	на предыдущем

шаге.

Пусть на ѵ-м шаге итерации построено разбиение параметров на группы Аг, ..., Ар'. Для каждой такой группы параметров строят фак

торы fil) по формуле (4.36) и новое (ѵ +	1) разбиение параметров
Д]Ѵ+1), ..., A fi+l) в соответствии с правилом:		параметр лД>	относит
ся к группе Л/(ѵ+І), если
сог2(х(0, /</>)> cor2(x(<?). fvq))	(1=1,	2, ..., p').	(4.38)

192

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 2317 18 19 20 21 22 23 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ