Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Кориков А.М. Математические методы планирования эксперимента учеб. пособие

.pdf
Скачиваний:
21
Добавлен:
23.10.2023
Размер:
7.9 Mб
Скачать

 

 

 

 

- Z

1

0

-

 

 

 

 

 

^1

л . ,

о . . . о

П

 

 

 

О

 

\ r

. . Q

,

 

 

 

0

 

 

0

\

J

где

Л.^ »

••• ^ Х ^

0

 

-

корни

уравнения

 

 

г d e - t , ( L - х Е ) = 0 }

 

( 9 . 2 ) «

а

столбец

матрицы А,

а

^

 

удовлетворяет уравнению

X

-ая компонента вектора г ,

 

 

 

 

 

 

 

ж. 4

W

T

1

,

 

 

 

 

г

 

-

 

 

'

 

 

имеет нанболыгую дисперсию среда всех нормированных линей­

ных комбинаций,

некоррелированных с

 

. .

Здесь JUL по-прежнему обозначает математическое

 

ожида-

ние; 0 - вектор с

нулевыми компонентами; de"t (...)

- оп­

ределитель матрицы;

Е - это единичная матрица.

 

 

^ Доказательство

этой

важной теоремы приведено

в

книге

Андерсона £з^. Вектор ?

является вектором главных

 

компо­

нент. Заметим,

что

как

только

произведено

преобразование

к г л , г г , . . . ,

£ ^

становится

очевидным,

что г п -

 

это

нормированная линейная комбинация'с наибольшей дисперсией,

так

как

если i * =

У " с . а. , где Т~ с ,

* 1

( г *

также

является

нормированной линейной комбинацией

х

) , то

 

 

' S N * * ) ж Z

O A , - X 4 £ С* ( X . - X ) .

( 9 . 3 )

так

УАУ

 

 

 

 

 

- 23t-

Очевидно,

что выражение (9,3) достигает

максимума

приС ь =

= 0, I -

2 , 3 , . . . ,

к. . Аналогично, ггпредставляет

собой

нормированную линейную комбинацию, некоррелированную о Z ,

и имеющую наибольшую дисперсию (из того,

что г * » 7 с г .

некоррелирована с

г

. , следует, с. = 0 ) ;

Таким же

образом

проверяются свойства

максимума для

г,^.

 

Нетрудно убедиться в справедливости следующего утверж­

дения: суша дисперсий главных компонент равна оумме-дис-

персий

исходных

переменных*

 

 

 

Доказательство этого утверждения следует из цепдчки

равенств

 

 

 

 

 

 

И

JIU;

~

5„ ( Л 1 Л Т

) = 5Р

(L АТА)

=

1*1

 

 

 

 

 

 

 

где 5 р ( . . . )

означает

след

матрицы.

 

 

Итак, сформулированная

т е о р е м а

с в о д и т

н а х о ж д е н и е

г л а в н ы х

к о м п о н е н т

к в ы ч и с л е н и ю

х а р а к т е р и с т и ч е с ­

к и х

к о р н е й

и

х а р а к т е р и с т и ч е с ­

к и х - в е к т о р о в

 

к о в а р и а ц и о н н о й

м.а т р и ц ы .

Мы не будем останавливаться

здесь на мето­

дах решения

этой

задачи, а интересующихся отправляем к ли -

-гы-

тературе по вычислительной математике (см.например, книгу

Б.&Демидовича

и И.А.Марона [ п } ) .

Методы анализа с помощью главных компонент лучше в с е -

го подходят к

случаям, когда все компоненты вектора х и з ­

меряются в одних и тех же единицах. Если они измеряются в различных единицах, то нужно всегда помнить, что главные компоненты не инвариантны относительно масштаба изменения тех шкал, по которым отсчитываются переменные. Некоторые исследователи предлагают избавляться от неинвариантности переходом к стандартизированным переменным

Квадратичная ошибка служит параметром масштабности функции распределения и на первый взгляд представляется вполне е с ­ тественным стандартизировать переменные, деля их на эту в е ­ личину. Однако этот прием нельзя обосновать строго, так как произвольно уравниваются величины, несущие разную информа­ цию.

Приведем пример применения метода главных компонент в задаче ктссификации летающих тлей ,[2б] . Нужно было разбить этот вид насекомых на подгруппы по варьируемоети их морфо­ логических признаков. Было измерено 19 различных признаков, которые оказались весьма сильно коррелированными между с о ­ бой; так, коэффициенты парных корреляций по многим призна­ кам достигали 0,90 - 0 , 9 9 . Компонентный анализ показал.что можно ограничиться двумя первгми глазными компонентами, на

-гы-

которые падает 85,5? от обшей дисперсии. Первая компонен­ та задается различием в размерах насекомых, вторая в зна­ чительной степени связана с числом яйцекладок. Графически результаты представлены на рис . 9 . 1 . Здесь ясно видно, что

+Компонента 1

14

г! +

-е -4

2 4 б Компонента Z

 

•и-

Рис.9.1 обследованных насекомых можно разбить на четыре хорошо различимые группы.

Метод главных компонент пригоден и как прием для ортогонализации матрицы независимых переменных в регрессионном анализе. Одна из самых больших неприятностей многомерного регрессионного анализа, выполненного по схеме пассивного эксперимента, заключается в том, что не все независимые переменные можно включать в рассмотрение (часть независи­ мых переменных опускается хотя бы потому, что они трудно поддаются надежному измерению). Это неизбежно приводит к смещению в оценках коэффициентов регрессии - оно может ока­ заться столь сильным, что регрессионный анализ потеряет всякий смысл. Коэффициенты регрессии, вычисленные по глав-

ным коглпонентом, в этом сыысле оказываются более устойчи­ выми, если, конечно, оэш главные компоненты вычислялись по наиболее важным независимым переменным. Например, в ста ­

тье П.Ф.Андруковича [ 4 ^ методом главных компонент была про­ изведена ортогонализации матрицы независимых переменных, затем коэффициенты регрессии вычислялись по всем главным компонентам и компоненты с незначимыми коэффициентами рег ­ рессии отбрасывались.

§ 9 - 3 .

Ф а к т о р н ы й

 

 

а н а л и з

 

 

 

Здесь выбирается небольшое число факторов,

способных

" о б ъ я с н и т ь "

корреляционную

матрицу. Нужно

найти

м и н и м а л ь н о е

ч и с л о

 

таких'случайных

вели­

чин ( ф а к т о р о в )

X ,

1

 

I

, после

учета

которых

 

 

 

 

•м

Ji

 

J

m.

 

 

 

 

к о р р е л я ц и о н н а я

м а т р и ц а

х

-перемен­

ных

п р е в р а т и т с я

в

 

д и а г о н а л ь н у ю ,

ляыми

словами, это

значит, что после учета-действия пг фак­

торов все

корреляции, между х~переме«тадиэгоякны стать

не ­

значимыми.

 

 

 

 

 

 

 

 

 

 

 

О с н о в н а я

м о д е

л ъ

 

факторного

анализа

за ­

писывается

следующей системой

равенств

 

 

 

 

 

 

 

т.

 

 

 

 

 

 

 

 

 

Здесь

jj;—j

 

-ft простой фактор; m . - заданное

число

простых

фактороЕ;

Ь^-

остаточный

член с

дисперсией

< э 8 { Ь )

, дейст­

вующий только

на хи,

часто его

называют специфическим фак­

тором.

 

 

 

 

 

 

 

™*~ *"^~

 

 

в

- 2 5 5 -

Коэффициенты t^.^ называются нагрузкой с -й переменной на j -й фактор, иди нагрузкой J -го фактора на L переме-

менную. Вначале ради простоты будем полагать, что факторы 4 j взаимно независимы. Далее предположим, что случайные

величины

L.

не

зависят друг от друга, а также от всех фак-

торов

j

=

1,2,...,(П'.-

Разработаны приемы, позволяющие определять минималь­

ное число простых факторов, необходимое, для объяснения ко­ вариационной матрицы (подробнее см. [19]).

Дадим теперь представление об

 

о с н о в н о й

 

т е ­

о р е м е

факторного анализа. Допустим, что исходные пе­

ременные х 1

и хг

имеют один простой фактор | . ; тогда

лег­

ко показать,

что

 

 

 

 

 

 

 

В общем случае,

когда к. переменных имеют

m простых

факторов, можно написать

 

 

 

 

 

Ч

 

*, **) -

 

К *и Ч Л ^ • • •

 

 

 

Это основное соотношение факторного анализа показыва­

ет, что

 

к о э ф ф и ц и е н т

к о р р е л я ц и и

 

л ю б ы х

 

д в у х

н е з а в и с и м ы х

п е р е м е н ­

н ы х

м о ж н о

 

в ы р а з и т ь

с у м м о й

н р о -

и з в е д е н и й

 

н а г р у з о к

н е к о р р е л и ­

р о в а н н ы х

ф а к т о р о в ;

 

 

 

 

Построим матрицу F 0 размерности

( KTtnv) из "строк,

эле­

ментами которой служат нагрузки на факторы. Какая-нибудь,

скажем,

t

строка будет вметаьввд

 

 

 

 

-2 о 6 -

то г д а в матричной форме основная теорема запишется

так:

Я = ¥ 0

Т0 Т .

 

оо

З а д а ч а ' ф а к т о р н о г о

а н а л и з а ,

к а к

м ы

в и д и м , з а к л ю ч а е т с я

в л и . н е й -

н о м

п р е о б р а з о в а н и и

К. - м е р н о г о '

п р о с т р а н с т в а

в т - м е ^ н о е .

 

Ее нельзя решить однозначно. Представление корреляци­

онной матрицы факторами,

как говорят, ее факторизацию, мож­

но произвести бесконечно

большим числом различных

способог.

Если нам удалось произвести факторизацию с помощью некото­

рой матрицы

F 0 , то любое

ее линейное ортогональное преоб­

разование (ортогональное

вращение) приведет к такой же

факторизации.

 

 

 

Может случиться, что первая факторизация окажется не ­

благоприятной, т . е . трудно поддающейся интерпретации.

Тог­

да исследователь может,начать "вращать" факторы. Он шлет

это дехать до тех пор,

пока не получит результаты, легко

поддающиеся физической

интерпретации.

 

Проиллюстрируем основную идею факторного анализа п р и -

м е р о м, в

котором его применили к 'задаче .металловедения

[ 2 0 ] . .Там была сделана

попытка изучить взаимную связь

шес­

ти показателей, характеризующих механические свойства метал­

ла:

Н в ~ твердость по Бринелю; 6 ^ - прочность на разрыв;

• 6 Т

- предел текучести; у - относительное сужение; S- от -

т

- 2 5 7 -

носительяое удлинение, об ^ - ударная вязкость;

Изучению подвергалась выборка из 79 сортов сильно ле ­

гированных сталей. На основании статистического анализа,-

на деталях которого до здесь останавливаться не будем, бы­

ло показано, что результата можно представить двумя факто­

рами.

Далее выяснилось, что переменные 6 д ж <&t линайно-за- висаш, и поэтому одна из них - 6 Д - бела в дальне8ивм| •

опущена.

Ф а к т о р I

Ф А К Т О Р 1

Рио.9.2

Па рис.9.2 в координатной системе, задаваемой двумя

факторами, исходные переменные представлены 5 векторами.

Координаты конца каждого вектора задаются нагрузками соот­

ветствующих переменных на факторе.

Из рис.9.2 следует, что переменные естественно представлять не прямоугольными, а косоугольными (коррвлировая-

ннш) факторами (рио.9.3)^

В результате проведения факторного анализа были одела-

-2 3 6 -

шследующие выводы; Векторн-лризнаки группируются по на­

правлению в два пучка, которые выражают прочностные ( Н в . 6 Т ) и пластические ( Y , <**к) свойства металлов."

Рис.9.3

Интересно отметить, что вектор признака о*" обратен по на­ правлению векторам пучка, выражающим свойство прочности.

Отсюда авторы делают вывод, что это веское основание считать^ о* характеристикой' разупрочнения," вопреки принятой сейчас ее трактовки как характеристики пластичности.

Этот пример служит хорошей иллюстрацией того, что пред­

ставление результатов методом факторного анализа позволяет •исследователю лучше осмыслить материал, чем представление,

задаваемое в терминах обычной парной корреляции.

В.заключение напомним еще раз, что как метод главных

компонент, так и метод факторного анализа - это лишь мето­

ды, еонованные

на линейных моделях

и нормальном

законе

распределения.

'

~

"

•—~

-

 

 

-

2 3 9 -

 

 

 

§ 9 - 4 . Д и с к р и м и н а н т н ы й

а н а л и з

КовариачЕОннке тдатркцы используются и в

задачах

д и-

с к р и м и н а ц и и ,

когда выборку,

задаваемую многомер­

ным вектором

наблюдений

х?=

( х , , х г

, x j

^ , надо

от ­

нести к одной

из К -мерных нормально распределенных гене-

,ральных совокупностей. Напомним, что в одномерном случае • параметры нормального распределения задаются двумя скаляр-

кши величинами - иагештическим ожиданием ш деспероией» В многомерном случае первым параметром служит вектор ма-

тематических ожиданий j x , вторим - ковариационная матри­ ца I .

5-дачи такого рода встречаются повседневно. Простей­ ший пример подобных задач ? диокримкаалия по результатам призмных экзаменов или любой другой системы тестов. Каж­

дый абитуриент характеризуется вектором значений экзамена­

ционных или тестовых оценок. Этот вектор надо отнеота к одной из двух генеральных совокупностей. Второй пример -

медицинская диагностика, где пациент опять-таки характери­ зуется многомерным вектором признаков и т.д.

Возможна и иная постановка задачи - к л а с с и ф и ­

к а ц и я . В этом случае, имея множество наблюдений, за­

данных шогомерными векторами, нужно разбить их на группы

так, чтобы была достигнута максимальная однородность

внутри групп и минимальная - между группами. Такие задачи• решаются методом кластеранализа. Так,например, в биологи­ ческих или медицинских исследованиях можно поотавить зада-

Соседние файлы в папке книги из ГПНТБ