
книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений
.pdfзнаков. Естественно полагать, что ошибка прогноза X по У (обозна чим ее 6) будет определяться так называемой остаточной дисперсион ной матрицей вектора X при вычитании из него наилучшего прогноза по Y, т. е. матрицей А = (Ді;-), где
AW= M |
Д |
ъа у |
(х</>_ Д |
. |
|
Р' |
|
в смысле метода наименьших |
квадра- |
||
Здесь ^ Ьп у(1)—наилучший, |
|||||
/= 1 |
|
|
г/<’>, у<2>,..., |
т. е. |
б = /(Д), |
тов, прогноз х<;) по компонентам |
где f (А) — некоторая функция (качества предсказания) от элементов остаточной дисперсионной матрицы А.
Рао [29] решал задачу наилучшего прогноза X только в классе р'
линейных комбинаций от исходных |
признаков хW, ..., |
х <р> и рас |
смотрел естественные меры ошибки прогноза, такие, как |
|
|
f (А) = fr (А) = Ац + |
А22 + ••• + Арр |
(4-13) |
и |
|
|
/ (А) = II А fl = л / ~ |
І І А I, |
(4.14) |
*і= і / = і
tr (А) и II А И называются соответственно следом и евклидовой нормой матрицы А. Он показал, что функции (4.13) и (4.14) одновременно достигают минимума тогда и только тогда, когда в качестве г/W, г/(2)......
,...,г/(р,) выбраны первые р' главных компонент вектора X, причем величина ошибки прогноза б явным образом выражается через последние р — р' собственных чисел А,р+ъ ..., Ар исходной ковариа ционной матрицы 2 или через последние р — р' собственных чисел
АР' +1...... Ар выборочной ковариационной матрицы 2, построенной по
наблюдениям Х ъ Х2, |
..., Хп. В частности, |
|
при / (А) = tr (А): |
б = Ар' + і + Ар» + 2 + ••• + Ар; |
|
при / (А) = IIА||: |
ö = |
|/"Ap'-f. 1+ Ар'-|_2 + ••• ~ЬА]}. |
В работах [27] — [28] |
эта схема обобщена на случай произвольных |
предсказывающих признаков zW, z<2>, ..., z<p>и более широкого клас са функций f (А) и показано, что шіп / (А) достигается тогда и только
тогда, |
когда |
в |
качестве |
исходных предсказывающих |
признаков |
||||||
zW.......z<^> берутся |
сами исследуемые (измеряемые) |
признаки |
х ^ \ |
||||||||
х<2\ |
..., |
х(р\ |
а в качестве |
р' |
линейных комбинаций (предикторов) |
||||||
г/(1), |
у (2), ..., у(р') |
от них выбраны первые р' главных компонент век |
|||||||||
тора X. При этом величина ошибки прогноза б, как и прежде, опреде |
|||||||||||
ляется |
лишь |
р — р' последними |
собственными значениями |
АР'+1, |
|||||||
Ар'+2, ..., Ар |
исходной ковариационной матрицы 2. |
(А) = |
| А |, |
в ко |
|||||||
В^эту схему укладывается, в частности, случай / |
|||||||||||
тором, кстати, б = |
Ар+1 -Ар»+а- ... |
• Ар. |
признаков |
xW, |
|||||||
Поясним |
идею |
описания |
(прогноза) исходных |
||||||||
х<2>, ..., х<рі |
с помощью меньшего чем р числа их линейных комбина |
||||||||||
ций на примере |
1. |
|
|
|
|
|
|
|
143
Вэтом примере, как мы видели, р — 3. Зададимся целью снизить размерность исходного факторного пространства до единицы (р' = 1), т. е. описать все три признака с помощью одной линейной комбинации от них.
Всоответствии с описанным выше экстремальным свойством «авто
прогноза» главных компонент возьмем в качестве этой единственной линейной комбинации первую главную компоненту, т. е. переменную
г/(>) =0,81x(1>+ 0,50;с(2) -j-0,31x(3).
Метод наименьших квадратов приводит к следующему правилу вы числения неизвестных коэффициентов bix [1, с. 125].
,__ соѵ(*(г), у(1))
0,81 соѵ (лМ', х ^ ) + 0,50соѵ (х^К |
0,31 соѵ (х^3\ + )) |
= |
" |
Подставляя в эту формулу значения соѵ (х<‘\ лМ>), взятые из ковариационной матрицы 2 (см. стр. 141), получаем
л:(І) = би г/(1) + е(1) - 0,805г/<'> + е<»,
Х(Ѵ = &21г/2)+ е (2> ^ОДЭЗг/Оі + еі2),
х<3>= Ь31у(3) + 8(3) = 0,310«/<») + 8<з),
где е<‘) — случайные (остаточные) |
ошибки |
прогноза |
исходных ком |
||
понент |
— х(г') по первой главной компоненте yW. |
||||
Если в качестве относительной ошибки |
прогноза |
исходного при |
|||
знака л+> по первой главной компоненте |
рассмотреть величину |
||||
бі = (De(‘>/D+‘>).100%, |
то несложные подсчеты дают |
|
|||
|
бх = |
1%, б2 = |
2% и б3 = 4%. |
|
Суммарная характеристика относительной ошибки прогноза при знаков + 1), x<3> и по г/t1) (в соответствии с вышеописанным) может быть подсчитана по формуле
бсум.оТн=Ю 0% . |
tr (Л) |
100% - |
Ä*2‘ Яз |
-0,42% . |
||
D ( + 1 > + *(2>+ x<3)) |
A-l+ A/г + |
|||||
|
|
|
|
|||
б) |
Свойства наименьшего искажения геометрической структуры |
исходных точек (наблюдений) при их проектировании в пространство меньшей размерности р', «натянутое» на р' первых главных компонент.
Всякий переход к меньшему числу (р') новых переменных у (*), ...,
..., г/(р,), осуществляемый с помощью линейного преобразования (мат
рицы) С = (си), — і = |
1, 2, ..., p', j = |
1, 2, ..., р, т. е. |
У(і) ~ |
cu xW '(t' = |
1, 2 ,..., p'), |
|
/= 1 |
|
или в матричной записи |
|
|
|
Y — СХ |
(4.15) |
нам удобнее будет рассматривать теперь как проекцию исследуемых
наблюдений |
Х ъ Х2, .... Х п из исходного факторного пространства X |
в некоторое |
подпространство меньшей размерности Yp>. |
Геометрическая интерпретация сформулированных выше экстре мальных свойств «автопрогноза» (самовоспроизводимости) главных ком понент позволяет получить следующие интересные факты.
С в о й с т в о 1. Сумма квадратов расстояний от исходных точекнаблюдений X lt Х2, ...,Хп до пространства, натянутого на первые р главных компонент, наименьшая относительно всех других подпрост ранств размерности р', полученных с помощью произвольного линей ного преобразования исходных координат.
Это свойство станет понятным (в свете вышеописанного экстремаль ного свойства «автопрогноза»), если напомнить, что сумма квадратов расстояний от исходных точек до подпространства, натянутого на р ’ первых главных компонент, есть не что иное, как умноженная на я (об щее число наблюдений) суммарная дисперсия остаточных компонент
(ошибок прогноза) е<1>, |
е<2>, |
..., |
е<р>, |
следовательно, эта сумма квадра |
тов равна я (Ä-p'+ i + |
Â-p'+ 2 |
+ |
••• + |
^p)- Наглядным пояснением это |
го свойства может служить рис. 4.1а, |
на котором ось z/Г) соответствует |
подпространству, натянутому на первую главную компоненту (т. е. р = 2 и р' = 1), а сумма квадратов расстояний до этого подпространст ва есть сумма перпендикуляров, опущенных из точек, изображающих
наблюдениях; = (х-1*, Х;2)), на эту ось (сама ось может быть ин терпретирована в данном случае как линия ортогональной регрессии х<2> пох<[>), см. [1, с. 127].
С в о й с т в о 2. Среди всех подпространств заданной размерности
р' (р' < |
р), полученных из |
исследуемого факторного пространства |
X с помощью произвольного линейного преобразования исходных ко |
||
ординат |
х^>, х<2>, ...,х<р>, в |
подпространстве, натянутом на первые |
р' главных компонент, наименее искажается сумма квадратов расстоя ний между всевозможными парами рассматриваемых точек-наблюдений.
Поясним это свойство. Пусть Yp' (С) ■— подпространство размер ности р', натянутое на координаты у<1), #(2), ..., у {р'\ получаемые из
исходных координатх<!>, х<2>, |
..., х<р> с помощью произвольного ли |
|
нейного преобразования (4.15), а Уъ ..., |
Yn — проекции исходных |
|
наблюдений Хх, ..., Хп в подпространство |
Yp- (С), т. е. запись исход |
|
ных наблюдений в координатах подпространства Yp>(С). |
||
Введем в рассмотрение величины |
|
|
і= 1/= 1 |
|
|
МР'(С)= і |
і ] ( Y i - Y ^ Y i - Y j Y , |
!= 1/=1
выражающие суммы квадратов расстояний между всевозможными па рами имеющихся у нас наблюдений соответственно в исходном про странстве X и в подпространстве Yp>(С).
145

Из простых геометрических соображений очевидно, что всегда
Мр' (С) < Мр при р' < р.
Рассматривая в качестве меры искажения суммы квадратов попар ных взаимных расстояний между точками-наблюдениями величину
МР- М Р-(С),
можно показать (см. [29]), что |
|
|
Mp- М » |
min {Мр- - М р . (С)) = |
|
Ѵ ( Ѵ ) |
с |
|
|
|
|
— Я2 (Хр' )_1-f- |
+ 2 + • •• + ^р)> |
|
где Lp' — матрица размера p' |
X р, |
строками которой являются пер |
вые р' собственных векторов /[, Ѵ2, |
..., Ір> исходной ковариационной |
матрицы 2 (т. е. подпространство YP' (Lp-) является подпространст вом, натянутым на первые р' главных компонент вектора наблюде
ний X). |
|
3. Среди всех подпространств заданной размерности |
С в о й с т в о |
||
р ' (p' < |
р), полученных из исследуемого факторного пространства |
|
X с помощью произвольного линейного преобразования исходных ко |
||
ординат |
х<1>, ..., |
х(р), в пространстве, натянутом на первые р' глав |
ных компонент, наименее искажаются расстояния от рассматриваемых точек-наблюдений до их общего «центра тяжести», а также углы между прямыми, соединяющими всевозможные пары точек-наблюдений с их
общим «центром тяжести». |
G размера (р X п) |
|
Поясним это свойство. Рассмотрим матрицу |
||
«центрированных» наблюдений х)г) = х)і) — |
Здесь, как и прежде, |
|
( 1) |
X j ' y —исходные наблюдения, а х<г'>= (лфг>+ х (2г'>+ ... + |
|
|
~\-х(п)!п—среднее арифметическое по всем наблюдениям і-то признака,
т. е. yU) x(l)
■xi0 x2 ■
G |
|
J 2) |
■ |
xi2) |
*i2) x2 |
||||
|
x\p) |
y(P) |
.. |
r(p) |
|
|
Ля |
Введем в рассмотрение матрицу размера (п X п)
Н =G'G = (hjq), и <7=1, 2....... |
п. |
Нетрудно установить геометрический смысл элементов этой ма трицы:
рр
2 |
( x f f = 2 (Zj‘> - F > )2- |
і= 1 |
і= 1 |
это квадрат расстояния от точки-наблюдения Ху до общего «центра
тяжести» X, а
h] q = І |
2 ( я } « - * « » ) ( £ “ > _ * < / > ) - |
і= 1 |
і= 1 |
146
величина, пропорциональная косинусу угла между прямыми, соединя
ющими точки X q и Xj с центром тяжести X. |
Ylt |
|||
|
Если рассмотреть, кроме того, матрицу G (С) наблюдений |
|||
...,Yn, являющихся проекциями исходных (центрированных) |
наблю |
|||
дений Х и ..., Х п в подпространство Y р- |
(С) и соответствующую ей |
|||
матрицу |
Я (С) = G' (C)-G (С), то оказывается, что |
|
||
|
|
IIЯ—Я (Lp.) (I = min (I Я - |
Я (С) И=■ |
|
|
|
с |
|
|
|
|
= п2 (Lp'_|_ 1-f Яр' + 2 + |
■•• + ^р)> |
|
где |
под |
IIЛ К понимается, как обычно, |
евклидова норма матрицы |
|
А, |
а Lp- |
соответствует ранее введенным обозначениям. |
|
Кстати, из описанного выше следует, что естественной мерой отно сительного искажения геометрической структуры исходной совокуп ности наблюдений при их проектировании в пространство меньшей раз мерности, натянутое на первые р' главных компонент, является ве
личина |
|
|
и (P') = 1 — Q(P') |
^р'+ 1+ • +Lp |
|
Li + L2 + • • ■+ Lp |
||
либо величина |
||
|
Lpt-f 1-f-... 4-Lp
7 (P')
k\+kl + ...+k2P ‘
При неизвестной истинной ковариационной матрице 2 ее собственные значения L1; ..., кр следует заменить собственными значениями L1(
..., кр выборочной ковариационной матрицы 2 и соответственно снаб дить «крышками» сверху характеристики к и у степени искажения гео метрической структуры исследуемой совокупности наблюдений.
3. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез
Смысл математико-статистических методов, как известно, состоит в том, чтобы по некоторой части исследуемой генеральной совокупности (т. е. по выборке, или, что то же, — по ограниченному ряду наблюде ний Х ъ Х 2, ..., Хп) выносить обоснованные суждения о ее свойствах в целом.
Применительно к нашей задаче нас, в первую очередь, будет инте ресовать, как сильно свойства и характеристики выборочных главных компонент могут отличаться от соответствующих свойств и характери стик главных компонент всей генеральной совокупности, и, в частности,, как эта мера отличия зависит от объема выборочной совокупности (п),. по которой эти выборочные главные компоненты были построены. Так,, например, для изучения природы внутренних связей между характе ристиками различных статей семейного бюджета потребления и для
147
выявления небольшого числа наиболее существенных в этом смысле показателей исследователь может обследовать какое-то количество (п) семей и по полученным результатам наблюдения Хх, Х 2, ■■■, Хп по
строить главные компоненты у^х\ у&, ...,у(р,'>. Однако, увеличивая объем выборки п, т. е. добавляя к нашим наблюдениям результаты на блюдения по дополнительно обследованным семьям, естественно ожи дать, что пересчет главных компонент с учетом добавленных наблюде ний, вообще говоря, изменит (хотя, быть может, и незначительно) ра
нее |
полученные |
значения интересующих нас характеристик: Kit lt |
(i = |
1, 2, ..., р) |
и т. п. В то же время существует, по-видимому, такое |
(столь большое) п, дальнейшее увеличение которого уже не будет прак тически приводить к изменению основных характеристик главных ком понент (другими словами, мы вправе ожидать, что главные компоненты выборок достаточно большого объема практически совпадают с глав ными компонентами всей генеральной совокупности).
Выяснению некоторых вопросов, связанных с оценкой близости
различных выборочных (у<‘\ tu и теоретических (у (і), /*, А,г) ха рактеристик главных компонент, и посвящен настоящий пункт. При этом, приведенные ниже результаты исследований неизменно опирают ся на допущение нормальности исследуемой генеральной совокупности и взаимной независимости извлеченных из нее наблюдений. Как и преж де под Хх, Х 2, ..., Х„ мы будем понимать центрированные наблюдения, которые, строго говоря, даже при независимых исходных наблюдениях уже не будут независимыми. Однако при достаточно больших п мы мо жем пренебречь этим эффектом нарушения независимости. Таким обра зом, Х і £ N (О, 2), і'= 1 ,2 , ..., п (как следует из предыдущего, вектор средних значений а = M X определяет лишь точку в /ъмерном прост ранстве, в которую переносится начало координат при переходе к глав ным компонентам, и мы с самого начала будем считать этот перенос уже осуществленным).
а) Вспомогательные факты, относящиеся к свойствам выборочных
характеристик главных компонент [2], [26], |
[14], [15], [20], [21], |
[4]. Если все характеристические корни А,х, |
..., Кр ковариационной |
матрицы 2 различны, что и имеет место в большинстве приложений анализа главных компонент, то справедливо следующее:
— характеристические корни Хх, %2, •••> ^р и соответствующие им собственные векторы Іх, 12, ...,1Р выборочной ковариационной матрицы
2 являются оценками максимального правдоподобия для соответствую щих теоретических характеристик (соответственно ?:х, К2, ..., Хр и /х, /2, ..., Ір) и обладают всеми хорошими свойствами этих оценок (со стоятельность, асимптотическая эффективность). Следовательно, выбо рочные главные компоненты
■ y(»= f;X (£--= 1, 2, ....
можно интерпретировать как оценки главных компонент уй) всей ге неральной совокупности. Если среди характеристических корней Хх, Я2, ..., встречаются равные между собой, то оценки максимального
148
правдоподобия для Xt и /г определяются иначе. Аналогичные результа ты имеют место и при оценке характеристических корней и соответст вующих им собственных векторов корреляционной матрицы;
— величины
|
Y n — |
— |
(t = 1, 2,... , р) |
|
асимптотически |
(по п-*~ |
°о ) нормальны со средним значением 0 и |
||
с дисперсией, равной 2 |
X*, и независимы от других выборочных харак |
|||
теристических |
корней; |
|
|
|
— вектор |
|
|
|
|
|
f n - |
\ |
( / , - / , ) |
(і = 1, 2.......р) |
асимптотически (по п - * - оо ) подчиняется многомерному нормальному распределению с вектором средних значений О и с ковариационной матрицей
h (kj—Xi)2 •hl}-
( і ¥=і)
Заметим, что этот результат имеет место для всякого Xt, отличного от всех остальных характеристических корней, каждый из которых может
иметь произвольную |
кратность; |
корень Xt распределен асим |
— выборочный характеристический |
||
птотически (по |
оо) независимо ют компонент соответствующего |
|
ему собственного вектора Гг (г = 1, 2, ..., |
р); |
— ковариация между r-й компонентой выборочного собственного
вектора lt и q-я компонентой выборочного собственного вектора /7- равна
XtXjl^ i f {п-\)(Хг- Х у '
Следующий факт [4] относится к весьма специфической ситуации, характеризуемой так называемым «эффектом большой размерности», когда, несмотря на достаточно большой объем выборки п, поведение выборочных характеристик обнаруживает неожиданные особенности из-за соизмеримо (с п) большого значения размерности р\ при этом для вывода этого факта не требуется нормальности исходных наблюдений;
— если компоненты х вектора наблюдений X взаимно незави симы и пронормированы таким образом, что Мх<‘>= 0 и Dx<‘>= 1, причем существуют все моменты М (х<г>)ѵ, и если объем выборки п и размерность р одновременно достаточно велики, причем
]іш^-^- = с (0 < [с < о о ),
П~* оо ТІ
149
то распределение случайно выбранного из последовательности Х1(
Х2, ..., Хр характеристического корня «слабо сходится»1 к некоторому предельному распределению (сосредоточенному на конечном отрезке), моменты которого задаются формулой.
|
V |
а |
V (ѵ— 1) (ѵ— 1)... (у — / + |
1) (у — / ч -i) (у — /) |
|||
м |
( 2 х |
||||||
) ѵ |
= |
1 |
+ |
||||
|
/= 1 |
|
1*2-2 |
... ]■]■() + 1) |
|||
|
|
|
(ѵ=1, 2 ...) |
|
|
||
так что |
МХ = 1, МХ2=- 1 + с, |
MX.3 — 1+ 3с + с2 |
и т. д. Здесь с — не |
||||
которая |
постоянная |
величина, причем 0 |
^ с < |
оо ). |
Заметим, что примером подобного соотношения между объемом вы борки и размерностью может служить задача, описанная в § 1 главы V,
в которой п = 74, а р = 32 (так |
что {pin) |
= 0,43). |
В заключение приведем два |
факта, |
относящихся к ситуациям, |
в которых компоненты нормального вектора наблюдений X взаимно не зависимы:
—пусть X £ N(a, Е), где ковариационная матрица имеет диагональ ный вид, т. е. соѵ (хѴ\ хЩ = 0 при і Ф /, і, j = 1, 2, ..., р. И пусть I rtj I — определитель выборочной корреляционной матрицы, построен ной по наблюдениям (Хь ..., Хп). Тогда при достаточно больших п (п-*~ оо ) статистика критерия отношения правдоподобия для провер ки гипотезы о диагональном виде Е может быть определена в виде
у = — |
[п ---- 2р П ) 1° ко'ІІ- а для ее Функции распределения спра |
|
ведливо |
приближенное соотношение |
|
|
Р {у < и) « Р J r 2 |
< wj |
при относительной ошибке, не превосходящей сотых долей процента;
— пусть наблюдения Xj извлечены из так называемой сферической р-мерной нормальной совокупности N (а, сг2У), т. е. компоненты каж дого из векторов Xj взаимно независимы и имеют одинаковые дис пе сни D x\'\ равные а2. Тогда ковариационная матрица Е = а 2/ имеет единственный корень (кратности р), оценкой максимального правдо подобия для которого является величина
2 у W " - ? 0)2. |
(4.16) |
рп i=i /=і
причем величина Х/сг2 распределена по закону %2 (р (п — 1)). Статистика критерия отношения правдоподобия для проверки ги
потезы о сферичности распределения исследуемого вектора наблюде-
1 Последовательность функций Fn (х), в частности последовательность функций распределения, называется слабо сходящейся (прия-^оо) к функ ции F (х), если Fn (х) сходится к функции на множестве ее точек непрерывности.
150
нии имеет вид
|
I п S 1 |
со |
|
|
1 |
|
-tr'Z |
и при достаточно больших |
п (п -> оо ) |
■1 ■ 2ра+ р + 2 |
ІП СО< 2 І ж Р )[ р(р + 1) |
6р |
|
при относительной ошибке данного приближенного соотношения, не превосходящей сотых долей процента.
б) Применения свойств выборочных характеристик главных ком понент. Опишем некоторые методы построения разного рода интер вальных оценок для интересующих нас неизвестных характеристик главных компонент и статистической проверки гипотез, относящихся
кэтим характеристикам:
—интервальная оценка (доверительный интервал) для і-го ха рактеристического корня Xt. Она получается (при больших п) с учетом
асимптотической нормальности |
статистики ] / я — 1 (7,г — Xt). |
|
|||
А именно: |
|
|
|
|
|
---------^ |
- |
< |
Х; < -------- |
Ьі— |
(4.17) |
1+“« ] / іггг |
|
1 |
l Aér |
|
где данное неравенство справедливо с вероятностью 1 — а (величиной а заранее задаемся), а и а — 100--|'%-ная точка стандартного нормаль-
~2
ного распределения (находится из таблиц).
Возвращаясь к примеру 1, по формуле (4.17), находим 95%-ный (а = 0,05) доверительный интервал для наименьшего характеристи
ческого корня Х3 по его выборочному значению Х3 = |
2,86. В этом слу |
|
чае п = 24, и а = 1,96, так что 1,81 -< Хэ < |
6,78. |
|
~2 |
(по п -> |
оо ) доверитель |
Возможно обобщение асимптотического |
ного интервала на случай кратных, т. е. повторяющихся корней. Если г — кратность корня Хи то 100 (1 — а) — процентный доверительный интервал для неизвестного значения Xt задается неравенством
■-----------^ ---------- < X, < ----------- ■- — , (4.18)
1+МА j/"(rt-l)r |
1~ U—] / (n~7)7 |
2 9 |
2 r |
где |
|
Xt = — (Яг + Хг+1+ |
... +^'^+г-l)• |
151
Однако откуда мы можем знать, что неизвестный характеристиче ский корень Хі имеет кратность и, в частности, кратность, равную г? Этот вопрос может быть решен с помощью следующего критерия, пред ложенного в [15];
■— проверка гипотезы о равенстве нескольких (а именно г) характе ристических корней: Xt = Хі+1 = ... = Хі+Т^х. Очевидно, альтер нативой к этой гипотезе является утверждение, что не все корни среди
Хи Х;+1, ..., ^і+г_і равны |
между |
собой. Оказывается, в предполо |
|||||
жении справедливости проверяемой гипотезы статистика |
|
|
|||||
|
г + г—1 |
^ |
/ |
і + г—1 ^ \ |
|
|
|
|
уг=--(п— 1) 2 |
ln L + (и— 1) г In |
— |
2 |
) |
(4.19) |
|
|
J=i |
|
\ |
r |
j = i |
! |
|
распределена (асимптотически по n |
oo ) но закону %2 c (r (r + |
l)/2) — |
|||||
— 1 |
степенью свободы. Поэтому |
гипотеза Xt = |
Xi+1 = |
... = |
^;+г-і |
||
отвергается (с вероятностью ошибиться, равной а), если |
|
|
|||||
|
Уг>Ха r J ^ l - Л |
|
|
|
|
||
где |
Ха{т) — 100 а%-ная |
точка |
^-распределения с т степенями |
свободы.
Заметим, что особый интерес может представить специальный слу чай і = р — г + 1, т. е. проверка гипотезы о равенстве последних г собственных значений X, что будет означать независимость и сферич ность г последних признаков исследуемого вектора наблюдений.
Возвратимся к примеру 1. Тот факт, что оценка второго собствен
ного значения |
(Х2 = 6,50) попадает в доверительный интервал |
для |
||
Л3 (см. выше), |
приводит нас к мысли, что, возможно, Х2 = |
Х3. |
Прове |
|
рим эту гипотезу. В нашем случае п = 24, р = 3, і = 2, |
г = |
2, |
так |
|
что |
|
|
|
|
у2- |
—23 (In 6,50 + ln 2,86) + 46 ln 6’50+ 2,88 = 3,70. |
|
|
Апоскольку %о,05 (2) = 5,99 и, следовательно,
Т2 < Х о,05(2),
то гипотезу Х2 = Х3 следует принять. Но тогда нужно пересчитать до верительный интервал для Х2 с учетом его кратности (в соответствии
с (4.18)). Несложные подсчеты |
(при |
а = 0,05 и, соответственно, |
и а = «о,025 = 1 .96) дают: 2,62 ^ |
Х2 ^ |
6,21, |
”2
где последнее неравенство будет справедливо в среднем в 95 случаях из 100;
— проверка гипотезы о независимости признаков + 1), + 2)...... л+>, являющихся компонентами вектора наблюдений X. Такая проверка нужна для установления целесообразности применения метода главных компонент: ведь, если признаки являются взаимно независимыми, то переход к главным компонентам сведется по существу лишь к упорядо чиванию исходных признаков по принципу убывания их дисперсий.
152