
Многомерный статистический анализ (128
..pdf2.2.Интервальное оценивание и проверка гипотез
опараметре μ при неизвестной матрице ковариаций
Пусть ξ1, ξ2 , ξ3 , ..., ξn – выборка из нормальной совокупно-
сти, ξi ~ N(μ, D); μ, D – неизвестны.
Для того чтобы получить доверительную область для параметра μ, необходимо воспользоваться выражением для квадратичной
формы Q, в которой вместо неизвестной теперь матрицы D следует подставить ее несмещенную оценку S.
Определение 2.2. Статистикой Хотеллинга T 2 называется случайная величина, равная
T 2 = n(μ −μ)′S −1(μ −μ). |
(2.5) |
Нетрудно видеть, что статистика (2.5) определяет в некотором смысле «расстояние» между вектором средних μ и его оценкой μ.
Чтобы применять статистику T 2 для решения требуемых задач, необходимо знать ее распределение.
Теорема 2.2. Случайная величина Q, определяемая по формуле
Q = |
T 2 |
|
n − p |
, |
(2.6) |
|
n −1 |
p |
|||||
|
|
|
имеет распределение Фишера F( p, n − p) с (p, n – p) степенями
свободы.
Доказательство опускается.
Теорема 2.2 позволяет находить доверительное множество Ω(μ) для вектора средних точно таким же образом, как и при из-
вестной D. Точнее,
|
|
n(μ −μ)′S−1(μ −μ) < |
p(n −1) |
|
|
|
|
|
|||||
Ω(μ) = μ |
|
zγ |
, |
|||
n − p |
||||||
|
|
|
|
|
||
|
|
где zγ – квантиль уровня γ распределения Фишера.
Аналогично записывается критическое множество для проверки гипотезы (2.3) о значении вектора средних μ.
21

Некоторые изменения возникают при проверке гипотезы (2.4) о равенстве средних двух нормальных совокупностей с одинаковыми (но неизвестными) матрицами ковариаций D. В этом случае в качестве совместной (по обеим выборкам) оценки матрицы D используется статистика
S0 = |
1 |
((n −1)S1 |
+ (m −1)S2 ), |
|
m + n − 2 |
||||
|
|
|
где S1, S2 – несмещенные оценки D по каждой выборке соответ-
ственно.
Тогда критерий проверки гипотезы однородности определяется статистикой T 2 вида
T 2 = mmn+ n (μ1 −μ2 )′S0−1(μ1 −μ2 )
с критической областью
|
|
|
mn |
(μ1 −μ2 )′S0−1(μ1 −μ2 ) > |
(m + n − 2) p |
|
|
|
|
|
|
|
|
||||||
Xкр = μ1 |
, |
μ2 |
z1−α |
, |
|||||
|
|
||||||||
|
|
|
m + n |
|
m + n − p −1 |
|
|
||
|
|
|
|
где z1−α определяется очевидным образом.
Рассмотрим обобщение гипотезы (2.4) однородности двух выборок.
Пусть имеются q выборок ξi , |
ξi ,..., |
ξi |
, i = |
|
. Как и ранее, |
|
1, q |
||||||
|
1 |
2 |
n |
|
|
|
|
|
|
i |
|
|
|
ξij ~ N(μi , D). |
|
|
|
|
|
|
Требуется проверить гипотезу |
|
|
|
|
|
|
H0 : |
q |
|
|
(2.7) |
||
βi |
μi = μ0 , |
|
||||
|
i=1 |
|
|
|
|
|
где βi – известные числа; μ0 |
– известный числовой вектор. |
|||||
22 |
|
|
|
|
|
|
|
|
q |
|
|
|
1 |
|
q |
|
|
|
|
|
|
|
|
||
Обозначим |
n = ∑ni ; |
|
S0 = |
∑(ni |
−1)Si |
– |
объединенная |
|||||||||||
|
|
|
|
|||||||||||||||
|
i=1 |
|
|
|
|
n − q i=1 |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
q |
β2 |
−1 |
; μ |
|
– оценка вектора |
|||||
оценка матрицы ковариаций; δ = |
|
|
i |
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
∑ n |
|
|
|
|
|
i |
|
|
||
средних i-й выборки. |
|
|
|
|
|
i=1 |
|
i |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Статистика Хотеллинга имеет вид |
|
|
|
|
|
|
|
|
|
|
||||||||
T 2 |
|
q |
|
− μ |
|
′ |
|
|
q |
|
β |
μ |
|
− μ |
|
(2.8) |
||
= δ |
β μ |
i |
0 |
S −1 |
|
∑ |
i |
|
||||||||||
|
|
∑ i |
|
|
|
|
i |
|
|
|
0 |
|
||||||
|
i=1 |
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
ираспределенапозакону χ2 (n− p) присправедливостигипотезы(2.7).
3.ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Внастоящем разделе рассматривается задача классификации многомерных наблюдений, т. е. отнесение результата эксперимента к одной из нескольких возможных совокупностей. Такие задачи широко применяются в теории надежности, медицине, социологии
идругих отраслях науки.
Мы рассмотрим данную задачу в наиболее простой постановке: наблюдения необходимо отнести к одной из двух возможных совокупностей, цены ошибок классификации одинаковы, априорные вероятности появления наблюдений из разных совокупностей также одинаковы (и, следовательно, равны 0,5).
Предположим, что распределения обеих совокупностей полностьюопределены, т. е. ξ ~ N(μi , D), i = 1, 2, где μi , D – известны.
Рассмотрим отношение правдоподобия для двух возможных нормальных плотностей
|
n(ξ;μ1 |
, D) |
|
exp |
− |
1 |
(ξ−μ1)′D−1 |
(ξ−μ1) |
||||
λ = |
= |
|
|
2 |
|
|
|
= |
||||
n(ξ;μ2 |
, D) |
exp |
− |
1 |
(ξ−μ 2 )′D |
−1 |
|
|||||
|
|
|
|
|
|
2 |
|
(ξ−μ 2 ) |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
= exp[− |
1 |
((ξ −μ1)′D−1 |
(ξ−μ1) −(ξ −μ 2 )′D−1(ξ−μ 2 ))]. |
|||||||||
|
||||||||||||
|
2 |
|
|
|
|
|
|
|
|
|
|
23

Согласно общему принципу отношения правдоподобия, наблюдение ξ следует отнести к первой совокупности, если выполняется неравенство λ ≥ k, или ln λ ≥ ln k. Здесь k – некоторая
константа. Преобразуя показатель степени, легко получить последнее неравенство в виде
ξ′D−1 (μ1 −μ 2 )− 12 ( (μ1 +μ 2 )′D−1(μ1 −μ 2 )) ≥ ln k.
Для рассматриваемого случая одинаковых цен ошибок и вероятностей появления элементов каждой совокупности справедливо равенство k = 1, или ln k = 0.
Обозначим множество векторов ξ, |
которые будут отнесены к |
|||||||||
первой совокупности, через X1. Очевидно, что оно имеет вид |
||||||||||
′ |
−1 |
|
|
1 |
|
′ |
|
−1 |
|
|
X1 : ξ D |
|
(μ |
1 −μ2 ) ≥ |
|
(μ1 +μ 2 ) |
D |
|
(μ1 −μ 2 ) . |
(3.1) |
|
|
2 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
Неравенство (3.1) |
определяет разбиение пространства |
R p на |
две части плоскостью, которая называется дискриминирующей или разделяющей. В частном случае p = 2 разделяющая плоскость является прямой (рис. 3).
Рис. 3
24

При классификации наблюдений возможны ошибки – отнесение наблюдений не к той совокупности, из которой они извлечены. Пусть Hi , i =1, 2 – событие, означающее, что наблюдение извле-
чено из i-й совокупности. Тогда вероятности ошибок классификации можно записать следующим образом:
P(1 2)= P(ξ X1 H2 ); P(2 1)= P(ξ X |
2 H1 ). |
(3.2) |
Для определения вероятностей (3.2) рассмотрим случайную величину
u =ξ′D−1 (μ1 |
−μ2 ) − |
1 |
((μ2 +μ1)′D−1(μ1 −μ 2 )). |
|
2 |
||||
|
|
|
Так как u есть линейная комбинация нормальных величин, то она также имеет нормальное распределение N(ai , σ2 ). Найдем
параметры распределения для i = 1. Получим
|
a 1 =μ1′D−1 (μ1 −μ 2 ) − |
1 |
|
((μ2 +μ1)′D−1(μ2 −μ1)) = |
||||
2 |
|
|||||||
|
|
|
|
|
|
|
(3.3) |
|
|
|
|
1 |
( (μ1 −μ 2 )′D−1(μ |
1 −μ 2 )), |
|||
= |
|
|||||||
|
|
|||||||
2 |
|
|
|
|
|
|||
σ2 = E ((μ1 −μ 2 )′D−1(ξ−μ1)(ξ−μ1)′D−1(μ1 −μ 2 )) = |
||||||||
= ((μ1 −μ 2 )′D−1(μ1 −μ 2 )). |
(3.4) |
|||||||
|
||||||||
Таким образом, параметры выражаются через расстояние |
||||||||
Махаланобиса между двумя |
нормальными |
совокупностями |
||||||
δ = ((μ1 −μ 2 )′D−1(μ1 −μ 2 )). |
|
|
|
|
||||
Окончательно получим, |
что если ξ~ |
N(μ1, D) , то |
||||||
u ~ N( |
1 |
δ, δ). |
|
|
|
|
||
|
|
|
|
|
||||
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |

Совершенно аналогично показывается, что если ξ ~ N(μ 2 , D),
то u ~ N(− 1 δ, δ) . |
|
|
|
|
2 |
|
|
|
|
Таким образом, вероятности ошибочной классификации оди- |
||||
наковы и равны: |
|
|
|
|
P(2 1)= P(ξG X2 H1 )= Φ |
0 −0,5δ |
=1−Φ |
δ |
, |
|
δ |
|
2 |
|
где Φ(x) – функция Лапласа.
До сих пор считалось, что распределения обеих совокупностей известны. На практике это бывает очень редко. Чаще всего исследователь имеет в своем распоряжении так называемые обучающие выборки, т. е. выборки наблюдений, о каждой из которых точно известно, из элементов какой совокупности они состоят. В этом случае оценивают по обучающим выборкам неизвестные параметры μGi , D согласно формулам разд. 1 (заметим, что для матрицы
ковариаций используют объединенную по обеим выборкам оценку S ) и подставляют эти оценки вместо действительных значений параметров. В частности, вместо случайной величины u используется ее выборочный аналог v, т. е.
G |
−1 |
|
|
1 |
|
|
−1 |
|
|
|
v =ξ′S |
|
(μ1 |
−μ2 ) − |
|
((μ 2 |
+μ1 )′S |
|
(μ1 |
−μ2 )). |
(3.5) |
|
2 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
Распределение случайной величины v является очень сложным, однако при больших объемах обучающих выборок справедлива
следующая теорема. |
|
|
|
|
||
G |
Теорема 3.1. Пусть имеются две обучающие выборки ξG1, ξG2 , |
|||||
G |
G |
G |
G |
G |
ξi ~ N(μ1, D), |
|
Gξ3 |
,...,ξn |
и η1, |
η2 , |
η3 ,..., |
ηm , причем |
|
ηj |
~ N(μ2 , |
D) . Тогда при m, |
n →∞ справедливы утверждения: |
–распределение v сходится к распределению u;
–значения вероятностей ошибочной классификации, определяемые с использованием оценок параметров, сходятся к истинным значениям этих вероятностей.
26
4. МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Во многих исследовательских работах число рассматриваемых случайных величин очень велико. Поскольку главный интерес представляют отклонения величин от их средних, методы сокращения числа этих величин состоят в том, что их линейные комбинации с малыми дисперсиями (т. е. практически не меняющиеся от наблюдения к наблюдению) отбрасываются, а рассматриваются линейные комбинации только с большими дисперсиями. Вполне может оказаться, что различия между наблюдениями (т. е. описываемыми ими индивидуумами) сводится лишь к небольшому числу линейных комбинаций.
Пусть ξ~ N(μG, D). Поскольку будут рассматриваться только
корреляционные связи между компонентами вектора ξ, без ограничения общности можно положить μ = 0.
Поставим задачу: найти такую линейную комбинацию u =βG′ξG компонент ξi вектора ξG, которая имела бы наибольшую диспер-
сию. Естественным условием является нормированность вектора
G
коэффициентов β, поскольку иначе задача не Gимеет решения. Другими словами, должно выполняться условиеβ′β =1.
Найдем среднее и дисперсию случайной величины u. Очевидно, что
Eu = 0; Du = |
′GG′G G′ G |
Eβ ξξ β= β Dβ. |
Таким образом, необходимоG G найти условный максимум Du при наличии ограничения β′β =1.
Функция Лагранжа имеет вид
′ G |
G′G |
(4.1) |
L = β Dβ−λ(β β−1), |
где λ – множитель Лагранжа.
Дифференцируя (4.1) по параметру β и приравнивая производную нулю, получаем
27

∂∂βLG = 2DβG − 2λβG = 0,
что эквивалентно однороднойG системе линейных уравнений для компонент вектора β
(D −λE)β = 0, |
(4.2) |
где E – единичная матрица.
Для того чтобы система имела ненулевое решение, необходимо выполнение условия
D −λE |
|
= 0. |
(4.3) |
|
Следовательно, множитель Лагранжа является собственным числом матрицы ковариации D. Так как D – симметричная, по- ложительно-определенная матрица, то имеется p положительных собственных чисел. Расположим их в порядке убывания:
λ1 ≥ λ2 ≥ ... ≥ λp .
Умножим (4.2) слева на β′. Получим
βG′(D −λE)βG = 0 βG′DβG = λ.
Так как Du = λ, а требуется найти наибольшую дисперсию, то
положим λ = λ1.
Решая с выбранным λ = λ1 систему (4.2), получим в качестве решения нормированный собственный вектор. Обозначим его βG1. Таким образом, линейная комбинация u1 = β1' ξG является решением
поставленной задачи. Она называется первой главной компонентой вектора ξ.
Найдем теперь линейную комбинацию u2 =β′ξG, обладающую
наибольшей дисперсией среди всех комбинаций, некоррелирован- |
||
' G |
= 0, |
′ G |
ных с u1 =β1ξ. Уточним, что, как и ранее, Eu2 |
Du2 = β Dβ. |
|
28 |
|
|
Из условия некоррелированности следует
|
|
GG G |
G |
G |
G G |
|
|
0 = cov (u2 , u1) = Eβ′ξξ′β1 = β′Dβ1 = λ1β′β1, |
|
||||||
так как βG1 – собственный вектор. |
|
|
|
|
|
||
В силу того, что λ1 ≠ 0, |
получим β′βG1 = 0, т. е. эти векторы ор- |
||||||
тогональны. |
|
|
|
|
|
|
|
Учитывая это условие, напишем функцию Лагранжа |
|
||||||
G |
G |
G G |
|
G |
G |
|
|
L =β′Dβ−λ(β′β−1) − |
2νβ′Dβ1 |
, |
|
||||
где λ, ν – множители Лагранжа. |
|
|
|
|
|
||
Дифференцируя L по β, |
получим |
|
|
|
|
||
∂LG |
= 2DβG −2λβG − 2νDβG1 = 0. |
|
|
||||
∂β |
|
|
|
|
|
|
|
Умножим это равенство слева на β1′, |
тогда |
|
|
||||
G |
G |
G G |
G |
G |
|
νλ1. |
|
0 = 2β1′Dβ− 2λβ1′β− |
2νβ1′Dβ1 |
= −2 |
|
||||
Отсюда v = 0, и Gдля решения поставленной задачи необходимо |
|||||||
минимизировать поβ функцию Лагранжа (4.1). |
|
|
|||||
Повторяя все выкладки, |
получим, что в качестве λ необходи- |
||||||
мо взять второе по величине собственное число λ = λ2 , |
а в качест- |
||||||
ве вектора коэффициентов |
β2 – |
собственный вектор, |
соответст- |
||||
|
|
G |
|
|
|
|
G |
вующий этому числу, причем β′2β2 = 1. Величина u2 = β′2ξ назы-
вается второй главной компонентой вектора ξ.
Повторяя этот процесс, можно показать, что существуют p некоррелированных (следовательно, независимыхG ) нормальных слу-
чайных величин u1, u2 , ..., up , ui = βi' ξ, где βi – собственные
векторы матрицы ковариаций, Dui =λi – собственные числа той же матрицы, расположенные в порядке убывания.
29

На практике из рассмотрения исключают те величины ui с
наибольшими номерами, суммарная дисперсия которых составляет 15…20 % от общей суммы дисперсий.
Напомним, что из свойств собственных чисел следует, что сумма дисперсий компонент исходного вектора ξ равна сумме
p p
собственных чисел матрицы D, т. е. ∑λi = ∑Dξi .
i=1 i=1
Часто в качествеG меры разброса, характеризующей распределение вектора ξ, используется обобщенная дисперсия, равная по определению детерминанту матрицы ковариаций. Ясно, что при переходе от исходного вектора ξ к вектору главных компонент uG = (u1, u2 , ..., up ) обобщенная дисперсия не меняется,
p
так как D = ∏λi .
i=1
5. КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ
В настоящем разделе решается задача выделения наиболее коррелированных между собой линейных комбинаций из двух множеств случайных величин. Решение этой задачи имеет большое значение в том случае, если рассматриваемые множества очень велики и естественно ограничиться использованием небольшого числа линейных комбинаций из каждого множества.
Пусть ξ~ N (μG, D). Нас будут интересовать только дисперсии
и ковариации случайныхG величин, поэтому без ограничения общности положим μ = 0.
G |
G |
|
ξG |
|
Пусть |
G |
, |
G |
Разобьем вектор ξ |
на два подвектора: ξ = G1 |
. |
ξ1 |
ξ2 |
||||
|
|
|
ξ2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
имеют размерности r, m соответственно. Положим r ≤ m . Матрица ковариаций разбивается аналогичным образом на блоки с r, m строками и столбцами:
|
D |
D |
|
, |
D = |
11 |
12 |
|
|
D21 |
D22 |
|
|
30