Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

5.1. Доверительные интервалы

 

51

4. если математическое ожидание неизвестно, то

( 2) =

nS2

;

 

 

 

ãäå, íà ýòîò ðàç, квантили распределения хи-квадрат с n ñòå-

пенями свободы.

 

 

Описанное выше построение точных доверительных интервалов осно-

вано на следующей теореме Фишера, доказательство которой дается в

курсе математической статистики.

 

 

Теорема 4 (Фишер) Пусть X выборка из нормального распределе-

ния с параметрами a;

2 объема n. Тогда

 

 

1.

X a p

 

имеет стандартное нормальное распределение;

n

 

 

 

 

 

 

 

 

 

 

 

 

2.

nSa2= 2, ãäå Sa2 =

n1

in=1(xi a)2 имеет распределение хи-квадрат

 

ñ n степенями

свободы;

 

 

 

 

 

P

 

 

3.

nS2= 2 имеет распределение хи-квадрат с n 1 степенями свободы

 

и не зависит от

 

 

 

 

 

 

 

 

 

 

 

 

X;

 

 

 

4.

X a p

 

 

 

 

 

 

 

n 1

имеет распределение Стьюдента с

n 1

степенью сво-

S

 

 

 

 

 

áîäû.

В случае, когда распределение не является нормальным, первые две формулы используют для построения асимптотических доверительных интервалов для математического ожидания. Построение же доверительных интервалов для других параметров представляет из себя как правило, достаточно сложную задачу. Иногда ее удается решить, хотя бы в асимптотическом смысле, найдя для неизвестного параметра оценку, имеющую в пределе нормальное распределение.

Теорема 5 Пусть - асимптотически нормальная оценка неизвестного параметра , имеющая асимптотически нормальное распределение с известным коэффициентом рассеивания 2, ò.å.

P(( )pn < x) ! x

52

Глава 5. Доверительные множества

при произвольном x, тогда доверительный интервал для может быть в асимптотическом смысле построен по формулам

 

pn; +

pn!

;

 

t

t

 

 

 

 

 

 

 

 

 

ãäå t - соответствующая квантиль стандартного нормального распределения.

5.2Доверительные множества

Возможны разные обобщения понятия доверительного интервала на слу- чай многомерного параметра. В общем случае, если параметр ~

имеет

размерность m, то при фиксированном малом числе подмножество A m-мерного пространства называют доверительным уровня 1 , åñëè

~

2 A ) 1 :

P(

Задача построения доверительных множеств однозначно не решается и еще более сложна, чем задача построения доверительных интервалов. Но в случае нормальной совокупности нам известны совместные распределения выборочных средних и дисперсий, поэтому кое-что все же построить можно.

Далее разобраны отдельно случаи многомерного параметра для одномерного распределения и многомерной выборки.

5.2.1Многомерный параметр

В случае выборки из (одномерного) нормального распределåíèÿpñ ïараметрами a; 2 нам известно, что случайная величина = X a n èìå-

ет стандартное нормальное распределение, а случайная величина =

nS2= 2 распределение хи-квадрат с n 1 степенью свободы, причем эти величины независимы. Учтем теперь, что одновременное выполнение неравенств

 

 

2

 

 

 

 

nS

 

 

 

X a

p

 

< b2

c1 <

 

< c2; b1

<

n

2

 

 

 

 

 

для произвольных чисел b1; b2; c1; c2 влечет выполнение неравенств

nS2

 

2

 

nS2

 

 

Sb2

 

 

Sb1

 

 

<

 

<

 

 

; X

p

 

< a < X

p

 

;

c2

 

 

c1

 

 

c1

c2

5.2. Доверительные множества

53

а значит последние неравенства имеют, вообще говоря, большую, чем первые совместную вероятность. Зафиксируем малые числа ; è ïîëî-

æèì c1 = =2; c2 = 1 =2 квантили хи-квадрат распределения с n 1

мального

 

 

 

b1

= b2 = t1 =2

 

 

 

 

 

степенями свободы,

 

 

 

 

 

 

 

квантиль стандартного нор-

 

распределения, так что

 

 

 

Тогда

P(c1 < < c2) = 1 ; P(b1 < < b2) = 1 :

 

1 =2 <

 

 

 

; X

 

 

 

< a < X + p 1 =2

 

P

 

<

=2

p =2

 

 

nS2

 

2

 

nS2

 

St1 =2

 

St1 =2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(1 )(1 ):

Осталось только подобрать числа ; так, чтобы (1 )(1 ) = (1 ) произвольным образом, например, положив

p

1 = 1 = 1 ;

и требуемое доверительное множество, имеющее прямоугольную форму, построено.

Для распределений, отличных от нормального, ограничимся рассмотрением алгоритма построения асимптотического доверительного множества в достаточно широких предположениях регулярности. Все доказательства и подробное изложение упомянутых условий можно найти в [4, с. 264 - 265].

Предположим, что нам известен аналитический вид плотности распределения наблюдаемой случайной величины или мы умеем вычислять

функцию правдоподобия L, тогда эллипсоидальное доверительное множество для m-мерного параметра задается как

f~ j ~ ~ g t L(X; t) L(X; ) =2 :

Здесь квантиль хи-квадрат распределения с k степенями свободы, а

~ оценка максимального правдоподобия (многомерного) параметра ~

.

5.2.2Многомерная выборка

Рассмотрим для примера построение доверительного множества для вектора ~a математических ожиданий k-мерного нормального распределения

54

 

 

 

Глава 5. Доверительные множества

с известной ковариационной матрицей V . Согласно теореме 3 V 1(X

 

 

 

 

 

 

 

 

 

~a) (X ~a) имеет хи-квадрат распределение с k степенями свободы. Обо-

значая квантиль соответствующего распределения через

1

 

доверительное множество, имеющие вид эллипсоида,

 

 

 

 

 

 

 

 

задаваемого, получаемсоот-

ношением

~

1 ~

 

~

 

 

 

 

 

 

(5.1)

 

ft j V

(t

X) (t

X) < 1 g:

 

 

 

Можно также построить асимптотически доверительное множество,

имеющее вид эллипсоида, отказавшись от предположения нормально-

 

 

~

 

 

сти выборки, если для соответствующего k-мерного параметра имеется

асимптотически нормальная оценка ~ , т.е. распределение

~

~ p

 

ñ

 

(

)

n

 

ростом объема выборки n сходится к многомерному нормальному с ну-

левым вектором средних и некоторой ковариационной матрицей V , которую мы будем считать известной. Тогда для построения доверительного

множества уровня доверия 1 достаточно построить такой эллипсоид

â k-мерном пространстве, который содержит внутри себя соответствующую долю всех значений нормального распределения. Согласно теореме 3 , требуемый эллипсоид имеет вид (5.1), только вместо

X следует напи-

ñàòü ~ .

Построенные доверительные множества можно использовать для проверки некоторых гипотез, например, о равенстве значений некоторого параметра в случае наблюдения двух (и более) выборок. Пусть высказывается гипотеза о равенстве векторов математических ожиданий двух

выборок. Построим два доверительных множества A ; A

ческих ожиданий и изучим их пересечение. Если это1 пересечение2 для математипусто-

или имеет относительно небольшой размер, то гипотезу нужно отвергнуть.

Аналогичным образом можно и проверять гипотезы однородности, применяя для этого вместо доверительных множеств толерантные, построение которых описано в следующем разделе. Сравните предложенную процедуру с ранее описанной в 3.3.2 .

5.3Толерантные множества

Множество, содержащее заданную долю всех значений наблюдаемой величины (или вектора), называется толерантным множеством заданного уровня. Конечно же, в одномерном случае рассматриваются толерантные интервалы. Как мы видим, задача построения толерантного множества

5.3. Толерантные множества

55

уровня 1 близка к задаче оценивания границ интервала, образован-

ными квантилями уровней =2 è 1 =2 наблюдаемого распределения. Опишем процедуру построения толерантных интервалов для нормального распределения.

Будем считать, что требуется построить толерантный интервал для стандартного нормального распределения. Положим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

X+ S

 

 

 

 

 

 

Z

expft2=2gdt:

 

 

 

 

A( ; S)

=

p

 

 

 

 

 

2

 

 

 

 

 

 

 

 

X S

 

Для заданного " требуется найти такое , что

 

 

 

 

P(A( ; S) > ) = 1 ":

Зафиксируем

 

 

 

 

 

 

 

 

 

 

X. Единственный (в силу того, что по S функция A( ; S)

монотонно возрастает) корень уравнения A( ; S) = обозначим S( ; ).

Введем также обозначение

 

 

 

 

 

 

 

 

 

 

r( ) = S( ; ):

Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

X+r( )

 

 

 

 

 

Z

expft2=2gdt

= (X + r( )) (X r( )) = ; (5.2)

 

p

 

 

2

 

 

 

X r( )

 

 

 

 

 

 

что означает, что при заданных

X; число r( ) однозначно определено

и не зависит от .

Кроме того, неравенство A( ; S) > эквивалентно неравенству S > r( )= : Отсюда

P(A( ; S) > j X) = P nS2 >

nr2( )

j X! :

2

 

При этом величина nS2 по теореме Фишера имеет хи-квадрат распреде-

 

 

 

 

ление с n 1 степенями свободы и не зависит от X, а значит, может

быть найдено из условия

 

 

 

P n2 1 >

nr2( )

! = 1 ":

2

 

56

Глава 5. Доверительные множества

Это рассуждение носит, конечно же, чисто теоретический характер. Теперь же укажем один из приближенных методов, дающий обычно достаточно точный результат, для определения безусловной вероятности

P(A( ; S) > ): Разложим функцию

 

 

f(X) = P(A( ; S) > j X)

по степеням

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X. Поскольку она, очевидно, является четной функцией, то

 

 

 

 

 

2

 

 

 

 

 

 

 

f(X) = f(0) +

X

f00

(0) + o(X4):

(5.3)

 

 

 

2!

 

 

 

 

 

 

 

 

 

Вычислим математическое ожидание по

 

 

 

 

равенства:

 

 

 

 

 

 

 

X от обеих частей последнего

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(A( ; S) > ) = f(0) +

 

1

f00(0) + o(

1

):

 

 

 

 

 

 

 

 

 

2n

n2

Подставляя в (5.2)

 

1

 

 

 

 

 

 

 

 

 

 

 

X =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нем равенстве можно

заменить, видим,на что первые два слагаемых в послед-

 

pn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

P(A( ; S) > j

p

 

), откуда

 

 

 

 

n

1

P(A( ; S) > ) P(A( ; S) > jpn):

Подведем итог. Для построения толерантного интервала необходимо по заданному (уровню доверия) найти число r из (5.2), полагая

 

1

 

1 " найти критическую точку t" ðàñ-

X =

p

 

 

n

, затем по вероятности

пределения 2n 1 и вычислить

s

= r n : t"

Требуемый интервал будет иметь вид

(X S; X + S):

В многомерном случае нами уже решена задача построения толерантного эллипсоида для нормального распределения с известной ковариационной матрицей, см (5.1).

Изложим один свободный от распределения алгоритм построения толерантного интервала в одномерном случае. За обоснованиями отсылаем читателя к [5, с. 695-697].

5.3. Толерантные множества

57

Введем обозначения. Через F обозначим (неизвестную) функцию распределения наблюдаемой случайной величины, через X(k) k-ю порядко-

вую статистику, т.е. k-й по величине выборочный элемент, если выборка упорядочена по возрастанию. Поставим задачу построения толерантного

интервала, содержащего долю всех значений наблюдаемой случайной

величины с вероятностью 1 . Как уже отмечалось, естественно искать решение этой задачи в виде

P(F (X(s)) F (X(r)) ) = 1 :

В [5] показано, что это соотношение эквивалентно следующему

1

B(s

 

 

r; n

s + r + 1)dx = 1 ;

Z

 

 

xs

r 1(1 x)n s+r

 

 

 

 

 

ãäå

1

Z

B(a; b) = xa(1 x)bdx

0

бета-функция. Если у исследователь имеет инструментарий для численного расчета неполной бета-функции, то последнее соотношение может быть записано в виде

1 I (s r; n s + r + 1) = 1 :

На практике числа ; задаются или заранее известны, а r; s задаются симметрично, так что s = n r + 1. Тогда

I (n 2r + 1; 2r) = :

Конечно, же, последнее уравнение относительно r должно решаться численно или при помощи таблиц. А такие существуют! См. [6, c. 284, объяснения на с.67] . Несколько ободряющим обстоятельством на трудном пути построения толерантных интервалов в этой ситуации может служить то, что построенные интервалы годятся для любых исходных распределений, и перед нами не стоит обычная проблема проверки гипотезы нормальности.

58

Глава 5. Доверительные множества

5.4Засоренная и малая выборка

Проблемы борьбы с грубыми ошибками измерений были описаны выше. В этом разделе мы рассмотрим случай, когда после отбрасывания посторонних значений или по другим причинам (например, в случае дорогих или недоступных дополнительных наблюдений) в нашем распоряжении осталась выборка, объем которой недостаточен для принятия решения.

Задачи, связанные с малой выборкой, часто возникают на практике, и им посвящена специальная литература, см. например, [7] . Мы же упомянем здесь только один специальный метод, направленный на увеличение объема выборки метод статистического моделирования bootstrap, принадлежащий В.Эфрону. Этот метод рекомендует принять имеющуюся выборку за генеральную совокупность и при помощи случайного отбора формировать из нее новые данные.

Глава 6

Регрессионный анализ

6.1Постановка задачи

Пусть мы наблюдаем две случайные величины и пытаемся понять, за-

висимы ли они между собой. Если это одномерные случайные величи-

ны, то можно проверить гипотезу независимости, используя алгоритмы,

описанные в 3.3.1. Если же мы имеем дело с векторами, то можно свести

задачу к изучению зависимости их координат.

 

Предположим, что гипотеза независимости отвергнута, т.е. мы при-

знаем наличие некоторых связей между наблюдаемыми величинами. По-

пробуем определить характер этой связи и выписать формулы, достаточ-

но точно выражающие количественную сторону этой зависимости. То,

что сейчас будет проделано, называется постановкой задачи линейной

регрессии.

 

 

Наблюдаемый вектор ~

(Z1; :::; Zk) условимся считать неслучай-

Z =

ным. Это предположение делается потому, что при проведении наших

выкладок мы будем пользоваться уже имеющимися выборочными дан-

ными, которые изменяться не могут. Координаты вектора

~

 

 

Z принято

 

 

~

называть факторами. Величина X, вид зависимости которой от Z èçó-

чается, будет считаться одномерной и случайной. Случайность появится

при расчете ее значений по заданному ~

 

 

Z в виде случайной помехи. Ста-

вится задача найти наилучшее представление в виде

 

 

k

 

 

jX

 

X =

jZj + ;

(6.1)

 

=1

 

59

ãäå j; j = 1; :::; k
60

Глава 6. Регрессионный анализ

неизвестные постоянные коэффициенты, называемые коэффициентами регрессии, - случайная помеха.

Как правило, делается предположение, что имеет нормальный характер, но мы такого предположения делать не будем. Договоримся только, что математическое ожидание помехи равно 0, а дисперсия 2 îíà нам неизвестна, но остается неизменной в процессе проведения эксперимента. Назовем ее остаточной дисперсией.

Коэффициенты регрессии и остаточная дисперсия вместе называются параметрами регрессии. Ставится задача по выборочным данным (см. ниже) наилучшим образом оценить параметры регрессии.

Несмотря на кажущийся ограничительный характер постановки задачи, модель линейной регрессии может включать в себя и зависимости более высоких, чем первая, степеней, а также так называемые парные, тройные и т.д. взаимодействия. Для того, чтобы включить в модель (6.1), например, слагаемое Z2Z

эксперименте, еще одну1координату,3, добавимсвязаннуюквектору,снаблюдаемомупервойи третьейв нашемвыпи-

санной формулой. Выборочные данные также дополним одной строкой, которая будет вычисляться по той же формуле.

Сходные действия (добавление в модель регрессии нелинейных слагаемых с одновременным преобразованием выборочных данных) рекомендуется предпринять, если после нахождения коэффициентов регрессии они оказываются слишком малы, или остаточная дисперсия оказывается слишком велика. О выборе подходящей модели регрессии и разнообразных методах оценки ее параметров, отличных от изложенных ниже, можно почитать в замечательной книге [8] , практически целиком посвященной этим вопросам.

Сформулируем требования к выборочным данным. Пусть проведено n независимых экспериментов, в каждом из которых замеряны значения

~

Z и переменной X, которая в задачах регрессии называется выходом

или откликом. Условимся, что значения случайной помехи при повторениях эксперимента были независимы друг от друга. Данные собраны в матрице

0 z1;1 z1;2

B

B z2.;1 z2;2

Z = B

B

@

zk;1 zk;2

1

::: z1;n

::: z2.;n C C

C ;

C

A

::: zk;n

в которой значения факторов Z1; :::; Zk в каждом из n экспериментов