
книги из ГПНТБ / Бендат Дж. Измерение и анализ случайных процессов
.pdf148 Глава 4
Таблица 4.3
Схема вычислений при применении критерия согласия
|
В ер х н я я |
граница |
р а зр я д а |
|
|
|
(F-f>2 |
Номер |
|
|
|
f |
F |
|f- f 1 |
|
р а зр я д а |
а |
га |
x = s z + x |
|
F |
||
|
|
|
|
|
|||
1 |
0,9375 |
—1,53 |
—4,79 |
13 |
12,5 |
0,5 |
0,02 |
2 |
0,8750 |
—1,15 |
—3,54 |
11 |
12,5 |
1,5 |
0,18 |
3 |
0,8125 |
—0,89 |
—2,68 |
14 |
12,5 |
1,5 |
0,18 |
4 |
0,7500 |
—0,67 |
—1,95 |
14 |
12,5 |
1,5 |
0,18 |
5 |
0,6875 |
—0,49 |
—1,35 |
15 |
12,5 |
2,5 |
0,50 |
6 |
0,6250 |
—0,32 |
—0,79 |
12 |
12,5 |
0,5 |
0,02 |
7 |
0,5625 |
—0,16 |
—0,26 |
12 |
12,5 |
0,5 |
0,02 |
8 |
0,5000 |
0 |
0,27 |
12 |
12,5 |
0,5 |
0,02 |
9 |
0,4375 |
0,16 |
0,79 |
10 |
12,5 |
2,5 |
0,50 |
10 |
0,3750 |
0,32 |
1,33 |
14 |
12,5 |
1,5 |
0,18 |
11 |
0,3125 |
0,49 |
1,89 |
10 |
12,5 |
2,5 |
0,50 |
12 |
0,2500 |
0,67 |
2,49 |
10 |
12,5 |
2,5 |
0,50 |
13 |
0,1875 |
0,89 |
3,22 |
12 |
12,5 |
0,5 |
0,02 |
14 |
0,1250 |
1,15 |
4,08 |
15 |
12,5 |
2,5 |
0,50 |
15 |
0,0625 |
1,53 |
5,33 |
13 |
12,5 |
0,5 |
0,02 |
16 |
0 |
|
|
13 |
12,5 |
0,5 |
0,02 |
|
|
|
|
200 |
200 |
|
3,36 |
N = 200 X — |
0,27 а = 3 ,3 1 п = К — 3 = 1 3 Х 2= 3 ,3 6 |
величин X 2 = |
3,36. Так как число степеней свободы п = К — 3 — |
= 13, то область принятия гипотезы составляет, по данным табл. А.З, X 2 < Хіз;о,оэ — 22,36. Следовательно, гипотеза о нор**
мальности распределения рассматриваемого процесса прини мается при уровне значимости а = 0,05.
4.7. Критерий серий
Рассмотренные в разд. 4.4 и-4.5 различные методы нахожде ния доверительных интервалов и проверки гипотез с использо ванием выборочных данных разработаны в предположении, что исходные случайные величины, из которых извлекаются выборки, подчиняются нормальному распределению. На практике эти методы с достаточной степенью точности можно применять, ве роятно, и для анализа многих случайных величин, не подчиняю щихся нормальному распределению. Однако не существует до статочно четкого критерия, пользуясь которым можно было бы определить, насколько может отличаться распределение случай^ ной величины от гауссовского, чтобы выборочные распределения^ приведенные в разд. 4.4, были уже неприменимы. Это затруднение можно обойти, если использовать статистические методы, в кото рых не вводится никаких предположений о конкретном виде рас-
Основные положения математической статистики |
143 |
здэеделения изучаемой исходной случайной величины. Такие методы называются не зависящими от формы распределения,
или непараметрическими. К числу наиболее известных незави сящих от формы распределения критериев, которые применяются для оценивания, относится описанный в разд. 4.6 критерий согла сия X2При оценивании данных методами, изложенными в гл. 7, Сможет быть использован еще один важный критерий, не завися щий от формы распределения, — критерий серий.
Рассмотрим последовательность N наблюденных значений случайной величины х и каждое наблюденное значение отнесем к одной из двух взаимно исключающих категорий, которые мож- д)о обозначить просто знаками плюс (+) и минус (—). В качестве Простейшего примера приведем бросание монеты, когда каждое наблюдение дает либо решетку (+ ), либо герб (—). Второй при
мер— |
последовательность измеренных величин х іг і = |
1, 2, 3, |
..., N, |
среднее значение которых равно х . Каждое наблюденное |
|
значение х г ^ х (+ ) либо x t < х (—). Как третий пример можно |
||
привести последовательность пар наблюдений хг и уи і = |
1, 2, 3, |
|
..., N, |
где каждое наблюдение xt > уф+) или xt < уф—). В лю |
бом из этих случаев последовательность наблюдений, имеющих
знаКуплюс |
или |
минус, |
может выглядеть |
следующим образом: |
|||||
|
+ + |
- |
+ |
+ — + |
+ + |
— + |
----- + — — + |
---------- |
|
|
1 |
2 |
3 |
4 |
5 |
6 7 |
8 |
10 |1І |
12 |
^ р и е й |
назовем |
последовательность наблюденных значений, пе |
|||||||
ред которыми |
и после которых расположены наблюденные зна |
||||||||
чения |
другой |
категории |
или |
наблюдения |
отсутствуют вообще. |
В рассмотренном примере имеется г — 12 серий в последователь ности N = 20 наблюдений.
Число серий, которое встречается в последовательности на блюдений, позволяет определить, являются ли результаты незави симыми случайными наблюдениями над одной и той ж е случай
ной величиной. В частности, |
если последовательность N наблю |
|
дений |
представляет собой |
независимые наблюденные значения |
одной |
и той же случайной |
величины, т. е. вероятность знаков |
(+) и (—) не меняется от одного наблюдения к другому, то выбо рочное распределение числа серий в последовательности есть, случайная величина г со средним значением
|
IV |
2NtN2 |
|
(4.51) |
* |
N |
|
||
|
|
|
|
|
и дисперсией |
|
|
|
|
I |
„2_ 2 N 1M 2 ( 2 N 1N 2 - N ) |
(4.52> |
||
|
r ~ |
N 2 ( N — |
1) |
|
|
|
1 5 0 |
|
Глава 4 |
|
||
Здесь Nx — число наблюдений |
со знаком (+ ), N%— число на£і |
||||
•блюдений со знаком (—). |
В частном случае, когда Nx = |
Nz — |
|||
— |
N12, соотношения (4.51) |
и (4.52) |
принимают вид |
|
|
|
Mr |
N_ |
1 I |
(4.53) |
|
|
О “Ь |
||||
|
|
|
2 |
|
|
|
oh |
N (N — 2) |
(4.54) |
||
|
4 (Л/ — 1) |
||||
|
|
|
|
||
Б |
приложении приведена табл. |
А.7, |
содержащая некоторые дан |
ные с 100а%-ных точках функции распределения для критерия серий.
Вероятно, самое непосредственное применение для решение, задач оценивания данных критерий серий находит при провер-- ке независимости единичной последовательности наблюденных значений. Пусть имеются основания считать, что последователь ность наблюденных значений содержит тренд. Это означает, что вероятность знаков (+ ) или '(—) меняется от одного наблюденного значения к другому. Наличие тренда можно проверить следую щим образом. Введем в рассмотрение гипотезу об отсутствии трен да, т. е. предположим, что последовательность N наблюденных значений содержит только независимые значения одной и той же случайной величины. Полагая теперь, что число наблюденных значений со знаком (+ ) равно числу значений со знаком (—), можно считать, что число серий в последовательности будет иметь выборочное распределение, представленное в табл. А.6. Гипотезу можно проверить при любом заданном уровне значимости gt
путем сопоставления |
наблюденного числа |
серий |
с граничными" |
значениями гп; ! _ а/2 |
и гп; а/2, где п — N/2. |
Если |
наблюденное |
число серий выходит за границы этого интервала, гипотезу сле дует отвергнуть при уровне значимости а. В противном случае ее можно принять.
П рим ер 4.4. |
Применение |
критерия серий. Предположим, |
|||||
что последовательность N = 20 наблюденных |
значений случай |
||||||
ной величины состоит из следующих чисел: |
|
|
|||||
(1) |
5,5 |
(6) |
5,7 |
(П) |
6,8 |
(16) |
5,4 |
(2) |
5,1 |
(7) |
5,0 |
(12) |
6,6 |
(17) |
6,8 |
(3) |
5,7 |
(8) |
6,5 |
(13) |
4,9 |
(18) |
5,8 |
(4) |
5,2 |
(9) |
5,4 |
(14) |
5,4 |
(19) |
6,9 |
(5) |
4,8 |
(10) |
5,8 |
(15) |
5*9 |
(20) |
5,5 |
Определим, являются ли независимыми наблюденные значения путем проверки числа серий, которые встречаются, если отсчиты вать наблюденные значения от их медианы. Выполним проверку при уровне значимости а — 0,05.
Просматривая данные выборки, можно убедиться, что медиа-і ной 20 наблюденных значений служит величина х = 5,6. Будем
Основные положения математической статистики |
151 |
♦читать, что наблюденные значения свыше 5,6 имеют знак (+ ), а менее 5,6 — знак (—). В результате имеем последовательность
----- + -------+ — + — + |
+ |
+ -------+ — + + |
+ |
— |
||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
-Таким образом, из последовательности 20 наблюденных значе ний выделено 13 серий. Рассмотрим гипотезу о независимости на блюденных значений. Область принятия этой гипотезы определяет
ся |
интервалом |
[гю: і- а/2 < |
г < гю; а/2І- |
Из |
табл. А.6 |
при а = |
|
== 0,05 |
находим |
г10: і_ а/2 = |
По; ода = 6 |
и |
rW; а/2 = |
По; 0 ,0 2 5 = |
|
= |
15. |
Гипотеза принимается, так как значение г = 13 |
входит в |
^штерцал между 6 и 15. Итак, нет причин подвергнуть сомнению то обстоятельство, что наблюденные значения независимы. Эта значит, что нет никаких доказательств присутствия тренда.
4.8.Методы корреляционного и регрессионного анализа
Методы корреляционного и регрессионного анализа имеют су щественное значение при решении многих вопросов, затронутых в настоящей книге. Понятие корреляции между двумя случай ными величинами уже введено в гл. 3 и более детально будет рас смотрено в гл. 5 и 6. Понятие линейной регрессии играет важную роль при оценивании частотной характеристики системы по дан ным измерений на ее входе и выходе. Методы такого оценивания гашсаны в гл. 5 и 6. Однако содержащиеся в этих главах выклад ки относятся к различным функциям частоты; это в какой-то степени мешает увидеть связь с классическим анализом процес сов во временной области. Поэтому для лучшего усвоения после дующего материала ниже будут изложены в рамках элементар ной статистики основные сведения о корреляции и регрессии.
4.8.1. Линейная корреляция
При решении широкого круга задач прежде всего необходимо знать, связаны или не связаны между собой две или более слу чайные величины. Например, существует ли связь между коли чеством выкуренных сигарет и средней продолжительностью жизни или между способностями человека, выраженными коли чественными показателями, и его успехами в учебе или научной работе. Решение такого рода задач в инженерной практике обыч но сводится к выявлению зависимости между некоторой предпо лагаемой возмущающей силой и наблюдаемой реакцией исследуе- >мой физической системы. Существование этих связей и их тесно ту можно выразить коэффициентом корреляции р, который был
f
152 Глава 4
уже определен в подразд. 3.1.2. В простейшем случае, когда ра-б^ ■сматриваются две случайные величины х и у, коэффициент кор
реляции определяется формулой |
(3.28) |
|
Р х У |
X I ) |
(4.55) |
С |
|
ст.ѵ°У где Сх. — ковариация величии х н у, определяемая формулой«* (3.26).
Предположим теперь, что производится выборка из случай ных величин X и у, в результате чего получается N пар их на блюденных значений. Коэффициент корреляции можно оценить
по этим выборочным значениям следующим образом: |
м |
|||
|
|
N |
(Хі— х)(Уі — у) |
|
|
Sxy |
2 |
|
|
~ |
і = |
\ |
|
|
Г X У Рху |
Sx Sy |
|
1/2 |
— |
|
2 |
(хі— * ) 2 2 (Уі— у)й |
|
|
|
_ г |
= 1 |
( = 1 |
|
|
2 |
х;Уі—Nxy |
|
|
|
І = |
\ |
|
(4.56) |
|
|
|
' 1 /2 |
|
|
|
|
|
|
|
2 л 7 - е д 2У |
|
||
|
1=1 |
|
: =1 |
|
Как и величина рХ[/, выборочный коэффициент корреляции гху лет жит в пределах между —1 и + 1 . Граничные значения достига ются только в том случае, когда наблюдения обнаруживают иде альную линейную зависимость. Если же зависимость отлична от линейной и (или) наблюдается разброс измеренных значений, то независимо от того, обусловлено ли это обстоятельство ошибками измерений или нелинейным характером связи исследуемых ве личин, коэффициент гху уменьшается, как показано на рис. 4.7.
Для того чтобы оценить точность полученной оценки гху, целесообр азно ввести в рассмотрение следующую функцию коэф -фициента г.х у
w =~y ln 1 + г х и I |
(4.57) |
— Гхй\ J |
|
Согласно работе [7], случайная величина w приближенно няется гауссовскому распределению со средним значением
1 + Р х У
1 Р х у
я дисперсией
п о д 'К і -
(4Й58)
*
N — 3 • |
(4.59/ |
|
Основные положения математической статистики |
153- |
■З^ная оценку гху, нетрудно найти на основании этих соотношений доверительные интервалы для коэффициента рху (см. разд. 4.4).
Ввиду выборочной изменчивости оценок коэффициента кор реляции желательно, как правило, убедиться в том, что отличное
*
•••••• •
|
гху~_* |
0<г=у<’ |
|
а |
б |
|
У |
|
|
• |
• |
*4 |
• |
• |
|
|
\ • • |
|
*0 |
S- |
б |
г |
Р и с . |
4.7. |
Примеры различных видов корреляции. |
а— идеальная линейная |
корреляция; б — линейная корреляция с умеренным рассея |
|
нием; в — нелинейная корреляция; г — отсутствие корреляции. |
'от нуля значение оценки действительно отражает наличие стати стически значимой корреляционной зависимости между исследуемыми величинами. Это можно осуществить путем проверки гипо тезы рху = 0. Если гипотеза отвергается, то корреляционную за висимость. признают статистически значимой. Согласно соотно шениям (4.58) и (4.59), выборочное распределение величины w !-при рху = 0 является гауссовским с нулевым средним и дисперсией
= (N — З)-1. Следовательно, область принятия гипотезы о
154 Глава 4
равенстве коэффициента корреляции нулю определяется нера
венством |
|
|
1+ гХъ |
|
|
—Za/2 ^ |
У N- |
|
|
(4.60) |
|
|
In |
ХУ |
< Za/2, |
||
|
— гху |
||||
|
|
|
|
|
|
где 2 — величина, подчиняющаяся |
нормированному |
гауссовско |
му распределению. Если рассматриваемая величина лежит вне-' приведенного интервала, то это означает наличие корреляционной
.зависимости при уровне значимости а. |
|
|
зависимости. |
|||||||
Пример |
4.5. |
Построение |
корреляционной |
|||||||
В табл. |
4.4 приведены сведения о росте и весе N = 25 студентов |
|||||||||
|
|
|
|
|
|
|
|
|
|
% |
|
|
|
|
|
|
|
|
|
|
Таблица 4.4 |
Сведения о росте и весе студентов |
(х —рост, дюймы; у —ве |
фунты) |
||||||||
X |
70 |
74 |
70 |
65 |
69 |
73 |
72 |
69 |
72 |
76 |
у |
140 |
210 |
148 |
145 |
182 |
165 |
155 |
170 |
174 |
155 |
X |
74 |
72 |
68 |
70 |
71 |
68 |
73 |
65 |
73 |
74 |
у |
185 |
185 |
165 |
220 |
185 |
180 |
170 |
135 |
175 |
180 |
X |
64 |
72 |
72 |
67 |
73 |
|
|
|
|
|
У150 170 165 145 170
университета, выбранные случайным образом. Есть ли основание считать, что при уровне значимости а — 0,05 рост и вес сту дентов связаны корреляционной зависимостью? Обозначим сим* волом X рост, а символом у — вес студентов. По даннвЙГ табл. 4.4 находим следующие величины, входящие в формулу
<4.56):
N |
|
N |
N |
2 > |У(= 299 056, |
2 х?= 124 986, |
J ] у\=723 604, |
|
• : = 1 |
|
t=1 |
i=l |
N |
1766— |
70,64, у-.-}? 2 |
|
2 |
» ,= - ^ - = 1 6 8 .9 6 . |
||
І = 1 |
|
/«1 |
|
Подстановка этих значений в формулу (4.56) дает оценку коэф^ ■фициента корреляции
г_ __________299 056 — 25x70,64x168,96__________ — 0 44
хи |
[(124 986—25X (70,64)2) (723 604—25'Х (168,96)2)]1^ |
’ ' |
■£ |
||
Согласно |
соотношению (4.57), |
w = 0,472 и |
У N — 3w — 2,21. |
||
Как следует из формулы (4.60), |
гипотеза рхУ =Н) отклоняется прр* |
||||
5% -ном уровне значимости, так как значение |
У N — Зга = |
2,21 |
Основные положения математической статистики |
15S |
Лукит вне области принятия гипотезы za/2 = ±1,96. Таким обра зом, можно полагать, что между ростом и весом студентов имеет ся значимая корреляционная зависимость.
4.8.2. Линейная регрессия
w С помощью корреляционного анализа можно установить,, насколько тесна связь между двумя или более случайными вели чинами. Однако в дополнение к этому желательно располагать, моделью зависимости, которая позволяла бы предсказать значе ние некоторой величины по заданным значениям других величин. Например, в результате корреляционного анализа приведенных. ^примере 4.5 данных удалось установить наличие значимой в ста тистическом смысле линейной зависимости между ростом и весом студентов университета. Логично было бы теперь получить оцен ку такой зависимости, которая позволила бы предсказывать вес студентов в зависимости от их роста. Методы решения задач по добного рода рассматриваются в регрессионном анализе.
Рассмотрим простой случай двух коррелированных случай ных величин х и у. Обращаясь вновь к примеру 4.5, символом Xобозначим рост, а символом у — вес студентов. Наличие линей-’ ной зависимости между двумя этими величинами означает, что у можно вычислить при заданном значении х, пользуясь уравне нием
у = А + Вх, |
(4.61) |
А и В — свободный член и тангенс угла наклона прямой ли нии. При идеальной линейной корреляции между случайными ве
личинами (гху = 1) предсказанное значение уг при любом xt всегда равно измеренному значению yt. На практике, однако, данные измерений далеко не всегда обнаруживают идеальную линейную зависимость. Обычно наблюдается некоторый разбросточек, обусловленный наличием посторонних случайных помех, и, возможно, искажениями за счет нелинейных эффектов, как показано на рис. 4.7. Тем не менее если допустить существование линейной зависимости между величинами и располагать неогра ниченно большим количеством измерений, то можно найти такиегіодходящие значения коэффициентов А и В, которые позволяют предсказать ожидаемые значения yt при любых заданных xt.
Значение yt не обязательно совпадает с измеренной величиной уи соответствующей данному значению xt\ оно представляет собой HeaigTopoe среднее для всех таких измеренных величин.
Принятый на практике способ определения коэффициентов, уравнения (4.61) состоит в том, что выбираются такие значения ^ и В, при которых сумма квадратов отклонений измереннвіх ве личин от предсказанных была бы минимальной. Этот способ’
-156 |
Глава 4 |
называется методом наименьших квадратов1). Отклонение измй£ ренной величины от предсказанной
Уі — Уі= У і — {А + В х 1).
Поэтому сумма квадратов отклонений выражается в виде
< 2 = ' £ ( У і - А - В х 1) \
Следовательно, наименьшее значение суммы квадратов ний достигается в том случае, когда коэффициенты удовлетворяют условию
9Q |
ÖQ __п |
дА |
— дБ |
(4.62)
(4.63)
отклоне
А и 4
(4.64)
Практически имеющиеся данные представляют собой ограни ченную выборку, состоящую из N пар измеренных значений х и у. Это означает, что условие (4.64) позволяет получить лишь оценки коэффициентов А и В, которые обозначим соответственно символами а и Ь. Подставляя выражение (4.63) в (4.64) и решая полученное уравнение относительно оценок коэффициентов А
и В, находим |
ІГ1 |
1I |
r«- |
|
|
-bx, |
(4.65a) |
||
N |
(Хі—Х)Уі |
|
SN1 х іУ і — ы ~хУ |
h r 's'ji |
1=1 |
|
i=i |
(4.656) |
|
2 |
l( м — *)2 |
|
5 |
|
i2= |
|
i2= \ * ? - # £ ) * |
|
Эти оценки можно теперь использовать с тем, чтобы записать формулу для прогноза величины у при заданном х:
у = а + Ьх={у—bx) + bx=y + b (x —х). |
(4.66) |
Прямая линия, описываемая уравнением (4.66), называется линией регрессии у по х. Меняя местами зависимую и независи мую переменные в уравнении (4.65а), можно получить линию регрессии х по у.
x ^ x + b ’ { у — у), |
(4.ю7а) |
г) Оценки, вычисленные этим методом, называются м. н. к.-оценками,
•соответствующий прогноз — м. н. к.-прогнозом.— Прим, перев.
Основные положения математической статистики |
157 |
і^де
N
2 хіУі~ МхУ |
|
і = 1__________ |
(4.676) |
|
|
i=i |
|
Перемножая выражения (4.656) и (4.676) и сравнивая полученное |
произведение с формулой (4.56), нетрудно убедиться, что танген
сы углов |
наклона линий регрессии у по х и х по у связаны с вы |
|||
борочным |
коэффициентом |
корреляции величин х и у соотноше |
||
нием |
|
|
Х У = [ЬЬ']Ч2. |
(4.68) |
|
|
' |
||
Рассмотрим теперь, |
какова точность вычисления |
оценок а |
||
и b по формулам (4.65а) |
и (4.656). Если величина у при задан |
ном X подчиняется нормальному распределению, то, как показано в работе [7], величины а и b представляют собой соответственно несмещенные оценки коэффициентов А и В. Выборочные распре деления этих оценок связаны с /^-распределением Стьюдента сле дующим образом:
|
|
а — А |
|
S y I Д- t f ] 2 I |
(4.69) |
1 |
, |
(X )2 |
/ о |
||
|
|
|
|||
N |
+ |
N |
_ |
|
|
2 |
(хі~ х)2 |
|
1=1 |
|
|
b — |
B |
(4.70) |
|
~— S y I x t N — 2 • |
N
2 (xi— x)2
/=1
Особый интерес представляет выборочное распределение величи
ны у, соответствующей некоторому |
фиксированному |
значению |
||
X= х„. Оно имеет вид |
|
|
|
|
Ч |
у —'у _ |
У2 |
-Sy I x^n —s |
(4.71) |
|
(х0 — х р |
2 (хі~ х)2
і=і