![](/user_photo/_userpic.png)
книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами
.pdf72 Глава 2
ния характеристик ансамбля. Первый метод, который рассма
тривается |
в |
этом |
разделе, связан |
с |
использованием конечной |
|
случайной |
выборки |
из наблюдений |
или измерений, |
полученных |
||
в повторных |
экспериментах. Другой метод, в котором используется |
|||||
единственная временная запись одного эксперимента, |
обсуждается |
|||||
в разд. |
12.3. |
|
|
|
|
|
Термином |
выборочная статистика |
или просто |
статистика |
обозначается некоторое числовое значение, подсчитанное по набо ру наблюдений или измерений случайной переменной. Таким образом, оценки параметров плотности распределения вероятности, распределения накопленной вероятности и моделей процесса или оценки характеристик ансамбля, полученные из эксперименталь ных наблюдений, являются примерами статистик. Статистика имеет двойной смысл; она означает как правило вычисления ста тистики (т. е. некоторую функцию), так и полученное для нее зна чение. Нужный смысл будет ясен из контекста. Следует помнить, что статистики — случайные величины.
Вэтом разделе рассматриваются выборочное среднее значение
ивыборочная дисперсия случайной переменной X, а также их
распределения вероятности при |
конкретных |
предположениях |
о распределении самой случайной |
переменной |
X. Выборочные |
средние будут обозначаться чертой над соответствующей случай ной переменной, за исключением выборочных дисперсии и коэф фициента корреляции, для которых исторически установились другие обозначения. Если специально не оговорено, каждая конечная выборка предполагается статистически независимой от
любой другой, если они получены в независимых |
экспериментах |
и сами величины статистически независимы. |
|
2.4.1. Выборочное среднее значение и выборочная |
дисперсия |
Как правило, выборочное среднее является наиболее эффектив ной статистикой (гл. 3), которая используется для характеристики центрального значения экспериментальных данных, т . е . для получения той же достоверности оно требует меньшего количества данных. Пусть X — случайная величина *). Если в выборке, состоящей из п наблюдений величины X, значение Xt появилось щ раз, значение Х2 появилось п2 раз и т. д., то выборочное среднее равно
X = ±%Xtnt, |
|
|
(2.4.1) |
|
г ) Зависимость X от времени можно опустить, |
так к а к |
выборка |
может |
|
производиться одновременно или в разные моменты |
времени д л я стационар |
|||
ного ансамбля . В а ж н о л и ш ь , чтобы данные были получены |
в |
р а з н ы х |
экспе |
|
риментах, а не в одном эксперименте в различные |
моменты |
времени . |
Распределения |
вероятности |
и выборочная |
статистика |
73 |
где 2 пі = п- Если ni = 1, то верхний предел суммы равен п. Выборочное среднее значение само является случайной величи ной и в тех случаях, когда оно используется для оценки [іх, часто обозначается \іх-
Повторные измерения целесообразно проводить по двум основ ным причинам. Во-первых, среднее значение по отдельным резуль татам более достоверно, чем любой единичный результат. Во-вто рых, при этом можно оценить дисперсию отдельных показаний. Эти цели не будут достигнуты, если при сборе данных о процессе не принять надлежащих мер, описанных в гл. 8.
Выборочная |
дисперсия |
случайной |
переменной |
X |
представляет |
||||||||||
собой |
случайную величину, которая |
служит |
наилучшей |
оценкой |
|||||||||||
а х- Она |
вычисляется |
следующим образом: |
|
|
|
|
|
||||||||
|
|
|
sx^Sx |
= -^jZ(Xi-X)*ni. |
|
|
|
|
|
|
(2.4.2) |
||||
|
|
|
|
|
|
|
|
г |
|
|
|
|
|
|
|
Заметим, |
что в |
знаменателе |
этого |
выражения |
стоит |
число |
|||||||||
п — 1, |
а |
не |
п, потому |
что математическое |
ожидание |
величины |
|||||||||
(і/(п— |
1)) 2 |
(Хі—X)2 |
|
пі |
равно |
Ох, |
тогда как |
математическое |
|||||||
ожидание |
величины |
{Un) |
2 |
(Xi |
— Х |
) |
Г nt |
есть |
{(п |
— |
1)//г} а\. |
||||
Последнее |
выражение, |
таким |
образом, |
дает |
смещенную |
оценку |
[см. ниже выражение (2.4.9)]. (Эвристически использование зна менателя п — 1 вместо п аргументируется тем, что при вычисле нии среднего значения пропадает одна из п степеней свободы для общего числа п измерений. На данные налагается одна связь; следовательно, в знаменателе должно стоять число степеней свободы, равное п — 1.) Выборочную дисперсию часто удобно вычислять по следующим формулам:
— |
1-ІХ |
2 п ^ + (ХѴ2га*] = |
|
^•^[^піХІ |
|
|
|
1 |
|
|
W 2 2 n ' ] = |
п — 1 [ 2 > t X ? - 2 X X 2 > * + |
|||
1 |
|
|
|
п —1 [ 2 ПіХІ - |
(X)2 2 ni] = |
(2.4.3а> |
|
п |
[ ( f f ) - ( f ) 2 |
] . |
(2.4.36) |
|
|||
Выборочное |
относительное отклонение |
равно |
|
|
|
с = і £ . |
(2.4.4) |
|
|
X |
|
Всегда следует помнить, что возведение в квадрат или умноже ние с последующим вычитанием округленных значений может при-
74 |
Глава |
2 |
|
вести к серьезным ошибкам. Так, для равенства двух |
выражений |
||
|
( 2 * і ) 2 |
« |
|
|
і = і |
г= і |
|
при |
= 9000, х2 = 9001 и х 3 = |
9003 вычисления с |
точностью |
до единицы в восьмиразрядном десятичном числе дают для левой
части значение 0, а использование |
двоичной системы |
счисления |
|
с 27 разрядами (что эквивалентно |
8 десятичным |
разрядам) дает |
|
значение 4,0. С другой стороны, для правой части |
этого |
равенства |
любой способ вычисления дает значение 4,6666667, верное для восьми десятичных знаков.
Пример 2.4.1. Сравнение выборочных статистик
сих математическими ожиданиями
Втабл. П.2.4.1 дана плотность биномиального распределения вероятности для эксперимента с бросанием монеты. Предположим, что монета подбрасывается 5 раз; пусть X обозначает число выпа дений орла при 5 бросаниях. Считается, что вероятность выпаде
ния орла при каждом подбрасывании равна Ѳ = Ѵ2 . Во второй строке табл. П.2.4.1 приведены вероятности выпадения соответ ственно 0, 1, 2, 3, 4 или 5 орлов для 5 бросаний. Д л я такого спе-
|
|
|
|
|
|
Таблица |
П.2.4.1 |
|
Значения случайной величины X |
0 |
1 |
2 |
3 |
4 |
5 |
Сумма |
|
Теоретическое распределение |
|
|
|
|
|
|
|
|
вероятности |
|
|
|
|
|
|
|
|
|
|
1 |
5 |
10 |
10 |
5 |
1 |
1 |
|
|
32 |
' 32 |
32 . |
32 |
32 |
32 |
|
|
|
|
||||||
Экспериментальные |
данные |
|
|
|
|
|
|
|
(30 испытаний) щ |
|
1 |
6 |
10 |
7 |
5 |
1 |
30 |
циального типа эксперимента выборочное среднее значение и дис персию можно сравнить со средним значением и дисперсией по ансамблю. В третьей строке таблицы записаны экспериментальные данные, представляющие суммарные результаты нескольких экспе риментов при 5 бросаниях в каждом, выполненных разными экспериментаторами с одной и той же монетой.
Распределения вероятности и выборочная статистика 75
|
Вычисления |
дают |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Рх=2іР(хі) ^ • = = 0 |
, |
5 1 + 1 , à |
+ |
2 , |
a I + 3 |
- ^ |
+ 4 |
, |
à |
+ |
5 - 4 = = 2 ' 5 ' |
||||||
|
^ = . т Е 7 г |
^ = |
і ( 0 |
- 1 |
+ 1 |
- 6 + 2 - 1 |
0 + 3 |
- 7 + 4 |
> 5 |
+ 5 |
' 1 |
) = 2 |
' 4 - |
|||||
|
|
|
|
|
=2 р |
|
|
|
2 |
|
|
|
|
|
|
|
||
°х=2 |
р |
|
|
( x i ) ß i ~ x |
|
2 ^ = |
|
|
|
|
|
|
||||||
|
= [ ° 2 4 + 1 2 4 + 2 2 - З І + 3 2 - і + 4 2 - з 1 + 5 2 - Г 2 - ( 2 ' 5 ) 2 ] = 1 ' 2 5 ' |
|||||||||||||||||
|
|
^njjXj-X)* |
|
_ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2x |
= |
n — 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
^ [ ( 0 - 2 , 4 ) 2 . 1 + ( 1 - 2 , 4 ) 2 . 6 + ( 2 - 2 , 4 ) 2 . 1 0 + ( 3 - 2 , 4 ) 2 . 7 + |
|||||||||||||||||
|
|
|
|
|
|
|
|
+ (4—2,4)2 -5 + (5 — 2,4)2 .1] = |
1,42. |
|||||||||
|
Нетрудно |
показать, |
переставляя |
операторы |
Щ и |
2 |
» ч т 0 |
|||||||||||
|
|
|
і |
|
|
|
і |
|
|
|
і |
|
|
|
|
|
|
|
и, |
используя |
соотношение |
(2.2.9а) |
для |
независимых |
|
переменных |
|||||||||||
с Var {Хг } = а|-, |
получить |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Var { X } = Var { і - 2 |
|
|
|
|
V a |
r |
{*«> = 7F |
|
|
|
= |
4" |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
_ |
(2.4.6) |
|
|
Положительное значение |
|
квадратного |
корня из Var {X} |
назы |
|||||||||||||
вается стандартной |
ошибкой |
или выборочным |
средним |
|
квадрати- |
|||||||||||||
ческим |
(стандартным) |
отклонением. |
Таким образом, |
выборочные |
средние значения сами являются случайными величинами с таким же математическим ожиданием, что и для X, и средним квадратическим отклонением, равным охіѴп- На фиг. 2.4.1 показано, как уменьшается дисперсия при увеличении объема выборки в соот
ветствии с соотношением |
(2.4.6)с- |
|
|
Одна из важнейших теорем |
статистики, центральная |
предель |
|
ная теорема, утверждает, |
что |
при совершенно общих |
условиях |
распределение суммы п независимых случайных величин стре мится к нормальному распределению при п - > оо. Таким образом, плотность распределения вероятности выборочных средних значе ний случайных величин, не подчиняющихся нормальному рас
пределению, будет более симметричной, чем плотность |
исходного |
|
распределения, |
и обладать меньшей дисперсией, как |
показано |
на фиг. 2.4.2. |
|
|
п~10
Ф и г . 2.4.1. Уменьшение дисперсии |
при |
увеличении |
объема выборки сог |
ласно соотношению |
Ѵаг |
{X} = (1/и) |
ах- |
Распределения |
вероятности и выборочная статистика |
77 |
Выборочное среднее значение можно преобразовать к норми рованной величине с нормальным законом распределения [по ана логии с выражением [(2.3.2)], вводя
U= Х~^_ . |
(2.4.7) |
Теперь покажем, что математическое ожидание величины s\, определяемой формулой (2.4.2), равно о\. Разобьем величину X , — X на два члена
|
Хі |
- |
X = |
(Xt - |
u,*) - |
(X - рх) |
|
|
|||
и подставим |
их |
вместо |
Хг- — X |
в выражение |
(2.4.2): |
|
|||||
( 7 і - 1 ) й = 2 |
[{Xt-iix)-(X-iix)]am |
|
|
= |
|
|
|
||||
= S № - f e ) 2 |
ni-2 |
S (Xt-VLX) |
|
( Х - и - z ) пг + S ( Х - р л ) 2 «г - |
|||||||
i |
|
|
|
|
|
|
|
|
i |
|
|
= S |
№ |
- |
M |
2 m - |
2n (X- |
fe)2 |
+ n ( Х - и*)я = |
|
|||
г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
3 ( Х | - ^ ) 8 |
/ г , - і г ( Х - ^ ) А . |
(2.4.8) |
|||
|
|
|
|
|
|
г |
|
|
|
|
|
Вычисляя |
математическое |
ожидание обеих |
частей |
равен |
|||||||
ства (2.4.8), получим |
|
|
|
|
|
|
|
||||
% { ( / г - 1 ) & } = % { 2 ( Х і - \ і х ) 2 П і - п ( Х - ^ ) 2 } = |
|
||||||||||
|
|
|
i |
|
|
|
|
|
|
|
|
= |
na\—n |
Var { X } = nax—n |
= ox(n |
— l). |
(2.4.9) |
Следовательно, математическое ожидание выборочной дисперсии равно дисперсии по ансамблю.
Установление закона распределения sx для п независимых наблюдений из нормально распределенной совокупности со сред ним значением цх и дисперсией о\ выходит за рамки настоящей книги, хотя это можно сделать с помощью теоремы разложения для ^-распределения, которая изложена в нескольких работах, приведенных в списке литературы в конце этой главы. Здесь доста точно отметить, что величина
2 1 Хі — Х \2
имеет ^-распределение с (п — 1) степенями свободы, т. е. она равна X2 , если число степеней свободы равно (п — 1). Следова-
78 |
Глава 2 |
тельно, можно написать
Ф и г. 2.4.3. Плотность распределения вероятности sx-
Дисперсия выборочной дисперсии определяется как
Ѵаг {бі} = Ш {(sx - o-i)2 }
и вычисляется следующим образом:
Ѵаг{&} = Ѵаг |
= К ) 2 Var {-£-} |
• (2-4.11) |
(Напомним, что Ѵаг {%2 } = |
2ѵ.) |
|
Если из нормально распределенной совокупности |
производится |
к выборок, каждая из которых обладает одной и той же диспер
сией Ох, но не обязательно одним |
и |
тем же средним |
значением, |
то объединенная оценка дисперсии |
о\ равна |
|
|
*1 = Ц |
|
, |
(2.4.12) |
S |
vi |
|
|
где vt — число степеней свободы, связанное с величиной s?. Таким образом, используя большое число выборок малого объема.
Распределения вероятности |
и выборочная статистика |
79 |
можно найти оценку дисперсии ох, |
sp, основанную на |
эффективно |
большем числе степеней свободы, чем можно получить, |
производя |
одну большую выборку при таком же полном числе наблюдений, что будет показано на следующем примере.
Пример 2.4.2. Уменьшение дисперсии при объединении
образцов в пары
Предположим, что некоторый продукт производится на двух различных установках А ж В или в результате различных процес сов А и В. По некоторым показателям эти продукты могут быть одинаковыми, а по другим различаться. Однако предполагается, что одна специфическая характеристика (процентное содержание некоторого химического компонента, определяемое с помощью титрования) для А и В имеет одно и то же значение, исключая случайные нормальные отклонения. В гл. 3 будет показано, как определить, являются ли одинаковыми продукты А и В. Здесь же пока будем считать, что они тождественны. Тогда, используя выражение (2.4.2), можно подсчитать выборочную дисперсию.
С другой стороны, предположим, что проводится титрование пар образцов, один из которых взят из Л, а другой — из В. Пусть при і-м титровании для образца А получено значение Х^, а для
|
|
Таблица |
П.2.4.2 |
А |
в |
Разность D |
D2 |
73,2 |
74,0 |
0,8 |
0,64 |
68,2 |
68,8 |
0,6 |
0,36 |
70,9 |
71,2 |
0,3 |
0,09 |
74,3 |
74,2 |
- 0 , 1 |
0,01 |
70,7 |
71,8 |
1,1 |
1,21 |
66,6 |
66,4 |
—0,2 |
0,04 |
69,5 |
69,8 |
0,3 |
0,09 |
70,8 |
71,3 |
0,5 |
0,25 |
68,8 |
69,3 |
0,5 |
0,25 |
73,3 |
73,6 |
0,3 |
0,09 |
|
|
Сумма |
3,03 |
образца В — значение ХІ2 (табл. П.2.4.2). Если для каждой пары
—1
титрований Х{ = y № і + ХІ2), то сумма квадратов отклонений при і-м титровании пары равна
(Xil-XiY |
+ (Xit-XiY= |
г 1 2 l2' = - f - , |
(a) |
80 |
Глава 2 |
где Di — разность результатов измерений. Кроме того, дисперсия пары измерений равна
|
1 |
(Х-—Х- |
)2 |
л? |
|
|
S î |
~ 2 - 1 |
2 |
_ |
2 - |
|
W |
Тогда для к наборов измерений объединенная |
оценка |
дисперсии |
||||
ft |
|
. * |
да |
|
|
|
2 ^ ? |
|
|
|
|||
I |
|
|
|
|
|
|
Sn = - i =l |
|
|
|
|
|
|
2 |
Vj |
i=l |
|
i=l |
|
|
t=l |
|
|
|
|
ft |
|
|
|
|
|
|
|
|
где К — полное число степеней свободы, равное 2 |
ѵ і - |
|||||
|
|
|
|
|
і = 1 |
|
Если бы данные, |
приведенные |
в |
таблице, |
рассматривались |
(некорректно) как отдельные измерения, то получилось бы среднее значение X = 70,89, а дисперсия, вычисленная по формуле (2.4.2)
с 19 степенями |
свободы, оказалась |
бы равной |
|
|
20 |
|
|
S * = |
 2 (Хі-70,89)» |
= |
^ - 5 , 8 9 . |
s |
i=l |
|
|
Напротив, если данные обрабатываются по парам (корректно), из
равенства |
(в) |
|
получается |
|
|
|
|
||||
|
|
|
|
|
|
|
s ^ = |
2^10= |
0Д52 |
|
|
при 10 степенях |
свободы. |
|
|
|
|
||||||
|
Полученный результат можно объяснить следующим образом. |
||||||||||
Заметим, |
что |
для |
одной пары |
наблюдений |
|
||||||
|
|
|
|
|
Di-D |
= |
|
(Xli-Xl)-{Xb-Xi), |
|
||
|
|
ft |
|
|
|
|
|
|
|
|
|
где |
D = — 2 |
Dh |
и |
тогда |
|
|
|
|
|||
|
|
і=1 |
|
|
|
|
|
|
|
|
|
2 |
(Di-D)2 |
_ |
S |
( * i |
t - X i ) a |
2 ( X i 2 - X 2 ) 2 |
2 g ( ^ - ^ i ) |
{Х{-Хг) |
n — 1 |
n — 1 |
' |
n — 1 |
/1—1 |
или |
|
|
|
|
|
4 |
= *Згі + &,—2sxiZ,. |
(г) |
Заметим, что дисперсия разностей зависит от корреляции между парами наблюдений [ковариации в выражении (г)]. Следователь но, весьма желательно всегда упорядочивать пары наблюдений в надежде получить большую положительную корреляцию и тем самым уменьшить дисперсию. Если пары выбирать так, чтобы
Распределения вероятности и выборочная |
статистика |
81 |
исследуемые характеристики в каждой паре |
были близкими, то |
|
даже если они сильно отличаются от пары к паре, различия |
между |
парами не будут влиять на дисперсию средней разности, так как последняя зависит лишь от разностей внутри пар.
2.4.2. Распределение t
Распределение t (или ^-распределение Стьюдента, называемое так потому, что было опубликовано В. С. Госсетом под псевдони мом «Стыодент») используется при проверке гипотез и при нахож дении доверительных пределов для средних значений. Эти вопросы
pit)
= оо
fr3
III0'2
-4 -3 |
•2 |
-1 |
1 |
і ^ С г ^ |
З |
О |
|
|
|||
|
|
|
{ |
|
|
Ф и г . 2.4.4. Плотность |
^-распределения |
вероятности |
Стьюдента. |
будут рассмотрены в гл. 3. Случайная переменная t пред ставляет собой отношение двух независимых случайных пере
менных — нормированной |
нормальной |
переменной U и У%й/ѵ: |
||
U |
и |
|
(2.4.13) |
|
t = -\/у?/ѵ |
sxl°x |
ахП/п |
||
sx/°x |
где^Х — выборочное среднее значение, a sx — выборочное среднее квадратическое отклонение. Плотность распределения вероятно сти величины t равна
^ ) = W ^ W - ( 1 + T ) 2 < - « < « « > > . <2 -4 -1 4 )
где V — число степеней свободы, связанное с sx. На фиг. 2.4.4 приведены графики p {t) для различных степеней свободы ѵ.