Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами

.pdf
Скачиваний:
28
Добавлен:
27.10.2023
Размер:
31.74 Mб
Скачать

72 Глава 2

ния характеристик ансамбля. Первый метод, который рассма­

тривается

в

этом

разделе, связан

с

использованием конечной

случайной

выборки

из наблюдений

или измерений,

полученных

в повторных

экспериментах. Другой метод, в котором используется

единственная временная запись одного эксперимента,

обсуждается

в разд.

12.3.

 

 

 

 

Термином

выборочная статистика

или просто

статистика

обозначается некоторое числовое значение, подсчитанное по набо­ ру наблюдений или измерений случайной переменной. Таким образом, оценки параметров плотности распределения вероятности, распределения накопленной вероятности и моделей процесса или оценки характеристик ансамбля, полученные из эксперименталь­ ных наблюдений, являются примерами статистик. Статистика имеет двойной смысл; она означает как правило вычисления ста­ тистики (т. е. некоторую функцию), так и полученное для нее зна­ чение. Нужный смысл будет ясен из контекста. Следует помнить, что статистики — случайные величины.

Вэтом разделе рассматриваются выборочное среднее значение

ивыборочная дисперсия случайной переменной X, а также их

распределения вероятности при

конкретных

предположениях

о распределении самой случайной

переменной

X. Выборочные

средние будут обозначаться чертой над соответствующей случай­ ной переменной, за исключением выборочных дисперсии и коэф­ фициента корреляции, для которых исторически установились другие обозначения. Если специально не оговорено, каждая конечная выборка предполагается статистически независимой от

любой другой, если они получены в независимых

экспериментах

и сами величины статистически независимы.

 

2.4.1. Выборочное среднее значение и выборочная

дисперсия

Как правило, выборочное среднее является наиболее эффектив­ ной статистикой (гл. 3), которая используется для характеристики центрального значения экспериментальных данных, т . е . для получения той же достоверности оно требует меньшего количества данных. Пусть X — случайная величина *). Если в выборке, состоящей из п наблюдений величины X, значение Xt появилось щ раз, значение Х2 появилось п2 раз и т. д., то выборочное среднее равно

X = ±%Xtnt,

 

 

(2.4.1)

г ) Зависимость X от времени можно опустить,

так к а к

выборка

может

производиться одновременно или в разные моменты

времени д л я стационар ­

ного ансамбля . В а ж н о л и ш ь , чтобы данные были получены

в

р а з н ы х

экспе ­

риментах, а не в одном эксперименте в различные

моменты

времени .

Распределения

вероятности

и выборочная

статистика

73

где 2 пі = п- Если ni = 1, то верхний предел суммы равен п. Выборочное среднее значение само является случайной величи­ ной и в тех случаях, когда оно используется для оценки х, часто обозначается х-

Повторные измерения целесообразно проводить по двум основ­ ным причинам. Во-первых, среднее значение по отдельным резуль­ татам более достоверно, чем любой единичный результат. Во-вто­ рых, при этом можно оценить дисперсию отдельных показаний. Эти цели не будут достигнуты, если при сборе данных о процессе не принять надлежащих мер, описанных в гл. 8.

Выборочная

дисперсия

случайной

переменной

X

представляет

собой

случайную величину, которая

служит

наилучшей

оценкой

а х- Она

вычисляется

следующим образом:

 

 

 

 

 

 

 

 

sx^Sx

= -^jZ(Xi-X)*ni.

 

 

 

 

 

 

(2.4.2)

 

 

 

 

 

 

 

 

г

 

 

 

 

 

 

 

Заметим,

что в

знаменателе

этого

выражения

стоит

число

п — 1,

а

не

п, потому

что математическое

ожидание

величины

(і/(п

1)) 2

(ХіX)2

 

пі

равно

Ох,

тогда как

математическое

ожидание

величины

{Un)

2

(Xi

Х

)

Г nt

есть

{(п

1)//г} а\.

Последнее

выражение,

таким

образом,

дает

смещенную

оценку

[см. ниже выражение (2.4.9)]. (Эвристически использование зна­ менателя п — 1 вместо п аргументируется тем, что при вычисле­ нии среднего значения пропадает одна из п степеней свободы для общего числа п измерений. На данные налагается одна связь; следовательно, в знаменателе должно стоять число степеней свободы, равное п — 1.) Выборочную дисперсию часто удобно вычислять по следующим формулам:

1-ІХ

2 п ^ + (ХѴ2га*] =

^•^[^піХІ

 

 

1

 

 

W 2 2 n ' ] =

п 1 [ 2 > t X ? - 2 X X 2 > * +

1

 

 

 

п 1 [ 2 ПіХІ -

(X)2 2 ni] =

(2.4.3а>

п

[ ( f f ) - ( f ) 2

] .

(2.4.36)

 

Выборочное

относительное отклонение

равно

 

 

с = і £ .

(2.4.4)

 

 

X

 

Всегда следует помнить, что возведение в квадрат или умноже­ ние с последующим вычитанием округленных значений может при-

74

Глава

2

 

вести к серьезным ошибкам. Так, для равенства двух

выражений

 

( 2 * і ) 2

«

 

 

і = і

г= і

 

при

= 9000, х2 = 9001 и х 3 =

9003 вычисления с

точностью

до единицы в восьмиразрядном десятичном числе дают для левой

части значение 0, а использование

двоичной системы

счисления

с 27 разрядами (что эквивалентно

8 десятичным

разрядам) дает

значение 4,0. С другой стороны, для правой части

этого

равенства

любой способ вычисления дает значение 4,6666667, верное для восьми десятичных знаков.

Пример 2.4.1. Сравнение выборочных статистик

сих математическими ожиданиями

Втабл. П.2.4.1 дана плотность биномиального распределения вероятности для эксперимента с бросанием монеты. Предположим, что монета подбрасывается 5 раз; пусть X обозначает число выпа­ дений орла при 5 бросаниях. Считается, что вероятность выпаде­

ния орла при каждом подбрасывании равна Ѳ = Ѵ2 . Во второй строке табл. П.2.4.1 приведены вероятности выпадения соответ­ ственно 0, 1, 2, 3, 4 или 5 орлов для 5 бросаний. Д л я такого спе-

 

 

 

 

 

 

Таблица

П.2.4.1

Значения случайной величины X

0

1

2

3

4

5

Сумма

Теоретическое распределение

 

 

 

 

 

 

 

вероятности

 

 

 

 

 

 

 

 

 

 

1

5

10

10

5

1

1

 

 

32

' 32

32 .

32

32

32

 

 

 

Экспериментальные

данные

 

 

 

 

 

 

 

(30 испытаний) щ

 

1

6

10

7

5

1

30

циального типа эксперимента выборочное среднее значение и дис­ персию можно сравнить со средним значением и дисперсией по ансамблю. В третьей строке таблицы записаны экспериментальные данные, представляющие суммарные результаты нескольких экспе­ риментов при 5 бросаниях в каждом, выполненных разными экспериментаторами с одной и той же монетой.

Распределения вероятности и выборочная статистика 75

 

Вычисления

дают

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рх=2іР(хі) ^ • = = 0

,

5 1 + 1 , à

+

2 ,

a I + 3

- ^

+ 4

,

à

+

5 - 4 = = 2 ' 5 '

 

^ = . т Е 7 г

^ =

і ( 0

- 1

+ 1

- 6 + 2 - 1

0 + 3

- 7 + 4

> 5

+ 5

' 1

) = 2

' 4 -

 

 

 

 

 

=2 р

 

 

 

2

 

 

 

 

 

 

 

°х=2

р

 

 

( x i ) ß i ~ x

 

2 ^ =

 

 

 

 

 

 

 

= [ ° 2 4 + 1 2 4 + 2 2 - З І + 3 2 - і + 4 2 - з 1 + 5 2 - Г 2 - ( 2 ' 5 ) 2 ] = 1 ' 2 5 '

 

 

^njjXj-X)*

 

_

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2x

=

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^ [ ( 0 - 2 , 4 ) 2 . 1 + ( 1 - 2 , 4 ) 2 . 6 + ( 2 - 2 , 4 ) 2 . 1 0 + ( 3 - 2 , 4 ) 2 . 7 +

 

 

 

 

 

 

 

 

+ (4—2,4)2 -5 + (5 — 2,4)2 .1] =

1,42.

 

Нетрудно

показать,

переставляя

операторы

Щ и

2

» ч т 0

 

 

 

і

 

 

 

і

 

 

 

і

 

 

 

 

 

 

 

и,

используя

соотношение

(2.2.9а)

для

независимых

 

переменных

с Var {Хг } = а|-,

получить

 

 

 

 

 

 

 

 

 

 

 

 

Var { X } = Var { і - 2

 

 

 

 

V a

r

{*«> = 7F

 

 

 

=

4"

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

_

(2.4.6)

 

Положительное значение

 

квадратного

корня из Var {X}

назы­

вается стандартной

ошибкой

или выборочным

средним

 

квадрати-

ческим

(стандартным)

отклонением.

Таким образом,

выборочные

средние значения сами являются случайными величинами с таким же математическим ожиданием, что и для X, и средним квадратическим отклонением, равным охіѴп- На фиг. 2.4.1 показано, как уменьшается дисперсия при увеличении объема выборки в соот­

ветствии с соотношением

(2.4.6)с-

 

Одна из важнейших теорем

статистики, центральная

предель­

ная теорема, утверждает,

что

при совершенно общих

условиях

распределение суммы п независимых случайных величин стре­ мится к нормальному распределению при п - > оо. Таким образом, плотность распределения вероятности выборочных средних значе­ ний случайных величин, не подчиняющихся нормальному рас­

пределению, будет более симметричной, чем плотность

исходного

распределения,

и обладать меньшей дисперсией, как

показано

на фиг. 2.4.2.

 

 

п~10

Ф и г . 2.4.1. Уменьшение дисперсии

при

увеличении

объема выборки сог­

ласно соотношению

Ѵаг

{X} = (1/и)

ах-

Распределения

вероятности и выборочная статистика

77

Выборочное среднее значение можно преобразовать к норми­ рованной величине с нормальным законом распределения [по ана­ логии с выражением [(2.3.2)], вводя

U= Х~^_ .

(2.4.7)

Теперь покажем, что математическое ожидание величины s\, определяемой формулой (2.4.2), равно о\. Разобьем величину X , — X на два члена

 

Хі

-

X =

(Xt -

u,*) -

(X - рх)

 

 

и подставим

их

вместо

Хг- — X

в выражение

(2.4.2):

 

( 7 і - 1 ) й = 2

[{Xt-iix)-(X-iix)]am

 

 

=

 

 

 

= S № - f e ) 2

ni-2

S (Xt-VLX)

 

( Х - и - z ) пг + S ( Х - р л ) 2 «г -

i

 

 

 

 

 

 

 

 

i

 

 

= S

-

M

2 m -

2n (X-

fe)2

+ n ( Х - и*)я =

 

г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

3 ( Х | - ^ ) 8

/ г , - і г ( Х - ^ ) А .

(2.4.8)

 

 

 

 

 

 

г

 

 

 

 

 

Вычисляя

математическое

ожидание обеих

частей

равен­

ства (2.4.8), получим

 

 

 

 

 

 

 

% { ( / г - 1 ) & } = % { 2 ( Х і - \ і х ) 2 П і - п ( Х - ^ ) 2 } =

 

 

 

 

i

 

 

 

 

 

 

 

 

=

na\—n

Var { X } = nax—n

= ox(n

— l).

(2.4.9)

Следовательно, математическое ожидание выборочной дисперсии равно дисперсии по ансамблю.

Установление закона распределения sx для п независимых наблюдений из нормально распределенной совокупности со сред­ ним значением цх и дисперсией о\ выходит за рамки настоящей книги, хотя это можно сделать с помощью теоремы разложения для ^-распределения, которая изложена в нескольких работах, приведенных в списке литературы в конце этой главы. Здесь доста­ точно отметить, что величина

2 1 Хі Х \2

имеет ^-распределение с (п — 1) степенями свободы, т. е. она равна X2 , если число степеней свободы равно (п — 1). Следова-

78

Глава 2

тельно, можно написать

Ф и г. 2.4.3. Плотность распределения вероятности sx-

Дисперсия выборочной дисперсии определяется как

Ѵаг {бі} = Ш {(sx - o-i)2 }

и вычисляется следующим образом:

Ѵаг{&} = Ѵаг

= К ) 2 Var {-£-}

• (2-4.11)

(Напомним, что Ѵаг {%2 } =

2ѵ.)

 

Если из нормально распределенной совокупности

производится

к выборок, каждая из которых обладает одной и той же диспер­

сией Ох, но не обязательно одним

и

тем же средним

значением,

то объединенная оценка дисперсии

о\ равна

 

*1 = Ц

 

,

(2.4.12)

S

vi

 

 

где vt — число степеней свободы, связанное с величиной s?. Таким образом, используя большое число выборок малого объема.

Распределения вероятности

и выборочная статистика

79

можно найти оценку дисперсии ох,

sp, основанную на

эффективно

большем числе степеней свободы, чем можно получить,

производя

одну большую выборку при таком же полном числе наблюдений, что будет показано на следующем примере.

Пример 2.4.2. Уменьшение дисперсии при объединении

образцов в пары

Предположим, что некоторый продукт производится на двух различных установках А ж В или в результате различных процес­ сов А и В. По некоторым показателям эти продукты могут быть одинаковыми, а по другим различаться. Однако предполагается, что одна специфическая характеристика (процентное содержание некоторого химического компонента, определяемое с помощью титрования) для А и В имеет одно и то же значение, исключая случайные нормальные отклонения. В гл. 3 будет показано, как определить, являются ли одинаковыми продукты А и В. Здесь же пока будем считать, что они тождественны. Тогда, используя выражение (2.4.2), можно подсчитать выборочную дисперсию.

С другой стороны, предположим, что проводится титрование пар образцов, один из которых взят из Л, а другой — из В. Пусть при і-м титровании для образца А получено значение Х^, а для

 

 

Таблица

П.2.4.2

А

в

Разность D

D2

73,2

74,0

0,8

0,64

68,2

68,8

0,6

0,36

70,9

71,2

0,3

0,09

74,3

74,2

- 0 , 1

0,01

70,7

71,8

1,1

1,21

66,6

66,4

—0,2

0,04

69,5

69,8

0,3

0,09

70,8

71,3

0,5

0,25

68,8

69,3

0,5

0,25

73,3

73,6

0,3

0,09

 

 

Сумма

3,03

образца В — значение ХІ2 (табл. П.2.4.2). Если для каждой пары

1

титрований Х{ = y № і + ХІ2), то сумма квадратов отклонений при і-м титровании пары равна

(Xil-XiY

+ (Xit-XiY=

г 1 2 l2' = - f - ,

(a)

80

Глава 2

где Di — разность результатов измерений. Кроме того, дисперсия пары измерений равна

 

1

(Х-—Х-

)2

л?

 

 

S î

~ 2 - 1

2

_

2 -

 

W

Тогда для к наборов измерений объединенная

оценка

дисперсии

ft

 

. *

да

 

 

 

2 ^ ?

 

 

 

I

 

 

 

 

 

 

Sn = - i =l

 

 

 

 

 

 

2

Vj

i=l

 

i=l

 

 

t=l

 

 

 

 

ft

 

 

 

 

 

 

 

где К — полное число степеней свободы, равное 2

ѵ і -

 

 

 

 

 

і = 1

 

Если бы данные,

приведенные

в

таблице,

рассматривались

(некорректно) как отдельные измерения, то получилось бы среднее значение X = 70,89, а дисперсия, вычисленная по формуле (2.4.2)

с 19 степенями

свободы, оказалась

бы равной

 

20

 

 

S * =

 2 і-70,89)»

=

^ - 5 , 8 9 .

s

i=l

 

 

Напротив, если данные обрабатываются по парам (корректно), из

равенства

(в)

 

получается

 

 

 

 

 

 

 

 

 

 

 

s ^ =

2^10=

0Д52

 

 

при 10 степенях

свободы.

 

 

 

 

 

Полученный результат можно объяснить следующим образом.

Заметим,

что

для

одной пары

наблюдений

 

 

 

 

 

 

Di-D

=

 

(Xli-Xl)-{Xb-Xi),

 

 

 

ft

 

 

 

 

 

 

 

 

 

где

D = — 2

Dh

и

тогда

 

 

 

 

 

 

і=1

 

 

 

 

 

 

 

 

 

2

(Di-D)2

_

S

( * i

t - X i ) a

2 ( X i 2 - X 2 ) 2

2 g ( ^ - ^ i )

{г)

n — 1

n — 1

'

n — 1

/1—1

или

 

 

 

 

 

4

= *Згі + &,—2sxiZ,.

(г)

Заметим, что дисперсия разностей зависит от корреляции между парами наблюдений [ковариации в выражении (г)]. Следователь­ но, весьма желательно всегда упорядочивать пары наблюдений в надежде получить большую положительную корреляцию и тем самым уменьшить дисперсию. Если пары выбирать так, чтобы

Распределения вероятности и выборочная

статистика

81

исследуемые характеристики в каждой паре

были близкими, то

даже если они сильно отличаются от пары к паре, различия

между

парами не будут влиять на дисперсию средней разности, так как последняя зависит лишь от разностей внутри пар.

2.4.2. Распределение t

Распределение t (или ^-распределение Стьюдента, называемое так потому, что было опубликовано В. С. Госсетом под псевдони­ мом «Стыодент») используется при проверке гипотез и при нахож­ дении доверительных пределов для средних значений. Эти вопросы

pit)

= оо

fr3

III0'2

-4 -3

•2

-1

1

і ^ С г ^

З

О

 

 

 

 

 

{

 

 

Ф и г . 2.4.4. Плотность

^-распределения

вероятности

Стьюдента.

будут рассмотрены в гл. 3. Случайная переменная t пред­ ставляет собой отношение двух независимых случайных пере­

менных — нормированной

нормальной

переменной U и У%й/ѵ:

U

и

 

(2.4.13)

t = -\/у?/ѵ

sxl°x

ахП/п

sx/°x

где^Х — выборочное среднее значение, a sx — выборочное среднее квадратическое отклонение. Плотность распределения вероятно­ сти величины t равна

^ ) = W ^ W - ( 1 + T ) 2 < - « < « « > > . <2 -4 -1 4 )

где V — число степеней свободы, связанное с sx. На фиг. 2.4.4 приведены графики p {t) для различных степеней свободы ѵ.

Соседние файлы в папке книги из ГПНТБ