Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

4.4. СРЕДНЕЕ И ДИСПЕРСИЯ ВЫБОРКИ

91

Из случайности выборок вытекает, что все числовые ха­

рактеристики выборки (в частности, среднее и

дисперсия)

при неизменном объеме п будут случайными

величинами

со своими распределениями. Эти распределения

можно на­

ходить, зная распределение основной случайной величины Рассмотрим вначале среднее выборки, равное сумме ре­

зультатов отдельных наблюдений, деленной на п. Если рассматривать всевозможные выборки, то результат пер­ вого наблюдения окажется совершенно случайным; то же самое верно для второго наблюдения, третьего и т. д. Сле­ довательно, каждому по счету наблюдению соответствует своя случайная величина: первому — р1( второму — |и2

ит. д. Все эти величины имеют то же распределение, что

иосновная величина £ — ведь именно ее мы наблюдаем всякий раз. Поэтому они имеют одинаковые математиче­ ские ожидания Мр,1=Мр,2= ... = Мр.п = М£, одинаковые дис­ персии D ii^D iio^... = Djj,„=D£. Среднее выборки выражает­

ся через результаты отдельных наблюдений по формуле

“ _ Ш+ Ра+ • • • + Р„

п

Следовательно, в силу свойств математического ожидания и дисперсии любой случайной величины

м ~ =

+

... +М[1„ _

пЬАс,

 

 

 

п

п

*

И

 

 

 

 

D~

PPt + PP2+ ••• +РР„ _

ПР1 _

!

 

 

п2

п2

п

Сравним теперь случайные величины £ и х. Обе эти вели­ чины имеют одинаковые математические ожидания, т. е. наблюдения над ними соответствуют одному и тому же ис­ тинному результату. Благодаря этому, вместо величины £

можно изучать величину х. Правда, каждое наблюдение над

величиной х в п раз труднее, чем наблюдение над £ (нужно сначала получить всю выборку и лишь потом сумму эле­

ментов поделить на п), но зато у величины х в п раз мень­ ше дисперсия.

Перейдем к рассмотрению дисперсии D |;j. Считая, так же как и выше, каждое наблюдение случайной величиной,

92 § 4. Н А Б Л Ю Д ЕН И Я

получим, ЧТО

D f

( Щ — -к) 2 + ( Ц 2 — * )2 + ••• + ( [ 1 , — x f

и Ьп

п

откуда

 

M(Dg„) =

м (щ — * )2+ М (р2— х)2■+... 4-М ( ^ — J ) 2

Производя преобразования (которые мы опускаем ввиду их громоздкости), приходим к равенству:

M(DL) = - ^ - D | .

Иными словами, истинный результат наблюдений над дис­

персией

D£„ как случайной

величиной не совпадает с дис­

персией

D£, а оказывается

несколько меньше последней.

В связи с этим

называется смещенной оценкой диспер­

сии D£.

 

 

 

Из полученных формул непосредственно видно, как нуж­ но изменить D|n, чтобы получить несмещенную оценку дис­ персии D£. А именно, в качестве дисперсии выборки нуж­ но рассмотреть величину

Согласно свойствам математического ожидания Ms2 = Dl

и, значит, s2 действительно является несмещенной оценкой D£*). Переход к несмещенной оценке s2 важен в основном для малых выборок, ибо разница между s2 и при боль­ ших п незаметна. Однако во избежание разногласий мы в дальнейшем под выборочной дисперсией будем понимать только s2.

Используя знак 2 для обозначения суммы по всем эле­ ментам выборки, получим удобные сокращенные формулы

среднего и дисперсии выборки

 

 

s2 = T Z T

^)2'

И-1)

) Более подробно о несмещенных оценках см. ниже, в п. 5.1.

4.4. СРЕДНЕЕ И ДИСПЕРСИЯ ВЫБОРКИ

93

В практических вычислениях для дисперсии s2 часто удоб­ на формула

s2

_1_

(£*/)* 1

 

п — 1

 

легко вытекакЛцая из (4.1).

Величина s (корень квадратный из выборочной диспер­ сии) называется средним квадратичным отклонением вы­ борки или выборочным стандартом.

Тот факт, что для получения несмещенной оценки дис­ персии D£ в знаменателе выборочной дисперсии пришлось п заменить на п—1, непосредственно связан с тем, что вели­

чина х, относительно которой берутся отклонения, сама зависит от элементов выборки. Если бы в формуле выбо­ рочной дисперсии были две такие величины, то п нужно было бы заменить на п—2 и т. д. (со значительным уменьше­ нием знаменателя выборочной дисперсии нам еще придется столкнуться в регрессионном анализе, п. 9.2).

Каждая величина, зависящая от элементов выборки и участвующая в формуле выборочной дисперсии, называется связью. Оказывается (это можно строго доказать), знаме­ натель выборочной дисперсии всегда равен разности между объемом выборки и числом связей, наложенных на эту вы­ борку. Эта разность фактически показывает, какое коли­ чество элементов выборки можно произвольно изменять, не нарушая связей, поэтому она называется числом степеней свободы выборки. Число степеней свободы участвует не только в формуле выборочной дисперсии, но и в формулах всех случайных величин, так или иначе связанных с этой дисперсией.

Математическое ожидание М£ и дисперсию D£ самой случайной величины £ называют обычно генеральным сред­ ним и генеральной дисперсией. Применяя различные мето­ дики испытаний, мы будем получать различные случайные величины, даже исследуя один и тот же объект; соответствен­ но будут меняться и D£. Следовательно, генеральное среднее и генеральную дисперсию можно использовать для характеристики методик испытаний. При этом нужно хорошо представлять себе, что генеральное среднее и гене­ ральная дисперсия, взятые по отдельности, слабо характе­ ризуют методику испытаний. Так, методика с большой

94 § 4. НАБ Л ЮД ЕН И Я

дисперсией (малой точностью) может из-за отсутствия систе­ матических ошибок дать лучшее приближение к истинному результату, чем методика с малой дисперсией, но с систе­ матической ошибкой.

Итак, среднее и дисперсия характеризует две различные важные стороны применяемой методики испытаний: среднее характеризует результат, даваемый методикой, а диспер­ сия точность этого результата, точность методики.

На этом «разделении ролей» среднего и дисперсии основана обработка так называемых «текущих измерений», к изло­ жению которой мы и перейдем.

Как уже указывалось, генеральное среднее и генеральная дисперсия оцениваются средним и дисперсией выборки тем точнее, чем больше объем выборки. В практической работе, однако, не всегда есть возможность провести достаточно большое число наблюдений; если же такая возможность есть, то на проведение большой серии наблюдений потре­ буется много времени, в течение которого результат или точность методики могут измениться. В то же время в руках исследователя часто имеются большие совокупности наб­ людений, в которых неизменна только дисперсия или только среднее. Например, состав неизвестного вещества одновре­ менно исследуется в нескольких лабораториях, в силу чего точность методики (дисперсия) по всем наблюдениям не бу­ дет одинакова, но среднее всех наблюдений (при отсутствии систематических и грубых ошибок) одно и то же. Часто встречается и такая ситуация, когда для различных изме­ рений с различными средними применяется одна и та же методика, одни и те же приборы, и значит, дисперсия по всем наблюдениям не изменится.

Оказывается, изменение одного из чисел (среднее, дис­ персия) не мешает использовать все наблюдения для на­ хождения второго числа, если оно остается неизменным. Проще всего обстоят дела с вычислением среднего — здесь изменением дисперсии можно просто пренебрегать. При вы­ числении дисперсии нужно уже учитывать изменение сред­ него, что позволит найти общую дисперсию «текущих изме­ рений».

Для вычисления дисперсии все наблюдения разбивают на отдельные выборки, в каждой из которых среднее можно считать неизменным. Пусть эти частные выборки имеют

 

4.4. С РЕ Д Н Е Е И ДИСПЕРСИЯ ВЫБОРКИ

95

объемы пъ

пг, ..., nk. Вычислим частные дисперсии

si, si,

..., s i для

каждой такой выборки в отдельности. Общая

дисперсия всех наблюдений будет теперь равна средневзве­ шенному значению частных дисперсий (в качестве весов бе­ рутся степени свободы):

s2 _ (п1 — О s l~l~(п2— 1) So 4~ • • • + ( ^ f e — 1) s i

Отметим, что в знаменателе, как всегда, стоит общее число степеней свободы для всей объединенной выборки. Дейст­ вительно, каждая частная выборка имеет свою связь, зна­ чит, всего k связей.

Рассмотрим пример вычисления дисперсии по «текущим измерениям». Спектральный метод определения фосфора в чугуне по различным образцам дал значения, приведен­ ные в таблице 4.1 (в % содержания фосфора). Используем все эти данные для вычисления дисперсии указанного ме­ тода; соответствующая схема рекомендуется для обработки любых «текущих измерений».

Т а б л и ц а 4.1

Номер наблюде-

 

 

Номер образца

/

 

11 И Я /

1

2

3

4

5

1

0,42

0,26

0,09

0,60

0,47

2

0,38

0,24

0,08

0,64

0,44

3

0,39

0,21

0,08

0,62

0,46

4

0,36

0,23

0,09

0,62

0,47

5

0,41

0,12

0,64

0,49

6

0,39

0,08

0,59

0,45

7

0,40

0,61

0,48

8

0,41

0,63

* * /

3,16

0,94

0,54

4,95

3,26

 

 

 

 

 

2х]

1,2508

0,2222

0,0498

3,0651

1,5200

п,-

8

4

6

8

7

96

§ 4. Н АБ Л Ю Д Е Н И Я

В нижних трех строчках таблицы 4.1 указаны резуль­ таты подсчета сумм данных каждой колонки, сумм квадра­ тов этих данных, а также объемы наблюдений по каждому образцу (число данных в колонке). Эти числа нужны для вычисления дисперсий s2 по формуле

S; =

( S i i l '

Я/

 

Для вычисления общей дисперсии s2 нам понадобятся, од­ нако, не сами s2, а произведения

К — 1)«*

ni

По результатам первой колонки легко находим

(«!— l)s? = 1,2508—

1,2508 — 1,2482 = 0,0026.

Аналогичные расчеты дают

значения

(п2— 1) si = 0,0013,

(п3— 1) s§ = 0,0012,

(п[— 1)s\ = 0,0023,

(пь— 1) si = 0,0018.

Общее число степеней

свободы здесь

равно

 

8 + 4 + 6 + 8 + 7 —5 = 28.

 

Поэтому

 

 

 

0,0026 + 0,0013 + 0,0012 + 0,0023 + 0,0018

0,00033.

 

28

 

 

 

 

Извлекая квадратный

корень, можем

найти

 

 

s = 0,018.

 

 

При обработке наблюдений чаще всего приходится стал­ киваться с нормальным распределением. Для такого рас­ пределения математическое ожидание и дисперсия обозна­ чаются через а и а2. Во всех случаях, где это не может вызвать недоразумений, мы будем использовать эти обозначе­ ния и для любых других распределений: а — генеральное

среднее, а2 — генеральная

дисперсия (соответственно о

генеральный стандарт).

о играет

очень важную роль

Генеральный

стандарт

в большинстве

вопросов обработки

наблюдений. Как мы

4.4 СРЕДНЕЙ И ДИСПЕРСИЯ ВЫБОРКИ

97

увидим ниже, знание генерального стандарта дает всегда более точные оценки и в то же время заметно облегчает их получение. К сожалению, данные наблюдений не позво­ ляют находить точное значение генерального стандарта, и мы вынуждены использовать лишь выборочный стандарт. Возникающая при этом погрешность тем меньше, чем боль­ шее число наблюдений участвовало в вычислениях выбо­ рочного стандарта, точнее, чем больше число степеней сво­ боды у выборочной дисперсии.

Число степеней свободы у средневзвешенной дисперсии s2 гораздо больше, чем у каждой дисперсии s] в отдельности. Поэтому-s намного точнее отражает генеральный стандарта. В приведенном выше примере вычисления дисперсии по «текущим измерениям» можно теперь считать, что а=0,018, используя это значение стандарта при дальнейших приме­ нениях спектрального метода определения фосфора в чугуне. Подобное соображение особенно ценно в тех случаях, когда одна и та же методика повторяется много раз (например, при контроле за производством).

Рассмотрим теперь некоторые вопросы, связанные с об­ работкой косвенных измерений, т. е. случайных величин, полученных не непосредственно из наблюдений, а путем некоторого функционального перехода. Почти все иссле­ дования бывают связаны с косвенными измерениями, ибо величины, найденные из опыта, редко используются в даль­ нейшем сами по себе — гораздо чаще их приходится пере­ считывать по тем или иным формулам.

Пусть случайная величина z зависит от наблюдений хи

х2,

хп по известному закону

 

 

г = ф(л-1, х2,

*„).

Тогда

истинное значение величины z может не совпадать

с математическим ожиданием Mz, и его естественнее опреде­ лить этим же законом

аг = ^ { ап а2> аг.)>

где а,— генеральные средние величин х{. Число аг на­ зывается обычно средним косвенного измерения.

Дисперсия косвенного измерения о\ определяется так же, как обычная дисперсия, только отклонения берутся не от Mz, а от среднего косвенного измерения аг. Эта дисперсия

4 Е. И. Пустылышк

98 § 4. Н АБ Л Ю Д Е Н И Я

обладает всеми свойствами обычной дисперсии; ее можно найти, если известны дисперсии а2 отдельных наблюдений х {. На практике чаще приходится иметь дело с выборочными дисперсиями s], по которым определяется некоторое число si фо\. При достаточно больших числах степеней свободы у дисперсий s] найденное s| оказывается близким к диспер­ сии косвенного измерения а|. Из соображений аналогии s\ называют обычно выборочной дисперсией косвенного изме­ рения г.

Чтобы найти si, разложим z в ряд Тейлора, ограничи­ ваясь членами первого порядка и предполагая, что отдель­ ные наблюдения x-t мало отличаются от своих истинных

значений

а,-:

 

 

 

z ^ ф (fllf

а2,

дф(Дь

а,, . . . .

ап)

ал) +

дхх

(*i —Ai) +

 

 

 

 

дхг

Воспользовавшись тем, что дисперсия суммы независимых величин равна сумме дисперсий и что дисперсия постоянной величины равна нулю, найдем

Вчастности, если z зависит только от одного наблюдения

хпо закону г=ф(х), то

az = 'H ax), s* = [\|)' (*)]2s2.

(4.2)

В заключение пункта отметим, что при неизвестном рас­ пределении наблюдаемой случайной величины генераль­ ное среднее а и генеральная дисперсия а2 представляют в основном лишь самостоятельную ценность (см. п. 7.2). Если же известно, что изучаемое распределение нормально, то числа а и а2 полностью определяют его, и следовательно, знание этих чисел является исчерпывающим знанием о ве­ личине

§ 5. ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

5.1.Параметры распределения. Важнейшая задача мате­

матической

статистики, решение которой позволило бы,

в принципе,

решить и все остальные задачи — это нахож­

дение функции распределения наблюдаемой случайной величины. Для решения этой задачи можно пользоваться тео­ ремой Гливенко (см. п. 4.3), которая позволяет неизвест­ ное распределение приближенно заменять эмпирическим распределением случайной величины Теорема Гливенко не использует никаких специфических свойств генеральной совокупности, целиком опираясь на случайность выборки и соответствующие вероятностные закономерности; она при­ менима к любым случайным величинам. Естественно, что от теоремы с такими общими условиями трудно ждать тон­ ких результатов. И действительно, теорема Гливенко может быть практически использована лишь при очень больших объемах выборки. Например, для того чтобы быть доста­ точно уверенным, что эмпирическая функция распределе­ ния Fn(x) отличается от неизвестной функции распределе­ ния F(x) не более, чем на 0,1, нужно брать выборку объе­ мом не меньше 185 элементов *).

К счастью, при обработке наблюдений редко приходится прибегать к построению эмпирической функции распреде­ ления. Даже простейший анализ условий испытаний позво­ ляет с достаточной степенью уверенности определять тип неизвестной функции распределения — распределение Пуас­ сона, биномиальное, нормальное распределение и т. д. В подобном случае окончательное уточнение неизвестной

*) Подсчет произведен на основании теоремы Колмогорова (смниже, п. 7.1).

4*

100 § 5- ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

функции распределения сводится к определению некоторых числовых параметров распределения. Эти параметры оп­ ределяются по выборке, разумеется, приближенно, однако нужная точность здесь достигается при гораздо меньших объемах выборки, чем при непосредственном использова­ нии теоремы Гливенко.

Большинство параметров определяется и для наблю­ даемой случайной величины £ (в этом случае они называются генеральными), и для эмпирической случайной величины (в этом случае они называются выборочными). С двумя важ­ нейшими параметрами мы уже встречались — это среднее

и дисперсия. В этом пункте мы укажем еще несколько важ­ ных параметров; случайная величина £ при этом все время предполагается непрерывной.

Формальное определение большинства параметров рас­ пределения дается с помощью функции распределения*). Если в таком определении заменить генеральную функцию распределения F (х) эмпирической функцией Fn(x), то из генеральных получатся соответствующие выборочные па­ раметры. Поэтому тот факт, что выборочные параметры стремятся к генеральным при увеличении объема выборки, обеспечивается уже теоремой Гливенко, хотя при этом, как правило, получается весьма грубая оценка погрешности. В результате возникает основная задача, связанная с па­ раметрами: используя специфические свойства каждого па­ раметра в отдельности, найти для него более удобную оценку.

Пусть изучается генеральный параметр а и пусть по выборке объема п определена некоторая величина а„ (не обязательно соответствующий выборочный параметр). Го­ ворят, что ап является состоятельной оценкой параметра а, если с вероятностью единица а л—хх при п-+оо. Используя теорему Гливенко, мы можем теперь сказать, что выбороч­ ные параметры являются состоятельными оценками своих генеральных параметров.

Оценка ап называется несмещенной, если при каждом фиксированном п математическое ожидание Мал= а . В част­

*) Такие определения используют, как правило, сложное понятие интеграла Стилтьеса. Поэтому в дальнейшем даются раздельные форму­ лы параметров: для генеральной совокупности через плотность распре­ деления, для выборки — через ее элементы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]