Статистические методы анализа и обработки наблюдений
..pdf6.1 ОЦЕНКА ГЕНЕРАЛ ЬНОГО СРЕДНЕГО |
121 |
статочно большим и, значит, найти генеральную дисперсию с высокой степенью точности.
Знание генеральной дисперсии позволяет оценивать ге неральное среднее даже по одному наблюдению (пример такой оценки дан в конце п. 5.2). А именно, если при на блюдении над случайной величиной £ получено значение х0, то для генерального среднего а имеет место следующая
доверительная |
оценка (с |
доверительной вероятностью |
|
1 —Р): |
OU\ —р/2 |
|
X Q "I- ОН j —р/21 |
Х 0 |
О. |
где «i_p/2— квантиль стандартного нормального распре деления, который можно найти из таблицы II Приложения. Например, при стандарте <т=4,5 и доверительной вероят ности 1—р = 0,98 значение x0= 142 даст оценку:
142—4,5x2,33<а<142 4-4,5-2,33,
откуда 131,5^а^152,5.
Если над случайной величиной £ проведено несколько наблюдений, то для оценки генерального среднего можно
использовать выборочное среднее х. Как следует из п. 3.2, это среднее также является случайной величиной с нормаль ным распределением. В п. 4.4 было показано, что матема
тическое ожидание у величины х то же самое, что и у
а дисперсия |
уменьшается в п раз (п — число наблюдений) |
||||||
и равна |
|
|
|
|
|
|
|
Каждая |
выборка |
есть |
одно |
наблюдение |
над величиной х. |
||
Поэтому |
для |
генерального |
среднего а получается |
оценка |
|||
|
|
х — a-ut_ р/2 ^ |
а ^ х 4- Ц-Wi -р/2- |
|
|||
Как и выше, генеральную дисперсию а2 считаем извест |
|||||||
ной, откуда |
ст- = - в |
Окончательно |
получаем |
оценку |
|||
|
|
* |
1/ #i |
|
|
|
|
|
X |
|
|
< |
а < X 4- -■ ? — Ui-p/В- |
(6.1) |
|
|
|
|
|
|
V п |
|
|
Из этой оценки видно, в частности, что уменьшение дове рительного интервала обратно пропорционально корню
122 |
§6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБ ЛЮД ЕН ИЙ |
квадратному из числа наблюдений, т. е. если мы хотим умень шить возможную ошибку в два раза, мы должны число наблюдений увеличить в четыре раза.
В качестве примера оценим генеральное среднее а по генеральной дисперсии а2=0,16 и по трем наблюдениям
хх=7,2\ *2=7,8; х3=7,6. Здесь п= 3,
|
х |
7,2 + 7,8 + 7,6 |
7,53. |
|
|
|
3 |
||
|
|
|
|
|
В качестве доверительной вероятности возьмем I—/?=0,95, |
||||
тогда |
|
|
|
|
Поэтому |
U \ —р/2 =р 1,9 6 . |
|
||
|
|
|
||
|
7,53---- 1,96 < а < |
7,53 + |
1,96. |
|
|
/ з |
|
|
/ 3 |
После |
всех вычислений |
получим |
окончательную оценку |
|
7,07 |
7,99. |
|
|
|
В проведенных рассуждениях мы пользовались тем, что х, как случайная величина, имеет нормальное распределе
ние с параметрами а и ° |
Благодаря |
этому величина |
У * |
|
|
и = |
х а а Y n |
(6.2) |
имеет стандартное нормальное распределение и с вероят ностью 1—р удовлетворяет неравенству
—р/2 |
U 1 _ р/2. |
(6.3) |
Подставляя в (6.3) значение и из формулы (6.2), мы вновь придем к оценке (6.1) генерального среднего а.
Как уже указывалось, генеральную дисперсию а2 нельзя найти из наблюдений, поэтому вместо нее обычно берут выборочную дисперсию s2. Это значит, что вместо величины и на самом деле рассматривается величина
t = |
(6.4) |
При больших п дисперсия s2 мало отличается от о2 и
6.!. ОЦЕНКА ГЕНЕРАЛЬНОГО СРЕДНЕГО |
123 |
значит, величина / мало отличается от величины и. При малых же объемах выборок различие между / и и ока зывается весьма существенным; более того, распределение величины / уже не является нормальным.
Общие законы теории вероятностей позволяют вывести формулы, описывающие распределение величины /. Это распределение называется /-распределением или распреде лением Стьюдента *); оно зависит только от числа / сте пеней свободы, по которым подсчитана дисперсия s2. Если
дисперсия s2 и среднее х подсчитывались по одним и тем же наблюдениям, то f= n —1, где п — объем выборки.
Мы не будем приводить формулу плотности /-распре деления, слишком громоздкую и содержащую специальные
функции. Свойства этой плотности хорошо видны на гра фике; на рис. 21 приведены графики плотности /-распреде ления при различных значениях /. Они напоминают по форме плотность нормального распределения, но при /->+00 значительно медленнее сближаются с осью абсцисс. При /-> оо дисперсия s2->a2, поэтому распределение Стью дента сближается с нормальным; случай / = о о вообще со ответствует нормальному распределению. При малых же / распределение Стьюдента сильно отличается от нормального, в силу чего его роль особенно велика в так называемой микростатистике или статистике малых выборок.
*) Стьюдент— псевдоним английского статистика Госсета, от крывшего /-распределение в 1908 г.
124($6 ОЦЕНКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ
Вдальнейшем, согласно общему правилу, через tp обозначаются квантили /-распределения. Это распределе
ние симметрично относительно нуля, поэтому ip——tx- P- При доверительной вероятности 1—р для величины t получается доверительная оценка
11—р/2 ^ ^ ^ |
- Р / 2- |
Подставляя сюда выражение для t из формулы (6.4), полу чим неравенство
|
11 — Р/ 2 ^ |
t \-р/2> |
откуда, после |
преобразований, |
найдем |
х |
— ti-pi% a. s C |
х -\ — 11 _ р/2 - |
|
У п |
У п |
Полученная оценка очень похожа на оценку (6.1), по лученную ранее, только здесь о заменено на s, в связи с чем вместо их—р/2 приходится рассматривать tx- p/2-Значения tх_р/2 Для различных чисел степеней свободы / и уровней значимости р приведены в таблице III Приложения.
Распределение Стьюдента позволяет оценивать генераль ное среднее, когда генеральная дисперсия неизвестна. При этом число наблюдений может быть очень малым, даже равным двум. Конечно, скудость информации сказывается на результатах — доверительные границы получаются до вольно широкими. Поэтому везде, где только можно, нужно стараться увеличивать число степеней свободы у выборочной дисперсии, привлекая, в частности, «текущие измерения».
Сравним, например, две оценки генерального среднего
по выборочному среднему лг= 18,6, найденному по трем наблюдениям; в качестве доверительной вероятности возь мем 1—р=0,95. В обеих оценках будем использовать одну и ту же дисперсию 0,25, только вначале будем считать ее генеральной, а потом — выборочной, найденной по тем же трем наблюдениям. Если 0,25 — это генеральная диспер сия, то а=0,5, и используя нормальное распределение, по лучим доверительную оценку
18,6— ^ 4 |
1 ,9 6 < я < |
18,6 + 4 4 1,96 |
/ з |
^ |
Кз |
или, после всех вычислений, 18,03 ^ а ^ 19,17
6.1 ОЦЕНКЛ Г ЕНЕР АЛЬНОГ О СРЕДНЕГО |
125 |
Если же 0,25 — это выборочная дисперсия, |
то s=0,5 |
и нужно воспользоваться распределением Стьюдента, в
силу которого |
справедлива |
доверительная оценка |
||
|
18,6— ^ U , 3 0 < a < 18,6 + - ^ 4 4,30 |
|
||
|
|
)/3 |
/ 3 |
|
(здесь |
квантиль |
/1_ р/2= 4,30 найден из таблицы |
III Прило |
|
жения |
соответственно /= 2 |
степеням свободы). |
После вы |
числений получаем доверительную оценку 1 7 ,3 6 ^ а ^ 19,84, которая значительно уступает оценке, полученной в пред положении, что известная нам дисперсия является генераль ной. Этот пример еще раз подчеркивает важность определе ния именно генеральной дисперсии для получения наиболее узких доверительных интервалов.
В некоторых задачах требуется найти одностороннюю доверительную оценку генерального среднего, т. е. оценку только сверху или только снизу. Такие оценки непосред ственно вытекают из общего определения квантилей. А имен но, при доверительной вероятности 1—р оценка для t сверху имеетвид t ^ l x_p, оценка снизу имеет вид t^ —t1_p.
Используя выражение для t из |
формулы |
(6.4), полу |
|
чим односторонние доверительные |
оценки |
генерального |
|
среднего: |
|
|
|
+ |
(сверху), |
у п |
(снизу). |
у п |
г |
у |
Напомним, что в таблице III Приложения указаны квантили t 1—p/2для соответствующих уровней значимости р. Поэтому число tx_p нужно искать в столбце с вероят ностью 2р.
Рассмотрим следующий пример. При выплавке чугуна в качестве вредной примеси появляется сера. Шестикрат ный анализ показал, что в одной тонне выплавленного чу
гуна содержится х=4 кг серы. Выборочный стандарт на блюдений^ (в подобных случаях он носит название ошибки воспроизводимости анализа) найден по тем же шести ре зультатам анализа и равен 0,3 кг. Необходимо найти воз можный верхний предел содержания серы при доверитель ной вероятности 1—р=0,95.
126 |
§6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБ ЛЮДЕНИЙ |
Обратимся к таблице III Приложения; число степеней свободы в нашем случае равно 5. В столбце с вероятностью 2р=0,10 находим /о>95=2,02. Отсюда
а < 4 + - ^ 2 ,0 2 = 4,25,
что и дает требуемую оценку.
В приведенных примерах вычислений с помощью рас пределения Стьюдента предполагалось, что стандарт s
вычислен по той же выборке, что и среднее х. Подобная си туация встречается на практике чаще всего, однако для распределения Стьюдента она не обязательна, т. е. числа
х и s в формуле (6.4) могут быть найдены и по различным выборкам. Это позволяет, в частности, вычислять s по «те кущим измерениям» даже и в том случае, когда число этих измерений не настолько велико, чтобы найденное по ним s можно было приравнять (в пределах точности вычислений) генеральному стандарту а.
6.2.Оценка генеральной дисперсии. Роль дисперсии не
однократно подчеркивалась в предыдущем изложении. Не говоря о том, что знание генеральной дисперсии позво ляет получать более удобные оценки генерального среднего (см. предыдущий пункт), дисперсия имеет и самостоятель ную ценность, как информация о точности применяемой методики испытаний.
^Для оценки генеральной дисперсии используется вы борочная дисперсия s2.’3Ta дисперсия в силу случайности выборки сама является случайной величиной; в п. 4.4 было показано, что математическим ожиданием для s2 служит генеральная дисперсия а2. Отсюда следует, что а2 можно оценить по s2, если известно распределение величины s2.
Распределение величины s2 можно получить с помощью так называемого распределения Пирсона (или %2-распреде ления), открытого и разработанного Пирсоном в 1900 г. Для выборки с элементами xlf х2, . ., хп через %2 обозна чается сумма
2
6.2. ОЦЕНКА ГЕНЕРАЛЬНОЙ ДИСПЕРСИИ |
127 |
В этой сумме есть связь х, поэтому число степеней свободы f= n —1. Плотность х2-распределения зависит только от f, графики плотности при некоторых значениях f приведены на рис. 22. Поскольку х2 ^ 0, то и плотность рассматрива ется лишь на промежутке [0, оо). Кривые асимметричны, хотя степень асимметрии ууеньшается при увеличении f. В связи с этим отдельные квантили величины х2 не выра жаются друг через друга.
При доверительной вероятности 1—р двусторонняя до верительная оценка величины х2 имеет вид
V 2 |
V2 < у 2 |
Л р / 2 |
л —— Л ] —р/а » |
односторонние оценки имеют вид
<7 2 |
v 2 |
V 2 > |
V 2 |
а |
A l-р* |
а |
Ар- |
Квантили Xi-p ПРИ различных р и / приведены в таблице IV Приложения.
Нетрудно усмотреть связь между величинами х2 и s2;
s2= ^4гт X . (*/ — х)2= Т X2»
<= 1 |
1 |
откуда
2 /S2
X О2" "
128 |
§6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ |
Поэтому с вероятностью 1—р справедливо неравенство
Хр/2 ^ *Q2* X 1 - Р / 2-
Простейшие преобразования приведут нас к соотношению
/s2 fs2
у2 Xl-p/2 Лр/2
которое и является двусторонней доверительной оценкой для генеральной дисперсии а2. Аналогично получаются одно сторонние доверительные оценки
a2 С fs2 а2
Оценим в качестве примера генеральную дисперсию о2 для серии из 16 наблюдений с выборочной дисперсией s2= 2,4; доверительную вероятность. 1—р положим равной 0,90. По таблице IV Приложения при числе степеней сво боды /= 15 находим Хо.о5 = 7’3 и Х „ . 95 = 25,0. Это даст дву стороннюю доверительную оценку
25Д)2,4 ^ ° 2 ^ Л З 2,4
или, после вычислений, 1,44^а2^4,93.
Полученные оценки дисперсии можно превратить в оценки стандарта а, извлекая из всех частей неравенств квадратный корень. Например, двусторонняя доверитель
ная оценка генерального стандарта |
при доверительной е- |
||
роятности 1—р имеет вид |
|
|
|
Y |
г.1 - Р / 2 |
У |
i t |
Вводя в рассмотрение случайную |
величину |
||
|
v = |
/ r |
|
эту двустороннюю оценку можно записать в виде
|
6.2. ОЦЕНКА ГЕНЕРАЛЬНОЙ ДИСПЕРСИИ |
129 |
||
а |
соответствующие |
односторонние — в |
виде |
о ^ .s v 1_p, |
о ^ |
svp (доверительную вероятность по-прежнему считаем |
|||
равной 1—р). Для удобства пользования |
перечисленными |
|||
оценками в таблице |
V Приложения приведены |
квантили |
vр |
f |
|
X2i-p |
||
|
Этими же квантилями можно пользоваться и для оценок генеральной дисперсии, например, с вероятностью 1—р справедливо неравенство
s2Vp/2 ^ о2 s2v21 - Р / 2 -
Можно показать, что при больших / распределение ве личины s близко к нормальному с математическим ожида
нием о и дисперсией |
На |
практике распределение ве |
|
личины s считают нормальным |
уже при |
30. |
Отметим, что для определения s2 и дальнейшей оценки а2 можно использовать «текущие измерения» (п. 4.4). При этом нужно помнить, что число степеней свободы f равно
общему числу |
наблюдений минус число групп. |
Именно |
это / и определяет распределение величины х2- |
удобно |
|
Иногда для |
оценки генерального стандарта о |
использовать размах выборки, т. е. разность между ее наи большим и наименьшим элементами. Такая оценка менее эффективна, чем оценка с помощью выборочного стандарта s, однако она требует намного меньше вычислений, что не редко оправдывает ее применение.
Обозначим размах выборки через W Отношение
W wn = — " о
является случайной величиной, распределение которой за висит только от объема выборки п. Поэтому в качестве при ближенного значения а можно брать величину
|
|
|
ш |
= Г “»' |
(6.5) |
|
|
|
|
||
где |
— математическое |
ожидание величины wn. Числа |
|||
а |
" |
= —— приведены в таблице VI Приложения. |
|
||
|
tAwn |
г |
|
|
5 Е. И. Пустылышк
№§6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБ ЛЮД ЕН ИЙ
Оценка (6.5) мало эффективна и применяется редко. Значительно полезней применение размаха при наличии нескольких выборок из генеральных совокупностей с оди наковым стандартом а (напомним, что именно такая ситуа ция возникает при обработке «текущих измерений»). Ука жем способ оценки генерального стандарта а в этом случае.
Допустим, что обработке подлежит некоторая достаточ но большая совокупность наблюдений и что все применяв шиеся при наблюдениях методики имеют одинаковые генеральные дисперсии а2. Разобьем эту совокупность наб людений на k отдельных частичных выборок так, чтобы в
пределах |
каждой |
такой |
выборки генеральное |
среднее |
||||
было |
неизменным *). Так, |
например, |
при обработке |
«те |
||||
кущих |
измерений» |
частичные выборки |
образуются |
из |
из |
|||
мерений |
одного объекта. |
Число элементов |
в выборке с |
|||||
номером |
i обозначим через |
/гх-; желательно, |
чтобы все п,- |
были меньше 10.
Легче всего производить расчеты, когда все п(=п. Обо
значая размах |
/-й выборки через |
найдем величину |
|
I = 1 |
|
При k ^ 8 эта |
величина имеет |
приближенно нормальное |
распределение с математическим ожиданием а и дисперсией |
||
Q2 |
Числа |
зависят только от п и приведены в |
DI = — f5%. |
||
таблице VI |
Приложения. |
|
Таким образом, величину о можно оценивать через / с |
||
помощью квантилей |
_ р/2 стандартного_нормального рас |
пределения. При доверительной вероятности 1—р полу чаем оценку
/ — + | . (6.6)
В этой оценке неизвестный стандарт а входит во все части неравенств. Решая неравенство (6.6) относительно а, по-
*) Если генеральное среднее неизменно по всей совокупности, то разбиение нужно проводить случайным образом с помощью таблицы случайных чисел (см. п. 10.1).