мечалось в предыдущих главах, достаточно использовать резуль таты корреляционной теории случайных функций. Поэтому остановимся прежде всего на определении первых двух момен тов случайных величин и функций.
Как известно из статистики [20], [ 30 ], f77], обработка экспери ментального материала не позволяет определить точные значе ния искомых моментов, а дает возможность найти только их приближенные значения. Эти приближенные значения, называе мые оценками искомых параметров, мы будем обозначать в даль нейшем теми же буквами, что и оцениваемые параметры, отмечая их волнистой чертой сверху.
Так, например, оценку математического ожидания х случай ной величины X будем обозначать х, оценку дисперсии этой
величины — а2 и т. д.
Рассмотрим сперва получение оценок случайной величины. Предположим, что в результате п независимых испытаний полу чено п реализаций этой величины, которые обозначим
(8 . 1)
Реализации (1) называются выборкой us генеральной совокуп ности, число п — объемом выборки, а числа Xj — элементами выборки.
Оценки моментов случайной величины X, получаемые по дан ной выборке, функционально связаны с элементами выборки Xj и, следовательно, в свою очередь являются случайными вели
чинами. Поэтому полной характеристикой оценки является ее закон распределения, вид которого зависит от вида закона рас пределения случайной величины X и характера оцениваемой величины.
Общее представление о качестве получаемой оценки можно составить без вычисления ее закона распределения, изучая не которые общие свойства оценок, из которых наиболее важными являются: состоятельность, несмещенность и эффективность.
Оценка а параметра а называется состоятельной, если ее
дисперсия стремится к нулю с ростом объема выборки, т. е. если выполняется равенство
lim D [âj = 0.
(8.2)
Оценка называется несмещенной, если математическое ожида ние оценки равно оцениваемой величине, т. е. если
М \ä\ — а
( 8. 3)
при любом п.
438 ОБРАБОТКА РЕЗУЛЬТАТОВ ИСПЫТАНИЙ ГУ [ГЛ. 8
В том случае, когда равенство (3) выполняется только в пре
деле при тг->со, т. е. когда справедливо соотношение
limM |ä] = a,
(8.4)
«->00
оценка называется асимптотически несмещенной.
Наконец, из двух оценок та называется более эффективной, дисперсия которой меньше.
Состоятельность оценки является необходимым условием для того, чтобы этой оценкой можно было пользоваться, так как в противном случае при увеличении объема выборки не повыша ется точность определения интересующего нас параметра. Не смещенность является также положительным качеством оценки, так как ее наличие гарантирует от появления систематической ошибки. Однако в некоторых случаях, в основном из соображе ний простоты расчетов, довольствуются требованием асимпто тической несмещенности. Также иногда предпочтительней яв ляется использовать менее эффективную, но более простую оценку, чем более эффективную, но сложную в вычислительном отношении.
После этих общих замечаний перейдем к рассмотрению оценок математического ожидания X и дисперсии ох2 по выборке (1).
В математической статистике доказывается, что несмещенная, состоятельная и наиболее эффективная оценка х математического ожидания X определяется формулой
П
(8-5)
з= 1
т. е. в качестве оценки х целесообразно выбрать среднее ариф метическое элементов выборки.
Находя дисперсию суммы по общей формуле (1. 39), получим, что дисперсия оценки х определяется формулой
0 И = 4 о*,
(8 .6 )
где о| — дисперсия случайной величины X.
В целях упрощения вычислений формулу (5) можно пере
писать в следующем эквивалентном виде:
П
(а7 ~ С) + С)
(8-7)
3=1
где с — произвольное число, называемое ложным нулем.
§ 8.1]
ОБЩИЕ ПРИНЦ ИПЫ П О ЛУ ЧЕНИЯ ОЦЕНОК
439
Если выбрать с так, чтобы его значение приближенно рав нялось X, то разности (Xj ~c) будут малыми и их суммирование
проще осуществляется, чем суммирование х г Например, если элементы выборки х - отличаются друг от друга только дробными частями, то, выбрав в качестве с неизменную целую часть ж.,
мы тем самым избавимся от необходимости складывать одинако вые целые части элементов выборки.
В качестве второго упрощения при вычислении х по фор муле (5) иногда применяется разбиение элементов выборки на группы. Для этого определяют минимальный элемент выборки жшіп, максимальный элемент выборки жшах и вычисляют «размах» (жтах—жшіп). Затем задаются числом групп (иногда говорят — «разрядов») и определяют интервал каждого разряда по формуле
А — "
(^ m a x
^ 'm in )'
( ^ - 8 )
Обозначив границы
Z-ro разряда
Л, _ 15 Д,,
а среднее
значе
ние разряда ж„ для их определения получим
д, =
Зты + JA, £t= ( l — у )А + жтіп (1 =
1,
2, . . т).
(8.9)
Далее
подсчитывается
численность /г,
каждого разряда,
т. е. число элементов
выборки, попадающих
в данный
разряд
(если элемент попадает на границу двух разрядов, то в сосед ние разряды прибавляется по 1/2). После этого оценка х может быть подсчитана по приближенной формуле
тт
і=і
і=і
с^ + с ’
(8 л °)
где с — по-прежнему
обозначает «ложный
нуль».
Преимущество
формулы (10) перед1!
(5)
сказывается при
большом объеме вы
борки п.
Результат разбиения элементов выборки на разряды целе сообразно представить в виде таблицы 8 .1 .
При вычислении по формуле (10) делается добавочная ошибка, связанная с тем, что значения каждого элемента в группе при нимаются равными среднему значению для этой группы. Если
считать каждый
элемент,
попавший в
группу,
распределенным
по равномерному
закону с
1
7
указанное округ
параметром -j/i, то
ление приводит к тому, что дисперсия оценки х вместо выраже ния (6 ) будет определяться формулой
1
Д Г 1
( 8 . 1 1 )
4 4 0
ОБРАБОТКА РЕЗУЛЬТАТОВ ИСПЫТАНИЙ ГУ
[ГЛ. 8
Т а б л и ц а
8.1
Номер разряда і
1
2
т
Границы
раз
%min 1 хmin
^min
^min
%min “j“ ірі
1) Ä,
аг m;ix
ряда Дг_г, Д,
Численность
«1
п 2
п т
разряда п г
х2
Среднее
зна
Ху
чение Хі
Частость по падания эле мента в разряд
П\
п т
п
п
п
пі
Р‘ = 1 Г
1
1
т. е. дисперсия увеличится н а ~
j ^ 2- Так как дисперсия (И)
стремится к нулю при и-> оо, то оценка х по-прежнему остается состоятельной, однако ее эффективность понижается. Если ин
тервал h достаточно мал, то на
это понижение эффективности
оценки часто идут в целях упрощения вычислений.
Несмещенную состоятельную
оценку дисперсии по выборке
(1 ) дает формула
И
=
(8-12)*
j=
1
где оценка х определяется выражением (5).
Если и в этом случае ввести ложный нуль, то формулу (12) можно заменить эквивалентным выражением *)
П
(8.13)
У=і
При определении оценки дисперсии также можно пользо ваться группировкой элементов выборки по разрядам. В этом
*) В том случае, когда математическое ожидание х известно, формулы
(12) и (13) должны быть заменены формулами
П
п
— с)2 — (х — с )2
1=1
1=1
§ 8 . 1 ] ОБЩИЕ ПРИНЦИПЫ ПО ЛУ ЧЕНИЯ ОЦЕНОК 441
случае оценка
может быть вычислена но приближенной
формуле
т
tel
Формула (14) дает несколько большее значение для оценки дисперсии, чем формула (1 2 ), так как, округляя величину каж дого элемента выборки до среднего значения данной группы, мы делаем добавочную ошибку округления, приближенно под чиняющуюся равномерному закону распределения с парамет-
ром -Tfh.В отличие от формулы (10), в которой эта ошибка неус
транима, при оценке дисперсии} эту ошибку в первом приближе нии можно учесть, введя так называемую поправку Шеппарда [5], [50], согласно которой вместо (14) оценку следует вычислять по формуле
т
^ пЛ£і — я)2 —t j ä 2.
(8.15)
tel
Если в качестве оценки среднего квадратического отклоне ния взять корень квадратный из оценки дисперсии, даваемой одной из приведенных выше формул, то мы получим только асим птотически несмещенную оценку. Для выборки из нормаль ной генеральной совокупности (т. е. для того случая, когда слу чайная величина X является нормальной) для получения не
смещенной оценки Зх достаточно умножить V а| на некоторый коэффициент кп, зависящий от объема выборки п, значение кото рого можно найти в таблицах [п ], [65]. В этом случае в соответст вии с (1 2 ) для несмещенной состоятельной оценки среднего квад ратического отклонения получим
Коэффициент кп с ростом п быстро стремится к единице (на пример, к1й—1,028). Поэтому при достаточно большом объеме выборки этот коэффициент можно не учитывать.
Для определения точности оценок х и 5 удается получить простые формулы, справедливые для любого объема выборки, только для выборки из нормальной генеральной совокупности. Как доказывается в математической статистике, в этом случае
442
ОБРАБОТКА РЕЗУЛЬТАТОВ ИСПЫТАНИЙ ГУ
[ГЛ. S
для
любого положительного
е справедливы формулы
t«
а е= Р {| X — X j
е} =
2 I Sk (t) dt,
£ 'J п
О
,
(8 .1 7 )
Ук
1-ч
а = Р { |9* — aJ
<
e} =
J p k(x)dx,
( 8 .1 8 )
V'fc
i+«
k — n — 1 ,
q = ej\j^ 2
где
Sk (t)
и Pk (y) — универсальные
функции,
не
зависящие
от
неизвестных параметров
х и
оя,
а ох определяется форму
лой
(1 2 )
(Sk (t) — плотность
распределения
закона
Стьюдента,
а Рк (у) — плотность
распределения «закона
^»).
Формулы (17) и (18) позволяют судить о точности полу
ченных оценок, так как, задавшись величиной а,
мы тем самым
получим
величину
отклонения
е,
определяющего
интервал,
за который ошибка не выйдет с заданной вероятностью. Опре деляемые таким образом вероятности называются доверитель ными вероятностями, а соответствующие им интервалы — до верительными интервалами.
Втом случае, когда объем выборки достаточно велик, оценки
(5)и (12), выражаемые суммами независимых слагаемых, в соот ветствии с предельной теоремой теории вероятностей можно при ближенно считать нормальными величинами, параметры кото рых равны их оценкам, и вместо формул (17) и (18) пользоваться формулами
а ~
о і =
(8 .1 9 )
< е } = Ф
£ '/п \
(8.20)
где Ф (z) — интегральная
функция
Лапласа,
определяемая фор-
мулой
£1
Ф ( 2 ) =
е 2 dt.
( 8 . 2 1 )
о
§ 8.1]
ОБЩИЕ ПРИ Н Ц И П Ы П О ЛУ ЧЕН И Я ОЦЕНОК
443
Вопрос о том, какой объем выборки п можно считать «до статочно большим» для того, чтобы пользоваться приближен ными формулами (19) и (20), должен решаться с учетом необходи мой надежности получаемых оценок. В статистике обычно при нимают, что при rC^ 30 можно не делать различия между законом Стыодента и нормальным. Однако во многих случаях можно
считать, что нормальный закон распределения для х/Ѵ а* имеет место уже при меньшем п.
Кроме определения моментов закона распределения иногда возникает необходимость в определении вида закона распреде ления по данной выборке. Как и определение параметров закона распределения, эта задача может быть решена только прибли женно, т. е. может быть определен только вид закона распреде ления, который в данной задаче целесообразно принять в ка честве искомого, и указаны некоторые правила, согласно которым можно убедиться, что этот закон распределения согласуется (или не согласуется) с результатами опыта.
Не останавливаясь подробно на этой задаче, отметим только кратко порядок ее решения. Анализируя полученную выборку, обычно удается сделать предположение о виде закона распреде ления. Для этого (при достаточно большом объеме выборки) целесообразно построить частости попадания элемента в раз ряды (см. табл. 8.1). Получаемая таким образом «гистограмма» при достаточно малом интервале разряда h приближенно копирует кривую плотности вероятности / (х) и, следовательно, позволяет сделать предположение о виде закона распределения. Определив затем оценки числовых параметров этого закона (например, оценки моментов), можно написать явное выражение для плот ности вероятности /т (х) этого закона распределения, который обычно называют «теоретическим». Далее выбирают некоторый параметр х, который может служить мерой расхождения наблю даемой выборки с теоретическим законом распределения и имеет распределение, не зависящее (или слабо зависящее) от вида ис комого закона распределения / ( х). Если такой параметр найден, то можно определить значение ха этого параметра, удовлетворяю щее условию
Р { х ^ х а) = а,
(8 .2 2 )
где а — «достаточно малое» число, называемое в данном случае уровнем значимости. Если значение х,; параметра х, определен ного по данной выборке, оказывается больше ха, то имеет место событие, которое (в том случае, когда наше предположение о виде плотности вероятности /т (х) справедливо) имеет вероятность, меньшую малого числа а. Следовательно, произошло весьма маловероятное ^событие и можно считать, что наше предположе ние о виде закона распределения «не согласуется» с выборкой,
444
ОБРАБОТКА РЕЗУЛЬТАТОВ ИСПЫТАНИЙ ГУ
[ГЛ. 8
Если,
наоборот, х5^ > к, то выборка не противоречит
принятому
закону
распределения.
Различные критерии согласия отличаются друг от друга вы бором параметра х. В наиболее широко применяемом критерии согласия К. Пирсона за меру расхождения теоретического закона распределения с данными опыта принимается величина у2, опре деляемая формулой
т
(8.23)
где рг — вероятность попадания
элемента выборки в
разряд
номер I при наличии теоретического закона распределения, опре
деляемая формулой
іа
Р і = \
/тИ ^-т.
(8.24)
h(i-i)
a pt — частость попадания в этот разряд, полученная на опыте (см. табл. 8.1). В математической статистике доказывается [30], что при и->оо закон распределения случайной величины Z= / 2 стремится к универсальному закону распределения, не завися щему от закона распределения случайной величины X. Плотность вероятности этого распределения определяется равенством
/(«)
z к
(8.25)
2 ^ 2
где к — «число степеней свободы», связанное
с числом разрядов
т и числом г соотношений, использованных для определения параметров закона распределения /т (х) по данной выборке, фор
мулой
(8.26)
к — т—г—1 .
Для закона распределения (25) составлены таблицы вероят
ностей
Р{Х2> ^ } = « ,
(8-27)
которые дают значение у^ (или уа) по заданному уровню
значи
мости а. Входами в эти таблицы, как это ясно из вышеизложен ного, является величина а и число степеней свободы к. Даль нейшее применение критерия согласия Пирсона не отличается от общей схемы, изложенной выше.
Й§ К критериям согласия по своей идее близко примыкают крите рии, служащие для проверки гипотезы о тождественности зако нов распределения в двух выборках или о тождественности пара-
§ 8.1] ОБЩИЕ ПРИНЦ ИПЫ П О ЛУ ЧЕНИЯ ОЦЕНОК 445
метров распределения этих законов в том случае, когда вид за кона распределения известен.
Из критериев первого типа можно указать на критерий согла сия Н. В. Смирнова, основанный на критерии согласия А. Н. Кол могорова, подробности о котором можно найти, например, в [20]. Из критериев второго типа рассмотрим только проверку гипо тезы о равенстве математического ожидания в серии выборок, если известно, что закон распределения во всех выборках нор мальный с одинаковой дисперсией. В этом случае, согласно схеме,
принятой в дисперсионном анализе Р.
Фишера,
надлежит посту
пать следующим
образом.
Пусть
имеется к выборок:
7 = 1 , 2 ,
к; N-.
к
(8.28)
x j , и x
j , i '
n j
2
nj
j=
1
Известно, что случайные величины, реализациями которых яв ляются рассматриваемые выборки, подчиняются нормальному закону распределения с одинаковой (неизвестной) дисперсией, но, возможно, с различными математическими ожиданиями. Требуется проверить, насколько результаты опыта соответствуют предположению о равенстве математических ожиданий во всех выборках. Если это предположение верно (справедлива «нулевая
гипотеза»),
то
величина
^
7 _ °й
(8.29)
г
где
к
к n j
« к -
2
» , ('X J
*)2>
х ^ '
(8.30)
У=1
7=1 ѵ=і
n j
к
â
v=l
(8.31)
j — i
подчиняется закону распределения Фишера со степенями свободы (к—1) и (N—к),имеющему плотность вероятности
/ N — 1\
к-ъ
/ ( г ) = 7 7 ^ г Г - ^
E r
(8'32)
Следовательно, можно задаться достаточно малой вероят ностью а и определить соответствующий ей уровень za величины Z такой, чтобы выполнялось равенство
Р (Z > zs} = a.
(8.33)
446
ОБРАБОТКА РЕЗУЛЬТАТОВ ИСПЫТАНИЙ ГУ
[ГЛ. 8
Если фактически определенное по формулам (29), (30), (31) значение zq случайной величины Z окажется больше za, то веро ятность нулевой гипотезы будет меньше а и можно считать, что нулевая гипотеза не согласуется с опытом. В случае, когда zq^ z a, результаты опыта не противоречат нулевой гипотезе.
Закон распределения Фишера может быть использован и для проверки гипотезы о равенстве дисперсий двух нормальных слу чайных величии X и Y, для которых в результате пх и соответ ственно пу независимых испытаний получены две выборки
х ѵ х2,
. .., хПі,
уѵ у2, . .
ущ.
(8.34)
Как доказывается в математической статистике [20],
отношение
оценок дисперсий
^
z = - 4 ,
(8.35)
где, как обычно,
Ч
j= 1
j-
1
j=i
(8.36)
У = 1
подчиняется закону
распределения
Фишера
с /с1 =тг1—1
и
к2=
= пг — 1
степенями
свободы.
Следовательно, и в этом случае можно определить предель
ное значение величины z=za, превзойти которое
полученное на
опыте значение z=zq может только
с вероятностью, меньшей а.
Значения za при различных вероятностях
а. и числах
свободы
к1 и к2 даны в таблицах, имеющихся в ряде источников (см.,
на
пример,
[20]). При составлении этих таблиц принято,
что Z есть
отношение большей дисперсии к меньшей (т. е.
всегда
1 ).
Следовательно, если окажется, что
zq^>za,
то
это
означает,
что
при нулевой гипотезе
(дисперсии
а2
и о2
равны)
произошло со
бытие, вероятность которого меньше а, и следовательно, при вы бранном уровне значимости нулевая гипотеза должна быть от вергнута.
По такой же схеме производится оценка гипотезы о равенстве математических ожиданий двух нормальных генеральных сово купностей, обладающих одинаковыми (неизвестными) диспер сиями, если оценки этих математических ожиданий определя ются по выборкам (34). Отличие заключается только в том, что вместо закона Фишера в данном случае используется закон рас-