- •ПРЕДИСЛОВИЕ
- •ГЛАВА XIV. ПРЕОБРАЗОВАНИЕ ЛАПЛАСА И ЕГО ПРИМЕНЕНИЕ (ОПЕРАЦИОННОЕ ИСЧИСЛЕНИЕ)
- •ГЛАВА XV. МАТЕМАТИЧЕСКАЯ ФИЗИКА
- •ГЛАВА XVI. ТЕОРИЯ ВЕРОЯТНОСТЕЙ
- •1. Математическое ожидание и его свойства. Мода, медиана
- •2. Дисперсия и ее свойства. Среднее квадратичное отклонение
- •3. Характеристики зависимости между случайными величинами
- •1. Дискретные случайные величины
- •2. Непрерывные случайные величины
- •1. Закон больших чисел. Теорема Бернулли
- •2. Центральная предельная теорема. Формулы Лапласа
- •ГЛАВА XVII. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
- •1. Точечные оценки. Метод моментов
- •2. Интервальные оценки
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
95
ГЛАВА XVII. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В математической статистике закон распределения случайной величины или случайного вектора, как правило, неизвестен. В распоряжении исследователя имеется лишь статистиче- ский материал, а именно совокупность достаточно большого числа эмпирических данных, по которым необходимо: во-первых, выбрать некоторую подходящую модель распределения, вовторых, оценить неизвестные параметры выбранного распределения и, в-третьих, проверить соответствие этой модели эмпирическим данным.
Ÿ1. Статистический ряд и его графическое представление
Предположим, что мы изучаем случайную величину X (дискретную или непрерывную) и
имеем возможность многократно повторять или хотя бы моделировать в одинаковых и независимых условиях вероятностный эксперимент, в каждом из которых данная случайная величина принимает одно из своих значений. Эти значения мы будем называть наблюдаемыми.
Совокупность n наблюдаемых значений
(x1, x2, . . . , xn)
называется выборкой объема n. Относительно выборки мы всюду в дальнейшем будем предполагать, что она имеет достаточно большой объем n и является конкретной реализацией n-мерного случайного вектора
(X1, X2, . . . , Xn),
координаты которого независимы и каждая из них имеет распределение исследуемой случайной величины X. Всюду в дальнейшем для удобства мы будем отождествлять выборку и
указанный случайный вектор.
Упорядочим выборку в зависимости от типа изучаемой случайной величины. Предположим сначала, что X дискретная случайная величина. Значения в выборке могут повторяться.
Пусть она содержит r различных значений
x1, x2, . . . , xr,
расположенных в порядке возрастания, и
m1, m2, . . . , mr
соответствующие этим значениям частоты, т. е. каждое значение xk, k = 1, r повторяется в
r |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
выборке mk раз. Очевидно, mk = n. Тогда мы можем записать выборку в таблицу |
|
|||||||||||||||
=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k∑ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
xk |
|
|
x1 |
|
x2 |
. . . |
|
xr |
|
|
||||
|
|
mk |
|
|
m1 |
|
m2 |
. . . |
|
mr |
, |
(1) |
||||
|
|
mk |
|
|
|
m1 |
|
|
m2 |
|
. . . |
|
mr |
|
|
|
|
|
n |
|
|
n |
|
n |
|
n |
|
|
|||||
|
|
|
|
|
|
|
|
|
||||||||
которая называется простым статистическим рядом. В третьей строке этой таблицы записа- mk
íû относительные частоты n соответствующих выборочных значений. Одним из способов
графического представления простого статистического ряда является полигон относительных
частот, который строится следующим образом: в системе координат на плоскости отмечаются
точки |
|
m |
|
|
|
|
|
|
|
||
|
(xk, |
k |
), k = 1, r, |
||
|
n |
||||
которые последовательно соединяются отрезками прямых. Полученная таким образом ломаная и называется полигоном относительных частот . В качестве примера построим полигон для простого статистического ряда
|
xk |
|
1 |
3 |
4 |
7 |
9 |
10 |
|
|
|
|
mk |
|
10 |
15 |
23 |
25 |
20 |
7 |
. |
(2) |
|
|
mk |
|
|
0,10 |
0,15 |
0,23 |
0,25 |
0,20 |
0,07 |
|
|
100 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
96
Он имеет вид
Mk |
|
|
|
|
|
100 |
|
|
|
|
|
0.25 |
|
|
|
|
|
0.20 |
|
|
|
|
|
0.15 |
|
|
|
|
|
0.10 |
|
|
|
|
|
0.05 |
|
|
|
|
|
O |
2 |
4 |
6 |
8 |
Xk |
10 |
Другим способом визуализации простого статистического ряда является график эмпириче- ской функции распределения F (x), которая для любого действительного числа x представ-
ляет собой относительную частоту попадания наблюдаемых значений выборки на полуось (−∞, x), ò. å.
m(x), x R, n
ãäå m(x) число значений выборки, меньших x.
Эмпирическая функция распределения F (x) обладает всеми свойствами функции распределения F (x) случайной величины X, которые перечислены в параграфе 5 предыдущей главы. Из теоремы Бернулли следует, что для любого фиксированного x R при достаточно большом объеме выборки n с большой вероятностью значение эмпирической функции распределения сколь угодно мало отличается от соответствующего значения функции распределения, т. е. для любого ε > 0
lim P (|F (x) − F (x)| < ε) = 1.
n→∞
Запишем эмпирическую функцию распределения для простого статистического ряда (2):
|
0, |
x ≤ 1; |
|
|
|
|
|
≤ |
|
|
0,1, |
1 < x |
3; |
|
|
≤ |
|||
|
0,25, |
3 < x |
4; |
|
|
|
|
|
|
|
|
|
≤ |
|
|
|
|
|
|
|
|
|
|
|
F (x) = 0,48, |
4 < x 7; |
|||
|
0,73, |
7 < x ≤ 9; |
||
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,93, |
9 < x ≤ 10; |
||
|
||||
|
|
|
|
|
|
|
|
|
|
|
1, |
x > 10. |
|
|
|
|
|||
Ее график:
|
F*HXL |
|
|
|
|
|
|
|
1.0 |
|
|
|
|
|
|
|
0.8 |
|
|
|
|
|
|
|
0.6 |
|
|
|
|
|
|
|
0.4 |
|
|
|
|
|
|
|
0.2 |
|
|
|
|
|
|
|
O |
|
|
|
|
|
X |
-3 |
1 |
3 |
4 |
7 |
9 10 |
14 |
|
Если исследуемая случайная величина X является непрерывной, то весь диапазон значений выборки мы разобьем на некоторое число r интервалов равной длины
[x0, x1), [x1, x2), . . . , [xr−1, xr],
97
подсчитаем частоты mk, k = 1, r попадания выборочных значений в каждый из интервалов и запишем интервальный статистический ряд
[xk−1, xk) |
|
[x0, x1) |
[x1, x2) |
. . . |
[xr−1, xr] |
|
|
||||||||
|
mk |
|
|
m1 |
|
m2 |
. . . |
|
mr |
. |
(3) |
||||
|
mk |
|
|
|
m1 |
|
|
m2 |
|
. . . |
|
mr |
|
|
|
|
n |
|
|
n |
|
n |
|
n |
|
|
|||||
|
|
|
|
|
|
|
|
||||||||
Для графического представления интервального статистического ряда мы можем построить гистограмму относительных частот , которая представляет собой ступенчатую фигуру, ñî-
ставленную из прямоугольников, основаниями которых служат интервалы [xk−1, xk), k
mk/n
статистического ряда, а высотами соответствующие числа d , k = 1, r, ãäå d интервалов. Площадь этой фигуры равна
r |
mk/n |
|
r |
mk 1 |
r |
1 |
|
|||
∑ |
|
|
∑ |
|
|
|
∑ |
|
|
|
d · |
d |
= |
k=1 |
n |
= |
n |
k=1 |
mk = |
n |
· n = 1. |
k=1 |
|
|
|
|
|
|
|
|
||
= 1, r
длина
Вид гистограммы может дать нам некоторое представление о плотности распределения вероятностей изучаемой случайной величины. Рассмотрим, например, интервальный статистиче- ский ряд
[xk−1, xk) |
|
[−3, −1) |
[−1, 1) |
[1, 3) |
[3, 5) |
[5, 7] |
|
|
||
|
mk |
|
13 |
21 |
34 |
20 |
12 |
. |
(4) |
|
|
mk |
|
|
0,13 |
0,21 |
0,34 |
0,20 |
0,12 |
|
|
100 |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
||
Здесь d = 2 и гистограмма выглядит следующим образом:
|
Mk |
|
|
|
|
200 |
|
|
|
|
0.15 |
|
|
|
|
0.10 |
|
|
|
|
0.05 |
|
|
|
|
O |
|
|
X |
-2 |
2 |
4 |
6 |
Вид гистограммы позволяет предположить, что исследуемая случайная величина имеет нормальное распределение N(m, σ). Ниже мы проверим эту гипотезу.
Ÿ2. Оценки неизвестных параметров распределения
Предположим, что по виду полигона или гистограммы мы выдвинули гипотезу о характере распределения случайной величины X и ее функция распределения F (x, θ) зависит от
некоторого параметра параметр θ.
Различают точечные è интервальные оценки параметров.
1. Точечные оценки. Метод моментов
Точечная оценка θ неизвестного параметра θ распределения представляет собой число,
близкое в определенном смысле к оцениваемому параметру. Поясним, в каком смысле понимается указанная выше близость. Оценка θ вычисляется по выборке
(x1, x2, . . . , xn) |
(1) |
объема n, т. е. является функцией выборки
θ = θ (x1, x2, . . . , xn).
Следовательно, θ случайная величина и говорить о ее близости к параметру θ мы можем лишь в среднем или с некоторой вероятностью. Приведем соответствующие определения.
98
Точечная оценка θ называется несмещенной, если существует ее среднее значение, равное
оцениваемому параметру θ, ò. å.
M(θ ) = θ.
Оценка θ называется состоятельной, если для любого ε > 0
lim P (|θ − θ| < ε) = 1,
n→∞
т. е. точечная оценка при достаточно большом объеме выборки с большой вероятностью сколь угодно мало отличается от оцениваемого параметра.
Рассмотрим метод моментов для нахождения точечных оценок. В Ÿ6 предыдущей главы мы ввели определение начального
µr = M(Xr), r N
è центрального
νr = M ((X − M(X))r) , r N
моментов случайной величины X. Будем считать, что все эти моменты существуют. Ïî
аналогии с ними введем понятия соответствующих эмпирических моментов, которые вычисляются по выборке (1).
Эмпирическим начальным моментом порядка r, r N случайной величины X называется
среднее арифметическое степеней xrk, k = 1, n выборочных значений.
ский начальный момент порядка r через µr. Тогда по определению
µr = n1 ∑n xrk.
k=1
В частности, эмпирический начальный момент первого порядка равен среднему арифметиче- скому выборочных значений или, короче, выборочному среднему . Для него используется обо-
значение x,¯ ò. å.
x¯ = µ1 = n1 ∑n xk.
k=1
Эмпирическим центральным моментом порядка r, r N случайной величины X называется величина, которая обозначается через νr и вычисляется по формуле
νr = n1 ∑n (xk − x¯)r.
k=1
Метод моментов нахождения точечных оценок заключается в том, что мы в качестве
точечных оценок моментов µr, νr, r N считаем соответствующие эмпирические моменты µr, νr , r N и затем уже вычисляем через них точечные оценки неизвестных параметров распределения.
В частности, точечной оценкой математического ожидания mX = M(X) является выбо-
рочное среднее x¯. Аналогично, точечной оценкой дисперсии σX2 = D(X) является эмпириче- ский центральный момент второго порядка ν2 , который мы в дальнейшем будем называть
выборочной дисперсией.
Проверим, являются ли оценки x¯ è ν2 несмещенными è состоятельными. Поскольку выборочные значения распределены точно также, как и случайная величина X, òî ïî свойствам
2) è 3) математического ожидания (глава XVI, Ÿ6, пункт 1)
1 |
n |
1 |
|
n |
1 |
n |
1 |
n |
1 |
|
|||||
M(¯x) = M ( |
|
∑ |
xk) = |
|
M ( |
∑ |
xk) = |
|
∑ |
M(xk) = |
|
∑ |
mX = |
|
· nmX = mX , |
n |
k=1 |
n |
k=1 |
n |
k=1 |
n |
k=1 |
n |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
ò. å. оценка x¯ математического ожидания mX является несмещенной. Состоятельность этой оценки напрямую следует из теоремы Чебышева.
99
Займемся выборочной дисперсией. Сначала преобразуем ее:
|
|
|
|
|
|
|
ν = |
1 |
n (x x¯)2 = 1 n ((x m ) (¯x m ))2 = |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
∑ |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
2 |
n |
k − |
|
|
|
n |
k − X − − X |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
k=1 |
|
|
|
|
k=1 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
∑( |
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
n |
) |
|||
|
|
|
|
|
= |
|
n |
k=1 |
(xk − mX )2 |
− 2(xk − mX )(¯x − mX ) + (¯x |
− mX )2 |
= |
|||||||||||||||
|
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
|
∑ |
|
|||||
|
|
|
|
|
1 |
|
|
|
|
|
2 |
|
|
|
|
|
1 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
− mX )2 − |
|
|
|
|
|
|
|
|
|
(¯x − mX )2 = |
||||||||
|
|
= |
|
|
|
|
|
(xk |
|
(¯x − mX ) |
(xk − mX ) + |
|
|
|
|
||||||||||||
|
|
n |
k=1 |
n |
n |
|
|||||||||||||||||||||
|
|
1 |
|
|
|
|
2 |
|
|
|
|
|
k=1 |
|
|
|
|
|
k=1 |
|
|||||||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
1 |
|
|
|||||
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
|
||||
|
|
= |
n |
|
|
|
|
(xk − mX )2 − |
n |
(¯x − mX ) ( |
xk − nmX ) + |
n |
· n(¯x − mX )2 = |
||||||||||||||
1 |
n |
k=1 |
|
|
|
|
|
|
|
|
|
k=1 |
1 |
|
n |
|
|
|
|
||||||||
|
|
∑ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|||||
= |
n |
(xk − mX )2 − 2(¯x − mX )(¯x − mX ) + (¯x − mX )2 = |
n |
k=1 |
(xk − mX )2 − (¯x − mX )2. |
||||||||||||||||||||||
|
|
k=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Таким образом,
ν2 = n1 ∑n (xk − mX )2 − (¯x − mX )2.
k=1
Отсюда, учитывая несмещенность выборочного среднего, независимость выборочных значе- ний и свойства математического ожидания и дисперсии, мы получаем:
|
|
|
|
1 |
|
|
n |
|
− mX )2) |
|
|
|
|
|
|
1 |
|
n |
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
n |
|
|
|
|
|
∑ |
n |
n |
( |
|
|
n |
) |
|
|
|
∑ |
|
( |
|
|
|
) |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
= n |
|
|
|
|
|
|
|
||||||||||||||||||||
|
M(ν2 ) = nM ( |
(xk |
− M (¯x − mX )2 |
|
k=1 |
M (xk − mX )2 |
− D(¯x) = |
|
|||||||||||||||||||||||||||||
|
|
|
∑ |
|
|
|
|
|
k=1 |
∑ |
|
|
|
|
∑ |
|
|
|
∑ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
1 |
|
|
|
|
|
|
|
1 |
|
|
|
1 |
|
σ2 |
|
1 |
|
|
|
|
|
1 |
|
nσ2 |
1 |
|
nσ2 |
|
n − 1 |
|
σ2 . |
|||||
= |
|
D(x |
) |
|
|
D |
|
|
x |
= |
|
|
D(x ) = |
|
|
= |
|
||||||||||||||||||||
n |
− |
(n |
|
n |
|
− n2 |
n |
· |
|
· |
n |
||||||||||||||||||||||||||
|
k |
|
|
|
k=1 |
|
k) |
k=1 |
X |
k=1 |
|
k |
|
X − n2 |
|
X |
|
X |
|||||||||||||||||||
|
|
|
k=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Следовательно, |
|
|
|
|
|
|
|
|
|
|
|
n − 1 |
|
|
|
|||
|
|
|
|
|
|
|
M(ν2 ) = |
σX2 |
|
|
||||||||
и, значит, точечная оценка ν2 дисперсии σX2 |
|
|
|
n |
|
|
|
|
||||||||||
является смещенной. Смещение устраняется умно- |
||||||||||||||||||
жением оценки на число |
|
n |
|
|
. В результате мы получим несмещенную оценку дисперсии, |
|||||||||||||
n |
− |
1 |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
2 и назовем несмещенной выборочной дисперсией : |
|||||||||||||||
которую мы обозначим через s |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
n |
|
|
|
|
1 |
|
n |
|
|
||
|
|
s2 = |
|
|
ν |
= |
|
|
|
(x |
k − |
x¯)2. |
||||||
|
|
n |
|
1 |
n |
|
1 |
|
||||||||||
|
|
|
|
|
|
− |
2 |
|
− |
k=1 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
∑ |
|
|
||||
Êàê выборочная дисперсия , òàê è несмещенная выборочная дисперсия являются состоятель-
ными оценками дисперсии, что также следует из теоремы Чебышева (с доказательством можно ознакомиться в учебнике Чистякова В.П. по курсу теории вероятностей, имеющемся в
списке литературы). |
|
|
|
|
|
|
|
|
|
|
Замечание. В случае, когда выборка записана простым статистическим рядом |
(1), Ÿ1, |
|||||||||
эмпирические моменты мы будем вычислять по формулам |
|
|||||||||
1 |
r |
1 |
|
r |
|
|||||
µl = |
|
|
mkxkl , νl = |
|
|
(xk − x¯)l, l N. |
|
|||
n |
k=1 |
n |
|
|||||||
|
|
|
|
|
|
k=1 |
|
|||
|
|
∑ |
|
|
|
|
∑ |
|
||
Если же мы имеем интервальный статистический ряд (3), Ÿ1, то, аналогично, |
|
|||||||||
1 |
r |
1 |
|
r |
|
|||||
µl = |
|
|
mkx˜kl , νl = |
|
|
(˜xk − x¯)l, l N, |
(2) |
|||
n |
k=1 |
n |
||||||||
|
|
|
|
|
|
k=1 |
|
|||
|
|
∑ |
|
|
|
|
∑ |
|
||
где по соображениям симметрии |
|
|
|
|
|
|
|
|
||
|
|
|
xk−1 + xk |
|
|
|
|
|||
|
|
x˜k = |
, k = 1, r |
|
||||||
|
|
|
2 |
|
|
|
|
|
|
|
