
- •Лабораторный практикум по курсу «Теория вероятностей и математическая статистика»
- •1. Краткие теоретические сведения
- •1.2. Основные понятия математической статистики
- •1.3. Числовые характеристики выборки
- •1.4. Оценки параметров распределения
- •1.5. Проверка статистических гипотез
- •1.6. Статистическое описание и выборочные характеристики двумерного случайного вектора
- •1.7. Элементы корреляционного и регрессионного анализа данных
- •2. Некоторые сведения о системе Matlab
- •2.1. Ввод матриц и формирование упорядоченных числовых последовательностей
- •2.2. Операции над массивами
- •2.4. Некоторые функции и операторы системы Matlab
- •2.5. Средства Matlab для изучения одномерных распределений
- •2.6. Алгоритмы моделирования случайных величин
- •2.7. Средства Matlab для моделирования случайных величин
- •2.8. Средства Matlab для получения выборочных числовых характеристик и интервальных оценок
- •2.9. Средства Matlab для нахождения квантилей Распределений
- •3. Описание лабораторных работ
- •Лабораторная работа № 1. Статистическая обработка одномерной выборки
- •Лабораторная работа № 2. Моделирование случайной величины с заданным законом распределения
- •Лабораторная работа № 3. Проверка гипотезы о законе распределения генеральной совокупности
- •Лабораторная работа № 4. Анализ данных в линейной регрессионной модели
- •Литература
- •Приложение 1
- •Приложение 2

Рис.1.9. Эмпирическая функция распределения с наложением графика теоретической функции распределения FX (x)
1.3. Числовые характеристики выборки
Пусть (x1 , x2 , ... , xn ) – выборка объёмом n из генеральной совокупности с функцией распределения FX (x) . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , ... , xn с вероятностями, равными 1n . Числовые характеристики этого
выборочного распределения называются выборочными (эмпирическими).
Замечание. Выборочные числовые характеристики являются характеристиками данной выборки, но не являются характеристиками распределения генеральной совокупности. Поэтому в дальнейшем изложении при обозначении эмпирических числовых характеристик будет использоваться знак «~».
1.3.1. Выборочные числовые характеристики негруппированной выборки
n
Математическое ожидание случайной величины дискретного типа определяется по формуле mX = åxi pi . i=1
Так как для выборочного распределения pi = 1n , то выборочное математическое ожидание (среднее)
определяется по соотношению
|
|
|
~ |
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
|
|
mX |
= x = |
|
åxi . |
|
|
|
|
|
|
|
||
|
|
|
n |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
Аналогично определяется выборочная дисперсия |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
~ |
n |
2 |
|
1 |
n |
|
|
2 |
|
1 |
æ |
n |
|
2 |
ö |
= å(xi - x) |
pi = |
å(xi |
- x) |
|
ç |
2 |
- nx |
÷ |
|||||||
DX |
|
|
|
= |
|
ç |
åxi |
|
÷ . |
||||||
|
i=1 |
|
|
n i=1 |
|
|
|
|
n è i=1 |
|
|
ø |
Выборочные начальные и центральные моменты порядка s ( s = 1, 2, ... ) определяются по следующим
формулам: |
|
|
|
|
n |
|
|
|
|
n |
|
|
|
|
|
|
|
~ |
1 |
s |
~ |
|
1 |
|
s |
|
|
||
|
|
|
as = |
|
åxi |
, ms |
= |
|
å(xi - x) |
|
. |
|
||
|
|
|
n |
n |
|
|
||||||||
|
|
~ |
|
i=1 |
|
|
|
i=1 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
унимодального (одновершинного) распределения называется элемент выборки, |
||||||||||||
Выборочной модой d X |
||||||||||||||
встречающийся с наибольшей частотой. |
|
|
|
~ |
|
|
|
|
|
|
|
|||
Выборочной медианой |
называется |
число |
|
которое |
делит вариационный ряд на две части, |
|||||||||
|
hX , |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
= x(l+1) ; |
содержащие равное число элементов. Если объём выборки n – число нечётное ( n = 2l +1 ), то hX |
||||||||||||||
~ |
1 |
(x(l) + x(l+1) ). |
|
|
|
|
|
|
|
|
|
|
|
|
если n = 2l , то hX = |
2 |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com
1.3.2. Выборочные числовые характеристики группированной выборки
Пусть данные представлены в группированном виде, когда отрезок [x(1) ; x(n) ] , содержащий выборку (x1 , x2 , ... , xn ) , разбит на m промежутков D j , j = 1, 2, ... , m . Обозначим через z1 , z2 , ... , zm середины интервалов группировки, а через n j – частоты попадания выборочных значений в соответствующие промежутки D j , j = 1, 2, ... , m . Выборочное среднее определяется по соотношению
1m
x= n åj=1 z j n j .
Выборочная дисперсия равна
~ |
|
1 |
m |
1 |
æ m |
|
å(z j - x)2 n j = |
çåz2j |
|||
DX |
= |
|
|
||
n |
|
||||
|
|
j=1 |
n ç |
||
|
|
|
|
è j=1 |
Выборочные начальные и центральные моменты порядка s (
формулам:
ö
n j - nx 2 ÷÷ .
ø
s = 1, 2, ... ) определяются по следующим
~ |
1 |
m |
s |
|
~ |
1 |
m |
|
|
s |
|
|
as = |
|
åz j n j , |
ms = |
|
|
å(z j - x) |
|
n j . |
||||
n |
|
n |
|
|||||||||
|
j=1 |
|
|
|
|
j=1 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
||
Выборочная мода вычисляется по формуле |
|
|
|
|
|
|
|
|
|
|||
~ |
|
|
æ |
|
nd |
- nd−1 |
ö |
|
|
|
||
|
|
ç |
|
÷ |
|
|
|
|||||
d X = ad |
+ ç |
|
|
|
|
|
÷ |
× D , |
||||
|
|
|
|
|
||||||||
|
|
|
è |
2nd - nd−1 - nd +1 ø |
|
|
|
|||||
где ad – нижняя граница интервала, |
содержащего наибольшее число элементов выборки; nd – число |
|||||||||||
элементов выборки в этом интервале; |
nd −1 , |
nd +1 |
– количества элементов выборки в соседних интервалах; |
–длина интервала группировки.
Оценка медианы по группированной выборке может быть вычислена по формуле
|
æ n |
|
|
ö |
|
||
~ |
ç |
|
|
- (n1 + n2 |
+ ... + nh−1) ÷ |
|
|
2 |
|
||||||
hX |
= ah + ç |
|
|
|
÷ |
× D , |
|
|
|
n |
|
||||
|
ç |
|
|
h |
÷ |
|
|
|
ç |
|
|
|
÷ |
|
|
|
è |
|
|
|
|
ø |
|
где ah – нижняя граница интервала, которому принадлежит середина вариационного ряда; nh – число элементов выборки в этом интервале; n1 + n2 + ... + nh−1 – число элементов выборки в разрядах, лежащих слева от интервала, содержащего середину вариационного ряда; – длина интервала группировки.
1.4. Оценки параметров распределения
Пусть неизвестная функция распределения генеральной совокупности зависит от некоторого параметра θ . Нужно по наблюдениям оценить этот параметр. Для построения оценок используются статистики, т.е.
~ |
~ |
, X 2 |
|
~ |
функции qn |
= qn (X1 |
, ... , X n ) случайного выборочного вектора (X1 , X 2 , ... , X n ) . Статистика qn |
||
рассматривается как приближённое значение параметра |
θ . Например, такими статистиками могут быть |
выборочное среднее, выборочная дисперсия и т.п.
Замечание. Как правило, для оценки параметра θ можно использовать несколько статистик, получая при этом различные значения оценок.
~
Как измерить «близость» оценки qn к истинному значению θ или как определить качество оценки? Качество оценки определяется не по одной конкретной выборке, а по всему мыслимому набору
конкретных выборок, т.е. по случайному выборочному |
вектору (X1 , X 2 , ... , X n ) . |
Поэтому для |
||||||||
установления качества полученных оценок следует во всех |
формулах раздела 1.3 |
заменить конкретные |
||||||||
|
|
|
n |
~ |
|
1 |
|
n |
|
|
выборочные значения xi на случайные величины X i . Например, X = 1 åX i , |
|
å(X i - X )2 и |
||||||||
DX |
= |
|
||||||||
|
||||||||||
|
|
|
n i=1 |
|
|
n i=1 |
т.п.
PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

~
Качество точечной оценки qn параметра θ устанавливают, проверяя, выполняются ли следующие три свойства:
~
1) несмещённость, т.е. M[qn ] = q . Это свойство желательно, но не обязательно. Часто полученная оценка бывает смещённой, но её можно поправить так, что она станет несмещённой. Иногда оценка бывает
~
смещённой, но асимптотически несмещённой, т.е. limM[qn ] = q ; n→∞
~
2) состоятельность, т.е. lim P{| qn - q | < e} = 1. Это свойство является обязательным, n→∞
несостоятельные оценки не используются;
3) эффективность. Пусть |
~(1) |
|
|
~(2) |
– |
две различные оценки параметра θ |
~(1) |
~(2) |
– |
|||||||
qn |
и qn |
. Если qn |
и qn |
|||||||||||||
|
|
~(1) |
~(2) |
] считается, что оценка |
~(2) |
|
|
~(1) |
||||||||
несмещённые, то при D[qn ] > D[qn |
|
|
qn |
более эффективная, чем оценка qn . |
||||||||||||
~(1) |
~(2) |
– смещённые, то |
|
сравнение оценок по эффективности осуществляется с помощью |
||||||||||||
Если qn |
и qn |
|
||||||||||||||
|
~(1) |
~(2) |
где |
|
|
~ |
|
~ |
- q) |
2 |
~ |
|
квадрат отклонения |
|||
неравенства D(qn |
) > D(qn ) , |
|
D(qn ) = |
(M[qn ] |
|
+ D[qn ] – средний |
||||||||||
оценки. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= 1 |
n |
|
|
|
|
|
|
|
|
Например, выборочное среднее |
|
|
åX i является несмещённой и состоятельной оценкой для |
|||||||||||||
X |
||||||||||||||||
|
|
|
|
|
|
|
n |
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
математического ожидания, а в случае, когда генеральная совокупность имеет нормальное распределение,
|
X |
является и наиболее эффективной из оценок. |
|
|||||
~ |
|
1 |
n |
|
|
|
||
|
å(X i - X )2 |
является смещённой оценкой дисперсии s2 |
||||||
|
|
Выборочная дисперсия DX |
= |
|
||||
|
|
n |
||||||
|
|
|
|
i=1 |
|
|||
|
|
|
|
|
|
генеральной совокупности с конечным математическим ожиданием m. Эта оценка занижает в среднем истинное значение дисперсии на величину s2 n . Очевидно, что это смещение «сходит на нет» при n → ∞ ,
~
т.е. оценка DX – асимптотически несмещённая. На практике всегда лучше использовать в качестве
несмещённой и состоятельной оценки дисперсии s2 «исправленную» выборочную дисперсию, которая имеет вид:
|
1 |
|
n |
|
|
|
n |
~ |
||
S 2 = |
|
å(X i - X )2 |
|
|||||||
|
|
= |
|
|
× DX . |
|||||
n -1 |
n -1 |
|||||||||
|
i=1 |
|
|
|||||||
|
|
|
|
|
|
|
К сожалению, при оценке параметров не всегда оказывается возможным одновременное выполнение требований несмещённости, эффективности и состоятельности точечной оценки.
~
В ряде задач для параметра θ требуется не только найти подходящую точечную оценку qn , но и
~
указать, к каким ошибкам может привести замена параметра θ его оценкой qn . Другими словами, требуется оценить точность и надёжность оценки. Такого рода задачи особенно актуальны при малом числе
~ |
в значительной мере случайна и замена θ |
~ |
наблюдений, когда точечная оценка qn |
на qn может привести к |
|
серьёзным ошибкам. Для определения |
~ |
статистике пользуются |
точности оценки qn в математической |
||
доверительными интервалами, а для определения надёжности – доверительными вероятностями. |
Доверительным интервалом для параметра θ называется интервал (q1 ; q2 ) , содержащий его истинное значение с заданной вероятностью p = 1- a . Таким образом,
P{q1 < q < q2} = 1- a .
Число p = 1- a называется доверительной вероятностью, а значение α – уровнем значимости.
Чем меньше для выбранной доверительной вероятности длина интервала | q2 - q1 | , тем точнее оценка
неизвестного параметра θ , и наоборот, если этот интервал велик, то оценка, произведённая с его помощью, малопригодна для практики.
Замечание. Нижняя q1 и верхняя q2 границы доверительного интервала определяются по результатам
наблюдений и, следовательно, являются случайными величинами. Поэтому говорят, что доверительный интервал «накрывает» оцениваемый параметр с вероятностью p = 1- a (или в 100 ×(1- a) % случаев).
Выбор доверительной вероятности определяется конкретными условиями задачи. Обычно используются следующие значения 1− α :
0,90; 0,95; 0,99.
PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Часто применяют односторонние доверительные интервалы, границы которых определяются из условий: P{q < q2} = 1- a (левосторонний), P{q1 < q} = 1- a (правосторонний).
Ниже приведены доверительные интервалы при оценке параметров по случайным выборкам из нормально распределённых генеральных совокупностей.
1. Доверительный интервал для математического ожидания m (дисперсия s2 неизвестна):
|
|
- |
S |
|
×t |
α (n -1) < m < |
|
+ |
S |
×t |
α (n -1) . |
|||
X |
X |
|||||||||||||
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
n 1− |
2 |
|
|
|
n 1− |
2 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
2. Доверительный интервал для дисперсии s2 (математическое ожидание m неизвестно):
(n -1)S 2 |
< s2 < |
(n -1)S 2 |
. |
|
|
α (n -1) |
|
||
c2 |
|
c2α (n -1) |
||
1− |
2 |
|
2 |
|
|
|
|
Пример 1.2. Используя выборку примера 1.1, вычислить для негруппированных и группированных (см. табл.1.3) данных эмпирические числовые характеристики: медиану, среднее, дисперсию (смещённую и несмещённую оценки), а также для группированных данных получить оценку моды. Считая, что выборка
взята из нормально распределённой генеральной совокупности с неизвестными m и s2 , найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,95.
Решение. Оценка медианы по негруппированным данным:
~ |
= |
1 |
(x(25) |
+ x(26) )= |
8,93 + |
9,01 |
= 8,97 . |
hX |
2 |
2 |
|
||||
|
|
|
|
|
|
Для получения оценок среднего и дисперсии по негруппированным данным воспользуемся средствами
Matlab:
|
1 |
50 |
|
|
|
~ |
|
1 |
æ |
50 |
2 |
|
2 |
ö |
|
|
x = |
|
åxi = 9,0708 |
, DX |
= |
|
ç |
åxi |
- 50 × x |
|
÷ |
» 5,9858 , |
|||||
50 |
50 |
|
||||||||||||||
|
i=1 |
|
|
|
|
|
|
ç |
|
|
|
|
÷ |
|
||
|
|
|
|
|
|
|
|
|
è i=1 |
|
|
|
ø |
|
||
|
|
|
|
1 |
æ |
50 |
|
|
|
|
ö |
|
|
|
|
|
|
|
s2 |
= |
|
ç |
å |
xi2 |
- 50 × x 2 ÷ |
» 6,1080 . |
|
|
|||||
|
|
49 |
|
|
||||||||||||
|
|
|
|
ç |
|
|
|
|
÷ |
|
|
|
|
|
||
|
|
|
|
|
è i=1 |
|
|
|
|
ø |
|
|
|
|
|
Оценки медианы, среднего, дисперсии и моды по группированным данным:
|
|
|
|
|
|
æ |
|
|
n |
|
|
|
|
|
|
|
|
|
ö |
|
|
|
|
|
|
|
|
|
|
|
|
||||
~ |
|
|
|
|
|
ç |
|
|
|
|
- (n1 + n2 + ... + nh−1) ÷ |
|
|
|
|
|
25 - (1+ 7) |
|
|
||||||||||||||||
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
||||||||||||||||||||||
hX |
= ah + |
ç |
|
|
|
|
|
|
|
|
|
|
|
÷ × D = 7 + |
|
|
|
|
× 2 |
= 9 , |
|||||||||||||||
|
|
|
|
|
|
n |
|
|
|
|
|
|
17 |
|
|
||||||||||||||||||||
|
|
|
|
|
|
ç |
|
|
|
|
|
|
|
|
h |
|
|
|
÷ |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
ç |
|
|
|
|
|
|
|
|
|
|
|
|
÷ |
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
è |
|
|
|
|
|
|
|
|
|
|
|
|
|
ø |
|
|
|
|
|
|
|
|
|
|
|
|
|||
x = |
|
1 |
|
× (4 ×1 + 6 × 7 + 8 ×17 +10 ×16 +12 × 7 +14 ×1 +16 ×1) = 9,12 , |
|||||||||||||||||||||||||||||||
50 |
|||||||||||||||||||||||||||||||||||
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
~ |
|
|
|
|
|
×(42 ×1+ 62 ×7 + 82 ×17 +102 ×16 +122 ×7 +142 ×1+ |
|||||||||||||||||||||||||||||
DX |
= |
|
|
|
|||||||||||||||||||||||||||||||
50 |
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
+162 ×1- 50 ×9,122 ) = 5,1456 , |
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2 = |
50 |
|
|
~ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
× DX » 5,251, |
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
50 - |
1 |
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
~ |
|
|
|
|
|
æ |
|
|
|
|
|
|
nd - nd −1 |
ö |
|
|
|
|
|
17 |
|
- 7 |
|
|
|
|
|||||||||
|
|
|
|
|
ç |
|
|
|
|
|
|
÷ |
|
|
|
|
|
|
|
|
|
|
|||||||||||||
d X |
= ad + |
ç |
|
|
|
|
|
|
|
|
|
|
|
÷ |
× D = 7 + |
|
|
|
|
|
|
|
× 2 |
» 8,818 . |
|||||||||||
|
|
2nd - nd −1 - nd +1 |
2 |
×17 - 7 -16 |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
è |
|
|
ø |
|
|
|
|
|
|
|
|||||||||||||||||||
Доверительный интервал для дисперсии s2 найдём из условия |
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
x - |
s |
|
×t |
α (n -1) < m < x + |
s |
|
×t |
|
α (n -1) . |
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
1− |
2 |
|
|
|
|
|
|
|
|
n 1− |
2 |
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Задавшись доверительной вероятностью 1− α = 0,95 с учётом t0,975 (49) = 2,0096 , получим:
8,369 < m < 9,773 – для негруппированной выборки; 8,469 < m < 9,771 – для группированной выборки.
Доверительный интервал для математического ожидания m найдём из условия
PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com