книги / Методические указания к проведению практических занятий по разделу математическая статистика дисциплины Основы системного анализа и математической статистики
..pdf11
2. Вычисление точечных оценок параметров распределения Генеральной средней/выборочной средней x называется среднее арифметическое значение признака генеральной /выборочной
совокупности.
x x1 x2 ... xk n
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней.
Генеральной выборочной дисперсией D называется среднее арифметическое квадратов отклонений значений признака генеральной/выборочной совокупности от их среднего значения.
n
(xi x)2
D i 1
n
Генеральным выборочным средним квадратическим отклонением называется квадратный корень из генеральной/ выборочной дисперсии.
D
Вычисление дисперсии, выборочной или генеральной, можно упростить, используя формулу:
D x2 (x)2
Выборочная дисперсия является смещенной оценкой генеральной дисперсии, Исправленная дисперсия является несмещенной оценкой.
S 2 n n 1DB
Для оценки среднего квадратического отклонения генеральной совокупности используют исправленное среднее квадратическое отклонение
S S2
12
Пример 4.
Используя условие примера 1, найти числовые характеристики интервального вариационного ряда.
Решение:
За хi примем середины частичных интервалов. Находим
выборочное среднее: xB 1 k xi ni n i 1
x B 2001 (6,68 2 6,7 15 6,72 17 6,74 44 6,76 52 6,78 44
6,8 14 6,82 11 6,84 1) 6,7578
Для вычисления выборочной дисперсии воспользуемся формулой
D x 2В (x B )2
x2В 2001 (6,682 2 6,72 15 6,722 17 6,742 44 6,762 52 6,782 446,82 14 6,822 11 6,842 1) 45,6688
Тогда выборочная дисперсия равна
DB 45,6688 (6,7578)2 0,001
Выборочное среднее квадратическое отклонение: 0,001 0,032
В качестве описательных характеристик вариационного ряда или полученного из него статистического распределения выборки используется медиана и мода.
Модой вариационного ряда называется вариант, имеющий наибольшую частоту.
Медианой непрерывной случайной величины X называют то ее возможное значение, которое определяется равенством
P X M e (X ) P X M e (X ) .
13
Пример 5.
Найти моду и медиану вариационного ряда.
|
|
|
|
|
|
Таблица 4 |
||
|
|
|
|
|
|
|
|
|
хi |
2 |
4 |
5 |
8 |
10 |
|
12 |
|
|
|
|
|
|
|
|
|
|
ni |
2 |
7 |
4 |
6 |
5 |
|
2 |
|
|
|
|
|
|
|
|
|
|
Решение:
Мода Мо* 4, медиана Мо* 5 28 6,5 (так как 2+7+4 = 6+5+2).
3. Доверительная вероятность и доверительный интервал
Точечная оценка неизвестного параметра не позволяет непосредственно ответить на вопрос, какую ошибку мы совершаем, принимая вместо точного значения параметра его приближенное значение (оценку). Чтобы дать представление о точности и надежности оценки, в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.
Доверительной вероятностью (надежностью) оценки называют вероятность , с которой выполняется неравенство ~ .
Уровнем значимости называется величина |
1 . |
Доверительным интервалом называется |
интервал ; , |
который покрывает неизвестный параметр с заданной надежностью . Интервальной называется оценка параметра распределения, которая
определяется двумя числами — концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
14
Построение доверительных интервалов
для параметров нормального распределения
Выборка Х извлечена из нормально распределенной генеральной совокупности с параметрами a и : N (a; ). Необходимо построить доверительные интервалы для параметров распределения при заданной надежности .
Доверительный интервал для оценки математического ожидания a при известном значении
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
P x |
t |
|
|
a x t |
|
|
2 t . |
||||||
|
|
|
|||||||||||
|
|
|
n |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
n |
|
|
||||
Число t определяется |
из |
равенства |
t |
|
по таблицам значений |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
функции Лапласа.
Доверительный интервал для оценки математического ожидания a при неизвестном значении
По наблюдениям находят точечные оценки x и S математического ожидания μ и дисперсии σ .
Р( |
|
t |
s |
a |
|
t |
s |
) |
|
x |
x |
||||||||
n |
n |
||||||||
|
|
|
|
|
|
|
Число t - значение функции распределения Стьюдента (t-распределения) ,
|
степеням свободы |
и надежности . |
|
соответствующее |
Доверительный интервалk n |
1для оценки |
γ |
среднего квадратического отклонения
Р(max 0;s 1 q s 1 q )
где q – значение функции распределения Пирсона ( 2-распределения),
соответствующее степеням свободы |
|
|
и надежности . |
. |
|||
Приэтомточностьоценкисреднего |
квадратичногоотклоненияравна: |
|
γ |
||||
|
k |
n 1 |
|
δ |
|
||
|
|
|
|
|
Sq |
|
15
Интервальная оценка вероятности события
При рассмотрении точечных оценок было показано, что "хорошей" оценкой вероятности события является частость w = m / n, где m – число испытаний, в которых произошло событие А, а n – общее число независимых испытаний, в каждом из которых событие А может произойти с вероятностью р или не произойти с вероятностью q = 1 – р (т.е. последовательность испытаний Бернулли).
Построение доверительного интервала для вероятности в этом случае (при больших значениях n 100) осуществляется по формуле:
P w t w 1n w p w t w 1n w 2 t ,
где t – значение стандартной нормальной величины, соответствующее надежности Ф t γ/2, а Ф t – функция Лапласа
Пример 6.
Произведено 5 независимых испытаний. С. в. Х ~ N (a; 20). Результаты наблюдений: х1 25, х2 34,х3 20,х4 10,х5 21. Найти оценку для математического ожидания а и построить для него 95% доверительный интервал.
Решение:
Находим x 1n ( 25 34 20 10 21) 4.
По условию 0,95 , следовательно Ф(t) 2 0,295 0,475.
По таблице значений функции Лапласа находим t t 1,96.
Тогда 1,96 20 17,5.
5
Доверительный интервал имеет вид: (4 17,5; 4 17,5) или ( 13,5; 21,5).
16
Пример 7.
По условию примера 6, считая, что случайная величина X ~ N (а, ), построить доверительный интервал для неизвестного с надежностью.
0,95 .
Решение:
Воспользуемся результатом примера 6: x 4. Находим значение:
2 14 (( 25 4)2 (34 4)2 ( 20 4)2 (10 4)2 (21 4)2 660,5
|
2 |
25,7 . |
|
|
||
Для |
0,95 |
и (n 1) 4 |
по таблице находим t |
2,78. Следовательно |
||
2,78 |
25,7 |
|
31,9. |
|
|
|
2,24 |
|
|
|
|||
|
|
|
|
|
|
Доверительный интервал: ( 27,9; 35,9)
Пример 8.
Измерения твердости 16 образцов легированной стали (в условных единицах) дали следующие результаты:
|
|
|
|
|
|
Таблица 5 |
|
13,1 |
12,8 |
11,9 |
12,4 |
13,5 |
13,7 |
12,0 |
13,8 |
10,6 |
12,4 |
13,5 |
11,7 |
13,9 |
11,5 |
12,5 |
11,9 |
В предположении, |
что выборка измерений получена из нормально |
распределенной генеральной совокупности, найти доверительные интервалы для среднего и дисперсии при доверительной вероятности 0,95.
Решение:
Математическое ожидание а неизвестно, по выборке найдем
|
|
1 |
16 |
201,2 |
|
|
|
|
|
|
|||
х |
|
хi |
16 |
12,58 |
, |
|
|
||||||
|
|
16 i 1 |
|
|
17
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
S |
(хi х)2 |
|
0,91 0,95. |
|
|
|||
|
|
|
|
|
||||||
|
|
|
15 i 1 |
|
|
|
|
|||
По таблице распределения Стьюдента для k 16 1 15 |
и |
0,95 |
||||||||
находим t |
t0,95 |
2,13. |
|
|
|
|
|
|
|
|
Доверительный интервал для математического ожидания имеет вид
|
|
|
|
|
|
2,13 |
0,95 |
; 12,58 2,13 |
0,95 |
, |
|
|||||
|
|
|
|
12,58 |
16 |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
16 |
|
|
||
|
|
|
|
|
|
(12,08; 13,09). |
|
|
|
|
|
|||||
|
По таблице распределения k2 |
для |
k 16 1 15 , |
|
0,95 находим |
|||||||||||
квантили |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
2 |
2 |
|
2 |
6,26 |
и |
2 |
|
2 |
|
2 |
|
25,0. |
||||
1 |
1 0,95 |
|
0.975,15 |
2 1 0.95 |
|
0.05,15 |
||||||||||
|
|
|
,16 |
1 |
|
|
|
|
|
|
|
,16 1 |
|
|
|
|
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Доверительный интервал для неизвестного имеет вид: |
|
|||||||||||||||
|
|
|
|
|
|
16 1 0,95 |
|
16 1 0,95 |
|
|
||||||
|
|
|
|
|
|
|
|
|
; |
|
|
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
25,0 |
|
|
6,26 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
0,74; 1,47 . |
|
|
|
|
|
Пример 9
Найти минимальный объем выборки, на основании которой можно было бы оценить математическое ожидание времени исполнения некоторой технической операции с ошибкой, не превышающей 10с и надежностью 0,95, если предположить, что время исполнения этой операции имеет нормальное распределение со средним квадратическим отклонением 50.
Решение:
Погрешность оценки математического ожидания при известной дисперсии выражается формулой:
n U 2
|
|
|
|
2U 2 |
|
По условию ε ≤ 10. Поэтому |
10, |
откуда n |
2 |
||
|
U 2 |
|
|||
n |
100 |
18
По таблицам функции Лапласа при доверительной вероятности 1 0,95 находим квантиль U 2 U0,25 1,96.
Тогда n ≥ 96 и nmin = 9.
4. Методы статистической проверки гипотез.
Критерии согласия Стьюдента, Фишера, Пирсона, Колмогорова
Статистическая гипотеза называется параметрической, если предположения касаются значений параметров распределения, и – непараметрической, если содержит предположения о виде закона распределения.
4.1. Т - критерий Стьюдента для несвязных выборок
Т-критерий Стьюдента |
направлен |
на оценку различий величин |
||||
средних |
|
и |
|
двух выборок |
X и Y , |
которые распределены по |
X |
Y |
нормальному закону. Он может быть использован для сопоставления средних у связных и несвязных выборок, причем выборки могут быть не равны по величине.
В общем случае формула для расчета наблюдаемого значения критерия tэмп по t - критерию Стьюдента для несвязных выборок такова:
tэмп |
|
X |
|
Y |
|
, |
|
Sd |
|||||||
|
|
|
|
где Sd |
Sx2 S y2 |
Для равночисленных выборок с объемами n n1 n2 выражение для Sd имеет вид:
|
|
|
|
(xi |
|
)2 (yi |
|
)2 |
|
Sd |
2 |
2 |
|
X |
Y |
. |
|||
Sx |
S y |
|
(n 1) n |
||||||
|
|
|
|
|
|
Для неравночисленных выборок n1 n2 , выражение будет вычисляться следующим образом:
19
|
|
|
|
(xi |
|
)2 |
|
(yi |
|
)2 |
|
(n1 n2 ) |
||
|
2 |
2 |
|
X |
Y |
|
||||||||
Sd |
S x |
S y |
|
|
|
|
|
|
|
|
|
|
|
|
(n1 |
n2 |
2) |
(n1 |
n2 ) |
||||||||||
|
|
|
|
|
В обоих случаях подсчет числа степеней свободы осуществляется по формуле: k (n1 1) (n2 1) n1 n2 2
Пример 10.
Представлены результаты измерения времени сложной сенсомоторной реакции выбора (в мс) в группе X , состоящей из 9 спортсменов высокой квалификации и в группе Y , состоящей из 8 человек, активно не занимающихся спортом. С помощью t - критерия Стьюдента проверить гипотезу о том, что средняя скорость сложной сенсомоторной реакции выбора у спортсменов выше, чем эта же величина у людей, не занимающихся спортом.
Результаты эксперимента представим в виде таблицы 6, в которой произведем ряд необходимых расчетов.
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 6 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
группы |
отклонение от |
|
квадраты |
|||||||||||
№ |
среднего |
отклонений |
|||||||||||||
|
|
||||||||||||||
|
X |
Y |
xi |
X |
|
yi |
Y |
|
(xi |
X |
)2 |
(yi |
Y |
)2 |
|
1 |
504 |
580 |
-22 |
|
-58 |
|
484 |
|
3364 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
2 |
560 |
692 |
34 |
|
|
54 |
|
|
1156 |
|
2916 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|||||
3 |
420 |
700 |
-106 |
|
62 |
|
|
11236 |
3844 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
4 |
600 |
621 |
74 |
|
|
-17 |
|
5476 |
|
289 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
5 |
580 |
640 |
54 |
|
|
2 |
|
|
2916 |
|
4 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
||||
6 |
530 |
561 |
4 |
|
|
-77 |
|
16 |
|
5929 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
7 |
490 |
680 |
-36 |
|
42 |
|
|
1296 |
|
1764 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
8 |
580 |
630 |
54 |
|
|
-8 |
|
|
2916 |
|
64 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
9 |
470 |
- |
-56 |
|
- |
|
|
3136 |
|
- |
|
|
|||
|
|
|
|
|
|
|
|
|
|
||||||
|
4734 |
5104 |
0 |
|
|
-17 |
|
28632 |
18174 |
||||||
среднее |
526 |
638 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20
Решение:
Среднее арифметическое в экспериментальной группе X 47349 526.
Среднее арифметическое в контрольной группе Y 51048 638.
Разница по абсолютной величине между средними
X Y 526 638 112.
Подсчет выражения дает Sd |
(28632 |
18174) |
|
(9 8) |
|
736,76 27,14. |
|||||||||
|
|
|
|
|
|
|
|
|
|
(9 |
8 2) |
|
(9 8) |
|
|
|
|
|
|
|
|
|
|
112 |
|
|
|
|
|
|
|
Следовательно tэмп |
|
X |
Y |
|
|
|
|
4,13. |
|
|
|
|
|||
Sd |
27,14 |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Число степеней свободы k 9 8 2 15. Для данного числа степеней свободы и 0,001находимtкр 4,07.
Таким образом, при 0,001, средняя скорость сложной
сенсомоторной реакции выбора в группе спортсменов существенно
выше, чем в группе людей, активно не занимающихся спортом делаем
вывод: на 0,1% уровне значимости принимается гипотеза о различии
между группами.
4.2Т - критерий Стьюдента для связных выборок.
Вслучае связных выборок с равным числом измерений в каждой
можно использовать более простую формулу t - критерия Стьюдента:
|
tэмп |
|
d |
|
|
|
|
|
|
di |
|
(xi yi ) |
|
|
|
, где d |
|
|
|||||||
|
Sd |
n |
n |
|||||||||
|
|
|
|
|
|
|
|
|||||
di xi |
yi разности между соответствующими значениями |
|||||||||||
переменной X и переменной Y , а |
|
среднее этих разностей. |
||||||||||
d |