Paly_I_A__Prikladnaya_statistika_Uchebnoe_po
.pdfлежат на горизонтальной прямой, то все частные средние y i равны y .
y i = y , i = 1,2, … , k ηyx = 0.
Тогда говорят об отсутствии связи между значениями x и у. Если все точки на диаграмме рассеяния сгруппированной выборки лежат на некоторой прямой (кроме горизонтальной), то ηyx = 1. В остальных случаях
0 < ηyx < 1.
Величина ηyx зависит от группировки. Как правило, с ростом числа интервалов группировки по переменной x корреляционное отношение растет. По аналогии с числом ηyx можно рассчитать число ηxy ≠ ηyx, если считать x зависимой переменной, а у – независимой переменной.
Пример. На металлообрабатывающем заводе у 60 марок стали провели замеры предела текучести F(x, кг/мм2) и предела прочности σв (y, кг/мм2). В итоге получили 60 пар значений, представленных в табл. 3.6. Предполагается, что большие значения F обуславливают большие значения σв; марки стали с низким пределом текучести имеют и низкий предел прочности. Для обоснования гипотезы о высокой положительной корреляции между пределом прочности и пределом текучести сгруппируем выборку (табл. 3.7) и рассчитаем числовые характеристики.
|
|
|
|
|
|
|
Таблица 3.6 |
|
F |
σв |
F |
σв |
F |
σв |
F |
|
σв |
xi |
yi |
xi |
yi |
xi |
yi |
xi |
|
yi |
154 |
178 |
51 |
95 |
98 |
140 |
44 |
|
69 |
133 |
164 |
101 |
114 |
97 |
115 |
92 |
|
116 |
58 |
75 |
169 |
209 |
105 |
101 |
141 |
|
157 |
145 |
161 |
87 |
101 |
71 |
93 |
155 |
|
193 |
94 |
107 |
88 |
139 |
39 |
69 |
136 |
|
155 |
113 |
141 |
83 |
98 |
122 |
147 |
82 |
|
81 |
86 |
97 |
106 |
III |
33 |
52 |
136 |
|
163 |
121 |
127 |
92 |
104 |
78 |
117 |
72 |
|
79 |
119 |
138 |
85 |
103 |
114 |
138 |
66 |
|
81 |
112 |
125 |
112 |
118 |
125 |
149 |
42 |
|
61 |
85 |
97 |
98 |
102 |
73 |
76 |
113 |
|
123 |
41 |
72 |
103 |
108 |
77 |
85 |
42 |
|
85 |
96 |
113 |
99 |
119 |
47 |
61 |
133 |
|
147 |
45 |
88 |
104 |
128 |
68 |
85 |
153 |
|
179 |
99 |
109 |
107 |
118 |
137 |
142 |
85 |
|
91 |
Внешний вид табл. 3.7 несколько отличается от вида табл. 3.5, иллюстрирующей двумерную группировку. Табл. 3.7 построена так, чтобы можно было легко вообразить диаграмму рассеяния, не строя ее саму.
Имеем:
n = 60; k = 7; m = 8; hx = hy = 20 (длины интервалов группировки).
y= 601 (200*2 + 180*2 + 160*5 + 140*9 + 120*13 + 100*14 + 80*10
+60*5) = 114,7;
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.7 |
|
|
|
|
|
|
|
|
|
|
|
|
Предел текучести [xi-1, xi], кг/мм2 |
|
||||||
|
Предел |
|
|
|
|
|
|
|
|
|
|
|
||||||
|
yj |
[30 – |
[50 – |
|
[70 – |
|
[90 – |
[110 – |
[120 – |
[150 – |
|
|||||||
прочности, |
50) |
70) |
|
90) |
110) |
130 ) |
150) |
170) |
mj |
|||||||||
|
кг/мм2 |
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
xi |
|
|
|
|||||||
|
|
|
|
|
|
|
|
40 |
60 |
|
|
80 |
|
100 |
120 |
140 |
160 |
|
[190 – |
210) |
200 |
|
|
|
|
|
|
|
|
|
2 |
2 |
|||||
[170 – |
190) |
180 |
|
|
|
|
|
|
|
|
|
2 |
2 |
|||||
[150 – |
170) |
160 |
|
|
|
|
|
|
|
|
5 |
|
5 |
|||||
[130 – |
150) |
140 |
|
|
|
|
1 |
|
1 |
5 |
2 |
|
9 |
|||||
[110 – |
130) |
120 |
|
|
|
|
1 |
|
8 |
4 |
|
|
13 |
|||||
[90 – 110) |
100 |
|
1 |
|
|
7 |
|
6 |
|
|
|
14 |
||||||
[70 – |
90) |
80 |
3 |
3 |
|
|
4 |
|
|
|
|
|
10 |
|||||
[50 – |
70) |
60 |
5 |
|
|
|
|
|
|
|
|
|
5 |
|||||
|
|
ni |
|
|
|
|
8 |
4 |
|
|
13 |
|
15 |
9 |
7 |
4 |
60 |
|
y1 |
= |
1 |
(60*5 + 80*3) = 67,5; |
y 2 |
= |
1 |
(80*4 + 100) = 105; |
|
|
|||||||||
|
|
8 |
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
||
y 3 |
= |
|
|
1 |
|
(160 + 120 + 100*7 + 80*4) = 100; |
y 4 = 113,3; |
|
|
|||||||||
13 |
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
y 5 = 131,1; |
|
y 6 = 154,3; |
|
|
|
y 7 = 190; |
|
|
|
|
∑7 (y i − y )2 n i = 8*(67,5 – 114,7)2 + 4*(105 – 114,7)2 + 13*(100 – 114,7)2 +
i =1
+15*(113,3–114,7)2 + 9*(131,1–114,7)2 +7*(154,3–114,7)2 +4*(190 – 114,7)2 = = 57115,8;
∑8 (y j − y )2 l j = 2*(200 – 114,7)2 + 2*(180 – 114,7)2 + 5*(160 – 114,7)2 +
i =1
+9*(140 – 114,7)2 + 13*(120 – 114,7)2 + 14*(100 – 114,7)2 +10*(80 – 114,7)2 + +5*(60 – 114,7)2 = 69493,4;
ηyx = 0,82.
Для справки: коэффициент корреляции r = 0,92, предел прочности и предел текучести связаны сильной линейной зависимостью.
3.9.ЗАДАЧИ
1. Как выражаются коэффициенты линейного уравнения регрессии через выборочный коэффициент корреляции r ?
2. Показать, что выборочный коэффициент корреляции r не изменится, если значения хi, уi подвергнуть преобразованию: хi = хi + a; уi = уi + b;
i = 1,2, ... , n. Как изменится выборочный коэффициент корреляции r, если все числа хi умножить на одно и то же число d, все числа y умножить на одно и то же число b, i = 1,2, ..., n?
3. В соответствии с методом наименьших квадратов составить систему уравнений для определения коэффициентов следующих уравнений
регрессии:
у = a + bex, y = a + b·sinωx + с·cosωx
(ω – заданное число), y = a + xb .
В задачах 4 - 19 нужно найти числовые характеристики выборки и определить (если r ≥ 0,7) коэффициенты линейного уравнения регрессии х на у, если у можно принять за независимую переменную.
4. Результаты тестирования (баллы) 10 студентов. Первый тест проверяет память (x), второй - способность к логическому мышлению (у):
xi |
5 |
8 |
7 |
10 |
4 |
7 |
9 |
6 |
8 |
6 |
yi |
7 |
9 |
6 |
9 |
6 |
7 |
10 |
7 |
6 |
8 |
5. Оценка за тест по способностям (х) шести продавцов–практикантов и результаты их работы за первый год (у) в сотнях фунтов проданного товара:
xi |
25 |
42 |
33 |
54 |
29 |
36 |
yi |
42 |
73 |
50 |
90 |
45 |
48 |
6. Снашивание (х) и твердость (у) резины в условных единицах:
xi |
21 |
15 |
12 |
22 |
5 |
yi |
5 |
6 |
7 |
4 |
8 |
7. Масса поросят (у) в килограммах в зависимости от возраста (х) в неделях:
xi |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
yi |
2,5 |
3,9 |
5,2 |
6,3 |
7,5 |
9,0 |
10,8 |
13,1 |
8. В книге «Основы химии» Д.И.Менделеева приводятся данные о растворимости азотнокислого натрия NaNO3 в зависимости от температуры воды. Указывается, сколько условных частей NaNO3 (у) растворяется в 100 частях воды при соответствующих температурах в oС
(х):
xi |
0 |
4 |
10 |
15 |
21 . |
29 |
36 |
51 |
68 |
yi |
66,7 |
71,0 |
76,3 |
80,6 |
85,7 |
92,9 |
99,4 |
113,6 |
125,1 |
9. Средняя температура января в г. Саратове (х) и в г. Алатыре (Чувашия) (у) измерялась в течение 13 лет:
Год |
1891 |
1892 |
1893 |
1894 |
1895 |
1896 |
1897 |
xi |
-19,2 |
-14,8 |
-19,6 |
-11,1 |
-9,4 |
-16,9 |
-13,7 |
yi |
-21,8 |
-15,4 |
-20,8 |
-11,3 |
-11,6 |
-19,2 |
-13,0 |
Год |
1899 |
1911 |
1912 |
1913 |
1914 |
1915 |
― |
xi |
-4,9 |
-13,9 |
-9,4 |
-8,3 |
-7,9 |
-5,3 |
― |
yi |
-7,4 |
-15,1 |
-14,4 |
-4,1 |
-10,5 |
-7,2 |
― |
10. Средняя температура июня в г. Москве (х) и в г. Ярославле (у) измерялась в течение 40 лет:
xi |
yi |
xi |
yi |
xi |
yi |
xi |
yi |
xi |
yi |
12,0 |
10,8 |
13,9 |
10,1 |
15,0 |
13,8 |
17,2 |
13,9 |
18,1 |
16,0 |
12,0 |
11,3 |
11,2 |
10,0 |
15,0 |
16,0 |
16,9 |
14,8 |
18,4 |
17,8 |
12,0 |
12,0 |
14,0 |
10,0 |
15,5 |
13,9 |
16,9 |
15,0 |
19,2 |
15,0 |
12,0 |
13,0 |
14,0 |
12,0 |
15,9 |
14,7 |
17,0 |
16,0 |
19,3 |
16,1 |
12,8 |
10,9 |
13,0 |
12,4 |
16,0 |
13,0 |
16,8 |
17,0 |
20,0 |
17,0 |
13,8 |
10,0 |
15,0 |
11,0 |
15,9 |
15,0 |
17,5 |
16,0 |
20,1 |
17,7 |
13,1 |
11,5 |
14,9 |
13,0 |
16,0 |
16,0 |
18,0 |
14,0 |
14,0 |
14,8 |
13,0 |
13,0 |
15,9 |
14,2 |
16,9 |
12,9 |
18,0 |
14,0 |
14,0 |
15,2 |
11. Объем продажи (х) в миллиардах долларов и чистый доход (у) в миллионах долларов 20 фирм в США:
xi |
8,9 |
8,4 |
7,4 |
7,2 |
7,0 |
yi |
441 |
278 |
456 |
934 |
89 |
xi |
4,4 |
4,2 |
4,2 |
4,1 |
3,8 |
yi |
454 |
291 |
321 |
51 |
111 |
6,1 |
5,9 |
5,8 |
5,5 |
4,8 |
611 |
770 |
53 |
243 |
217 |
3,8 |
3,6 |
3,5 |
3,3 |
3,2 |
2 |
356 |
150 |
237 |
151 |
Определяется ли доход объемом продажи?
12. Среднегодовые уровни воды в озере Виктория - Ньянза (х) относительно некоторого фиксированного значения и числа солнечных пятен (у) за 1902 - 1921 гг.:
Год |
xi |
yi |
Год |
xi |
yi |
1902 |
-10 |
5 |
1912 |
-11 |
4 |
1903 |
13 |
24 |
1913 |
-3 |
1 |
1904 |
18 |
42 |
1914 |
-2 |
10 |
1905 |
15 |
63 |
1915 |
4 |
47 |
1906 |
29 |
54 |
1916 |
15 |
57 |
1907 |
21 |
62 |
1917 |
35 |
104 |
1908 |
10 |
49 |
1918 |
27 |
81 |
1909 |
8 |
44 |
1919 |
8 |
64 |
1910 |
1 |
19 |
1920 |
3 |
38 |
1911 |
-7 |
6 |
1921 |
-5 |
25 |
13. Число айсбергов, наблюдавшихся помесячно к югу от Ньюфаундленда (х) и к югу от Большой отмели (у) за 1920 г.:
xi |
3 |
10 |
36 |
83 |
130 |
68 |
25 |
13 |
9 |
4 |
3 |
2 |
yi |
0 |
1 |
4 |
9 |
18 |
13 |
3 |
2 |
1 |
0 |
0 |
0 |
14. Число разводов на 1000 жителей в 20 штатах США (у), средний доход на семью (x1) в тыс. долл.; процент городского населения (х2):
yi |
x1i |
х2i |
yi |
x1i |
х2i |
1,2 |
4,9 |
38,5 |
3,6 |
4,9 |
75 |
1,1 |
6,3 |
83,6 |
3,9 |
5,2 |
47,5 |
0,4 |
6,4 |
85,4 |
4,0 |
5,9 |
56,8 |
2,4 |
6,2 |
73,4 |
2,7 |
5,8 |
73,7 |
2,7 |
5,8 |
62,4 |
3,0 |
5,4 |
65,7 |
2,1 |
6,2 |
73,4 |
2,4 |
5,9 |
74,9 |
1,2 |
4,2 |
39,3 |
1,2 |
4,9 |
51,3 |
1,5 |
4,9 |
54,3 |
3,3 |
6,2 |
68,1 |
1,9 |
5,0 |
55,8 |
3,2 |
5,9 |
62,2 |
1,6 |
4,6 |
62,9 |
3,1 |
6,7 |
86,4 |
15. На сталелитейном заводе обследовали 15 плавок определенного сорта стали. Учитывался угар кремния (х), измеряемый в процентах, и выход стали (у), также измеряемый в процентах.
xi |
7,9 |
0,9 |
3,7 |
8,1 |
6,9 |
0,8 |
6,0 |
7,2 |
8,8 |
10,2 |
11,2 |
0,5 |
yi |
70,3 |
85,0 |
100,0 |
78,1 |
77,9 |
98,4 |
59,2 |
86,8 |
70,1 |
42,2 |
81,9 |
97,1 |
xi |
4,6 |
9,7 |
1,0 |
|
|
|
|
|
|
|
|
|
yi |
68,2 |
92,1 |
91,2 |
|
|
|
|
|
|
|
|
|
16. Продолжительность послеоперационного лечения в клинике (у) в днях и возраст больных (х) в годах, оперировавшихся по поводу грыжи:
xi |
yi |
xi |
yi |
xi |
yi |
xi |
yi |
78 |
9 |
68 |
7 |
79 |
3 |
75 |
7 |
60 |
4 |
79 |
11 |
51 |
5 |
02 |
0 |
68 |
7 |
80 |
4 |
57 |
8 |
65 |
16 |
62 |
35 |
48 |
9 |
51 |
8 |
42 |
3 |
76 |
9 |
35 |
2 |
48 |
3 |
54 |
2 |
76 |
7 |
58 |
4 |
48 |
5 |
43 |
3 |
64 |
5 |
40 |
3 |
66 |
8 |
04 |
3 |
64 |
19 |
19 |
4 |
71 |
2 |
52 |
8 |
17. При исследовании некоторой химической реакции через каждые 5 минут определялось количество вещества (у) в %, оставшееся в системе. Подобрать коэффициенты уравнения у = а + bх + сх2, где х – время после начала реакции в минутах.
xi |
0 |
7 |
12 |
17 |
22 |
27 |
32 |
37 |
yi |
100 |
87,3 |
72,9 |
63,2 |
54,7 |
47,5 |
41,4 |
36,3 |
18. Барометрическое давление связано с высотой следующим
−k |
z , |
соотношением: p / p0 =e T |
|
где р - барометрическое давление на высоте z; |
|
Т - температура; |
|
p0 и k - параметры.
По методу наименьших квадратов оценить значения параметров k/T и р0 по результатам наблюдений, проведенных при постоянной температуре:
|
|
|
|
ZI,М |
|
1000 |
1100 |
|
1200 |
|
1400 |
|
1500 |
1600 |
|
|
|||||
|
|
|
pi, мм рт. ст. |
640 |
595 |
|
504 |
|
|
363 |
|
310 |
267 |
|
|
||||||
19. Для исследования |
зависимости давления р насыщенного пара |
||||||||||||||||||||
(Н/см2) от удельного объема V (м3/кг) составлена таблица опытных |
|||||||||||||||||||||
данных: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
Vi |
|
3,334 |
1,630 |
|
0,866 |
|
0,423 |
|
0,265 |
|
0,170 |
|
0,115 |
|
|
||||
|
|
pi |
|
0,482 |
1,034 |
|
2,027 |
|
4,247 |
|
7,164 |
|
11,480 |
|
17,600 |
|
Подобрать коэффициенты функциональной зависимости p = aVb. 20. Функциональная зависимость удельного сопротивления
кристаллического кварца ρ (Ом·см) от абсолютной температуры Т (K)
a1+b
имеет вид ρ=10T .
Используя опытные данные, оценить значения параметров а и b.
ρi |
5*1016 |
4*1015 |
3*1014 |
2*1013 |
2*1012 |
1,5*1011 |
1010 |
Тi |
335 |
365 |
400 |
445 |
500 |
570 |
670 |
21. Получена выборка наблюдений переменных х и у:
xi |
1 |
2 |
3 |
5 |
6 |
7 |
8 |
yi |
62,1 |
87,2 |
109,3 |
127,3 |
134,3 |
136,2 |
136,9 |
Для представления этих данных предлагается выбрать лучшую из предложенных моделей:
1) y = a +xbx . 2) y = ba x . 3) y = bxa . 4) y = a ln(x) + b .
Оценить значения параметров а и b.
22. На заводе производят некоторый материал, твердость которого хотят повысить. Для этого увеличивают содержание некоторого химического вещества. Ниже приведены данные для 20 случайно отобранных образцов. Значения у – твердость образца (условные единицы), значения х – процентное содержание химического вещества относительно некоторого уровня.
xi |
18 |
18 |
18 |
6 |
20 |
9 |
11 |
22 |
17 |
17 |
yi |
72,2 |
80,1 |
69,8 |
58,2 |
79,7 |
45,6 |
58,6 |
85,4 |
80,1 |
66,7 |
xi |
19 |
14 |
22 |
8 |
22 |
11 |
24 |
14 |
24 |
5 |
yi |
79,1 |
56,4 |
82,4 |
55,2 |
107,8 |
34,4 |
115,4 |
73,5 |
99,5 |
56,8 |
Подобать коэффициенты линейного и параболического уравнений регрессии. Какое из уравнений больше соответствует экспериментальным данным?
6. ПРОВЕРКА ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ ПО КРИТЕРИЮ ПИРСОНА (КРИТЕРИЮ χ2)
Те, что веруют слепо, - пути не найдут. Тех, кто мыслит, - сомнения вечно гнетут. Опасаюсь, что голос раздастся однажды: «О, невежды! Дорога не там и не тут?»
О. Хайям (перевод Г. Плисецкого)
6.1. ПРИМЕР
Рассмотрим такую ситуацию. 200 электронных ламп, выбранных наудачу из большой партии, испытывались на продолжительность работы. Результаты (в часах) таковы (табл. 6.1):
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 6.1 |
|
[xi-1;xi) |
|
[0;300) |
|
[300;600) |
|
[600;900) |
|
[900;1200) |
|
[1200;1500) |
|
[1500;1800) |
|
ni |
|
53 |
|
41 |
|
30 |
|
22 |
|
16 |
|
12 |
|
[xi-1;xi) |
|
[1800;2100) |
|
[2100;2400) |
|
[2400;2700) |
|
[2700;3000) |
|
[3000;3300) |
|
|
|
ni |
9 |
7 |
5 |
3 |
2 |
|
|
|
Хотелось бы дать разумный ответ на такие вопросы: какую продолжительность работы следует ожидать, если взять наудачу лампу из этой же партии? Какова вероятность, что лампа проработает не менее 1000 часов? Какова вероятность того, что лампа проработает менее 200 часов?
Ответить на эти вопросы легко, если известен закон распределения случайной величины Х – времени работы лампы. Но его-то мы не знаем. Мы располагаем только выборкой (правда, достаточно большой, n = 200) из генеральной совокупности X. Попробуем, пользуясь этой выборкой, подобрать подходящий закон распределения.
Построим прежде всего гистограмму (рис. 6.1).
h i , f(x)
|
0,0012 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,001 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,0008 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,0006 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,0004 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,0002 |
|
|
|
|
|
|
|
|
|
|
|
|
X |
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
300 |
600 |
900 |
1200 |
1500 |
1800 |
2100 |
2400 |
2700 |
3000 |
3300 |
||
|
|
|
|
|
|
|
|
|
Рис. 6.1 |
|
|
|
|
|
|
Высоты прямоугольников таковы: |
|
|
|
|
|
|
|||||||||
h |
= |
53 |
= |
|
53 |
|
= 0,00088; h |
= 41 = |
41 |
= 0,00068; |
|||||
1 |
|
n h |
|
200 300 |
|
|
2 |
n h |
60000 |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|||||||
h |
= |
30 |
= |
|
30 |
= 0,0005 ; h4 = 0,00037; h5 = 0,00027; h6 = 0,0002; |
|||||||||
3 |
|
n h |
|
60000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
h7 = 0,00015; h8 = 0,00012; h9 = 0,00008; h10 = 0,00005; h11 = 0,00003.
Гистограмма – аналог графика функции плотности вероятности. В нашем случае гистограмма очень похожа на график функции плотности показательного закона. Мы вправе предположить, что большая выборка хорошо представляет генеральную совокупность и что если гистограмма похожа на график экспоненты, то это означает, что выборка извлечена из генеральной совокупности, распределенной по показательному закону с функцией плотности вероятности
f(x) = λe-λx.
Однако показательный закон зависит от одного параметра – числа λ. Чтобы полностью описать закон, нужно знать, чему равно λ. Подберем значение λ по выборке, причем поступим самым бесхитростным способом. Как известно, математическое ожидание случайной величины, имеющей показательное распределение, М(Х) = 1/λ. Если наша выборка хорошо представляет генеральную совокупность, мы вправе полагать, что значение выборочного среднего x не слишком отличается от М(Х). Поэтому найдем x и положим λ=1/ x .
x = 2001 (150 53 + 450 41 + 750 30 +1050 22 +1350 16 +1650 12 + +1950 9 +2250 7 + 2550 5 + 2850 3 + 3150 2) =871,5(ч) .
Тогда λ = 1/ x ≈ 0,00115, f(x) = 0,00115e -0,00115x ,x ≥ 0.
Вычислим значения f(х) на границах интервалов (табл. 1.2) и построим график функции плотности вероятности прямо на гистограмме
(см. рис. 6.1).
|
|
|
|
|
|
Таблица 6.2 |
xi |
0 |
300 |
600 |
900 |
1200 |
1500 |
f(xi) |
0,00115 |
0,00081 |
0,00058 |
0,00041 |
0,00029 |
0,0002 |
xi |
1800 |
2100 |
2400 |
2700 |
3000 |
3300 |
f(хi) |
0,000115 |
0,0001 |
0,00007 |
0,00005 |
0,000037 |
0,000026 |
Не следует увлекаться слишком большим количеством значащих цифр, ведь все наши данные достаточно приближенные.
Кривая функции плотности вероятности f(х) очень «ладно» легла на гистограмму. Такое хорошее совпадение гистограммы и графика f(х) прибавляет уверенности в том, что закон распределения генеральной совокупности Х выбран достаточно точно.
Попробуем теперь оценить числом расхождение между экспериментальными данными и тем, что должно быть «по теории».
Мы можем вычислить теоретическую вероятность рi попадания случайной величины X, распределенной по показательному закону с функцией плотности f(x) = 0,00115е-0,00115x, x ≥ 0 в интервал [xi-1, xi).
р(хi-1 < X < xi) = e−λxi−1 − e−λxi = e−0,00115xi−1 − e−0,00115xi .
Зная вероятность pi, можно вычислить математическое ожидание числа попаданий случайной величины Х в интервал [xi-1, xi) в результате n независимых испытаний, оно равно nрi. Теперь можно найти разность
ni - nрi между числом вариант выборки, попавших в интервал [хi-1, хi), и ожидаемым числом попаданий. Чтобы оценить суммарное расхождение между теоретическими и опытными данными, нужно сложить все полученные разности. Чтобы положительные и отрицательные разности не уничтожили друг друга, возведем их в квадрат. Кроме того, важно не абсолютное значение ni - nрi, а относительное (ni,- npi)/npi. Действительно, если ni = 0, nрi = 1, это совсем не одно и то же, что в случае, когда ni = 10, nрi = 11. Относительное отклонение в первом случае равно 1, а во втором − только 1/11.
Итак, вычислим прежде всего вероятности рi.
р1 = P(0 < X < 300) = e-λ*0 - e-λ*300 = e 0 - e –0,345 = 1- 0,708 = 0,2918; p2 = P(300 < X < 600) = e-λ*300 - e-λ*600 = 0,7082 – 0,5016 = 0,2066; р3 = P(600 < X < 900) = e-λ*600 - e -λ*900 = 0,1464;
р4 = 0,1036; р5 = 0,0734; р6 = 0,052; р7 = 0,0368; р8 = 0,0261;
р9 = 0,0185; р10 = 0,0131; р11 = 0,0092.
Дальнейшие вычисления приведены в табл. 6.3.
Таблица 6.3
|
|
|
|
|
|
|
(n - np |
i |
)2 |
|
|
[xi-1; xi) |
pi |
npi |
ni |
ni - npi |
|
i |
|
|
|
|
|
npi |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
[0;300) |
0,2918 |
58,36 |
53 |
-5,36 |
0,490 |
|
|
|
|
|
[300;600) |
0,2066 |
41,32 |
41 |
-0,32 |
0,002 |
|
|
|
|
|
[600;900) |
0,1464 |
29,28 |
30 |
0,72 |
0,018 |
|
|
|
|
|
[900;1200) |
0,1036 |
20,72 |
22 |
1,28 |
0,079 |
|
|
|
|
|
[1200;1500) |
0,0734 |
14,68 |
16 |
1,32 |
0,119 |
|
|
|
|
|
[1500;1800) |
0,0520 |
10,40 |
12 |
1,60 |
0,246 |
|
|
|
|
|
[1800;2100) |
0,0368 |
7,36 |
9 |
1,64 |
0,365 |
|
|
|
|
|
[2100;2400) |
0,0261 |
5,22 |
7 |
1,78 |
0,607 |
|
|
|
|
|
[2400;2700) |
0,0185 |
3,70 |
5 |
1,30 |
0,457 |
|
|
|
|
|
[2700;3000) |
0,0131 |
2,62 |
3 |
0,38 |
0,056 |
|
|
|
|
|
[3000;3300) |
0,0092 |
1,84 |
2 |
0,16 |
0,014 |
|
|
|
|
|
– |
∑pi = 0,9775 |
∑npi = 195,5 |
∑ni = 200 |
– |
χ2 = 2,45 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
Сумма вероятностей pi равна 0,9775. Это значит, что интервал [0; 3300) охватывает практически все возможные значения выбранного нами теоретического закона. Сумма чисел последнего столбца традиционно обозначается буквой χ2 (читается «хи - квадрат»). В нашем случае
11 |
(ni − npi ) |
2 |
|
χ2 = ∑ |
|
= 2,45 . |
|
npi |
|
||
i=1 |
|
|
Много это или мало?
6.2. НЕМНОГО ТЕОРИИ
Только что мы находили число χ2.
|
|
k |
(ni − npi ) |
2 |
|
|
χ2 |
= ∑ |
|
, |
|
|
npi |
|
|||
|
|
i=1 |
|
|
|
где |
k – число интервалов; ni |
– частота i-го интервала; |
|||
рi – |
теоретическая вероятность |
попадания случайной величины Х |
(генеральной совокупности) в i-й интервал;
n – число независимых испытаний (объем выборки);
nрi – математическое ожидание числа попаданий случайной величины Х в i-й интервал
Но на приведенную формулу можно посмотреть и по-другому. Вместо числа ni рассмотрим случайную величину ni (в математической статистике случайные величины и их значения часто обозначаются одними и теми же маленькими буквами). Случайная величина ni - это число появлений