- •Лекции № 6
- •Случайная величина
- •Понятие случайной величины
- •Распределение случайных величин
- •Ряд распределения
- •Числовые характеристики случайных величин
- •Математическое ожидание
- •Медиана
- •Дисперсия и среднее квадратическое отклонение
- •Нормальный закон распределения
- •Первичная обработка результатов эксперимента
- •Среднее арифметическое
- •Дисперсия и среднее квадратическое отклонение
- •Интервальный ряд. Гистограмма
- •Элементы регрессионного анализа
- •Метод наименьших квадратов
- •Корреляционная зависимость
Дисперсия и среднее квадратическое отклонение
При описании некоторых явлений среднее арифметическое дает о них примерное представление, вполне удовлетворительное для практических целей. Таково, например, среднее число правонарушений в день, рассмотренное в примере 1. Однако весьма часто встречаются такие ситуации, для описания которых недостаточно знать только среднее арифметическое.
Поучительная история. Двух студентов юридического факультета послали на практику, одного в город Дрюково, другого — в город Стуково. Практиканты узнали, что в это время года среднесуточная температура в этех городах равна нулю. Тот из них, что поехал в Стуково, будучи человеком осторожным, взял с собой: только теплые веши. Другой, более легкомысленный, оделся по-летнему. Оказалось, что в течение всей практики в обоих городах температура была стабильной: в Дрюкове — +2 днем и -2 ночью, в Стукове — +15 днем и -15 ночью. В результате, несмотря на то, что среднесуточная температура действительно была нулевой, оба студента заболели, так как один постоянно перегревался, а другой — постоянно мерз.
Из этой истории видно, что, помимо средней величины, нужно знать еще и то, как заданные числа рассеяны около их среднего значения. Для этой цели вводятся дисперсия и среднее квадратическое отклонение.
Дисперсией величин x1, x2, ... , xn называется число
(4)
Пример 3. На обследование каждого из десяти автомобилей было затрачено следующее время (в мин):
Таблица 3
|
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
xi |
25 |
30 |
22 |
22 |
54 |
36 |
41 |
45 |
25 |
40 |
Здесь символом xi обозначено время, затраченное на обследование автомобиля с номером i. Найдем дисперсию величин xi.
Решение. Составим таблицу из трех столбцов:
Таблица 4.
|
xi |
xi- |
(xi- |
|
25 |
-9 |
81 |
|
30 |
-4 |
16 |
|
22 |
-12 |
144 |
|
22 |
-12 |
144 |
|
54 |
20 |
400 |
|
36 |
2 |
4 |
|
41 |
7 |
49 |
|
45 |
11 |
121 |
|
25 |
-9 |
81 |
|
40 |
6 |
36 |
|
340 |
0 |
1076 |
В
последней строке первого столбца
записано общее время обследования всех
автомобилей, т.е. сумма всех чисел xi
— 340. Поделив ее на 10, найдем среднее
арифметическое чисел x1,
x2,
... , x10
:
=
34 (мин).
Во
втором столбце записаны разности x1
-
,
x2
-
,
... , x10
-
,
представляющие собой отклонения величин
x1,
x2,
... , x10
от их среднего. Сумма отклонений всегда
равна нулю, что показано в последней
строке второго столбца. Это важнейшее
свойство средней величины.
В
третьем столбце табл. 4 записаны квадраты
отклонений: (x1
-
)2
,(
x2
-
)2,
... ,( x10
-
)2.
Сумма квадратов, как видно из последней строки, равна 1076. По формуле (4) находим дисперсию D:
(мин2).
Если
известны частоты
то для вычисления дисперсии вместо
формулы (4) можно использовать формулу
,
(5)
где,
как и выше,
суть различные среди заданных чиселx1,
x2,
... , xn
.
Средним
квадратическим отклонением величин
x1,
x2,
... , xn
от их среднего значения
называется величина
S=
.
(6)
В примере 3 среднее квадратическое отклонение равно
S=
=
10,3 7310,4
(мин).
Из
формулы (4) видно, что дисперсия
представляет собой среднее арифметическое
квадратов разностей
x1
-
,
x2
-
,
... , xn
-
.
Поэтому величину S
можно рассматривать как среднее
отклонение величин x1,
x2,
... , xn
от их среднего значения
.
Из
определения дисперсии и среднего
квадратического отклонения следует,
что последнее не превышает наибольшей
из величин |xi
-
|
(абсолютная величина отклонения). Так,
в рассмотренном примере 10,4 < 20, т.е. S
существенно меньше максимального
отклонения.
Теперь допустим, что нужно обследовать все автомобили города Дрюкова. Но число автомобилей так велико, что описать все значения величины Х (X — время обследования) практически невозможно. Однако мы можем, не проводя самого обследования, предсказать его результаты приближенно, с помощью примера 3. Предварительно, используя табл. 3, составим другую таблицу, в которой укажем время обследования хi и соответствующую частоту pi:
Таблица 5
|
|
22 |
25 |
30 |
36 |
40 |
41 |
45 |
54 |
|
|
0,2 |
0,2 |
0,1 |
0,1 |
0,1 |
0,1 |
0,1 |
0,1 |
Обычно, прогноз содержит следующую информацию о величине X:
диапазон значений величины X,
среднее значение
,среднее квадратическое отклонение S,
интервал наиболее вероятных значений величины X,
долю значении величины X, попадающих в заданный промежуток.
По данным примера 3:
время обследования автомобиля изменяется в пределах от 22 до 54 мин,
среднее
время обследования одного автомобиля
—
=
34 мин,
среднее
отклонение величины Х от ее среднего
значения
составляет S
= 10,4 мин.
Интервалом:
наиболее вероятных значений величины
X
обычно называют интервал, серединой
которого является точка
— среднее арифметическое, и в который
попадает более половины значений
величины X. Рассмотрим, например, интервал
(
-S;
+S).
Имеем:
-S=23,6
и
+S=44,4.
Из табл. 5 видно, что в интервале 23,6—44,4
содержится 5 значений величины X: 25, 30,
36, 40, 41. Их частоты соответственно равны
0,2;0,1; 0,1; 0,1; 0,1. Суммарная частота будет
0,6. Это число составляет 60% от единицы,
т.е. от суммы всех частот. Следовательно,
в интервал 23,6-44,4 попадает 60% (т.е. большая
часть) значений величины X. Таким образом,
этот интервал является интервалом
наиболее вероятных значений величины
X. Доля значений величины X. попавших в
какой-либо другой интервал, оценивается
так же. Обычно оценивают долю больших
и малых значений. В нашем примере доля
автомобилей, на обслуживание которых
затрачивается меньше 23,6 мин, составляет
20% от общего количества автомобилей (в
табл. 5 имеется одно такое значение —
22, и его частота равна 0,2). Доля автомобилей,
на обслуживание которых затрачивается
больше 44,4 мим, составляет также 20% от
общего количества автомобилей.
При обработке статистического материала используется специальная терминология. Совокупность всех рассматриваемых объектов называют генеральной совокупностью, я часть объектов, каким-либо способом выбранных для обследования, называют выборкой. В нашем примере с автомобилями генеральную совокупность образуют все автомобили города Дрюкова, а выборку — те 10 автомобилей, которые рассматривалась в примере 3.
Очень
важно сделать выборку правильно. От
этого зависит, насколько точными и:
достоверными будут полученные выводы,
результаты прогноза. В математической
статистике изучаются способы отбора,
позволяющие сделать выборку так, чтобы
полученная с ее помощью информация
давала достаточно полное и адекватное
представление об интересующем нас
признаке изучаемой генеральной
совокупности. Тогда найденные с помощью
выборки: среднее арифметическое
и D
дисперсия будут близка к гипотетическим
величинам — среднему арифметическому
и дисперсии, которые могли бы быть
получены при обработке всей генеральной
совокупности.
