БСТ 2 курс Теория Лохвицкий / Конспект_мат_стат_для_заочного_отд_
.pdf
Решение. Находим |
|
|
|
|||
|
|
|
3 4 5 10 7 25 9 8 11 3 |
|
342 |
|
|
X |
|
6,84. |
|||
|
4 10 25 8 3 |
50 |
||||
|
|
|
|
|
||
Покажем, как вычислить DB по сгруппированным данным.
Для выборочной дисперсии справедлива вычислительная формула:
(9.7)
Для этого составим таблицу
xi |
|
3 |
|
|
5 |
|
7 |
|
|
|
9 |
11 |
||
x2 |
|
9 |
|
|
25 |
|
49 |
|
|
|
81 |
121 |
||
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычислим |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
9 4 25 10 49 25 81 8 121 3 |
|
2522 |
|
|
|||||||
|
X 2 |
50, 44; |
|
|||||||||||
|
|
|
|
|
|
|
||||||||
|
|
|
|
50 |
|
|
|
50 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
( X )2 (6,84)2 |
46,7856 46,79. |
|
|
|||||||
DB 50,44 46,79 3,65.
Пример 9.5. Выборы производились по девяти избирательным округам, однородным по составу жителей. По итогам были получены следующие данные по явке избирателей (%):
Округ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
|
|
|
|
|
|
|
|
|
Явка |
32.4 |
36.1 |
28.5 |
29.6 |
34.3 |
49.1 |
33.4 |
31.8 |
35.1 |
избирателей, |
|
|
|
|
|
|
|
|
|
% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Средняя явка избирателей составила:
=
(32.4+36.1+28.5+29.6+34.3+49.1+33.4+31.8+35.1)
34,48
Оценки дисперсии вычисляем по двум формулам
,
Получаем
=
(32.42+36.12+28.52+29.62+34.32+49.12+33.42+31.82+35.12) –
34.482 32.12 |
в 5.67, |
= 
36.13, S
6.01.
Обратите внимание на существенное отличие
от
(напомним, что более точное представление о дисперсии даёт именно
, а
всегда её занижает.)
Но исходные данные содержат выброс – показатель явки в 6-ом округе не правдоподобно выделяется на фоне всех остальных. При ближайшем рассмотрении вышестоящая избирательная комиссия обнаружила многочисленные нарушения и аннулировала результаты выборов по этому округу. Давайте посмотрим, как это сказалось на общих характеристиках. Количество округов уменьшилось до 8, остальные характеристики также претерпели изменение:
= 32,65,
= 6,0625,
в = 2,426,
6,929, S
2,632.
Удаление выброса уменьшило оценки дисперсии в 5-6 раз! Этот пример наглядно показывает, что выбросы в любом случае требуют к себе особого внимания: либо они отражают реальное, но очень редкое событие и требуют отдельного исследования, либо образуют «статистическую грязь» и должны быть удалены до начала анализа. Часто причиной появления загрязняющих данных является ошибка ввода.
Замечание: Статистики
,
,
,
1в ,
2в и им подобные очень чувствительны к наличию среди
данных выбросов, т.е. ошибочных данных, существенно отличающихся от всех остальных. Поэтому желательно предварительно построить вариационный ряд и удалить из него ошибочные данные.
X , S 2 , B2 – это точечные оценки соответствующих неизвестных MX , DX и X .
Без указания степени точности такие оценки мало информативны. Поэтому рассматривают еще и
интервальные оценки неизвестных параметров (раздел 7.1.6).
Для оценки связи между наблюдаемыми в эксперименте случайными величинами широко используются методы корреляционного и регрессионного анализа. В случае парных количественных наблюдений
Xi ,Yi , 1 i n применяется коэффициент выборочной корреляции Пирсона
|
|
|
n |
|
|
|
|
|
|
|
|||
|
|
|
X i |
X |
Yi |
Y |
|
|
|||||
|
|
i 1 |
|
|
|
|
|
, |
(9.21) |
||||
r |
|
|
|
|
|
|
|||||||
|
|
|
n |
n |
|
||||||||
|
|
|
X i |
|
2 |
Yi |
|
2 |
|
||||
|
|
|
X |
Y |
|
||||||||
|
|
|
i 1 |
i 1 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
который показывает, насколько хорошо зависимость между случайными величинами может быть описана линейной функцией. Для качественной
оценки тесноты связи измеряемых величин используют шкалу Чеддока,
приведенную в табл. 1.
Таблица 1.
Шкала Чеддока для оценки линейной связи двух случайных величин
Значение |
модуля |
коэффициента |
Теснота связи |
|
корреляции r |
||||
|
||||
|
0,1 0,3 |
Слабая |
||
|
0,3 0,5 |
Умеренная |
||
|
0,5 0,7 |
Заметная |
||
|
0,7 0,9 |
Высокая |
||
|
0,9 0,99 |
Весьма высокая |
||
5. Найти выборочный коэффициент корреляции для пары случайных величин:
Y |
0 |
1 |
2 |
X |
|
|
|
0 |
30 |
10 |
10 |
2 |
10 |
20 |
20 |
Решение:
Y |
0 |
1 |
2 |
nx |
X |
|
|
|
|
0 |
30 |
10 |
10 |
50 |
2 |
10 |
20 |
20 |
50 |
ny |
40 |
30 |
30 |
N=100 |
Для данной выборки вычислим следующие числовые характеристики: 1) выборочные средние
где
– объем выборки (в нашем случае
. Несмещенные оценки дисперсий
Несмещенные выборочные среднеквадратические отклонения:
Подставим данные коэффициенты в формулу для вычисления выборочного коэффициента корреляции 
Ответ: 0,255
