
- •Тема 1: Предмет задачи и организация статистики.
- •Тема 2: Статистическое наблюдение.
- •Тема 3: Сводка и группировка данных статистического наблюдения.
- •Саудовская Аравия
- •Число живущих в квартире
- •Тема 4: Статистические величины.
- •Средняя себестоимость одной ст. Машины, тыс. Руб../шт
- •Средний уровень оплаты труда ( ):
- •Тема 5: Изучение динамики общественных явлений.
- •Тема 6. Выравнивание вариационных рядов (построение теоретических распределений)
- •Тема 7: индексы.
- •Реализация овощной продукции
- •Рассчитать средний арифметический индекс.
- •Тема 8: Понятие о статистической и корреляционной связи. (Корреляционно – регрессионный анализ).
- •Таб. 8.2. Расчетная таблица для определения
- •Вспомогательная таблица
- •Таб.8.8. Расчетная таблица для определения
- •Тема 9: Общие вопросы анализа и обобщения статистических данных.
- •Анализ и прогнозирование тенденции.
- •Выявление периодической компоненты. Модели сезонных колебаний:
- •Список рекомендуемой литературы.
Тема 6. Выравнивание вариационных рядов (построение теоретических распределений)
Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении ее характера. Основной путь в выявлении закономерности распределения – построение вариационных рядов для достаточно больших совокупностей. Большое значение для выявления закономерностей распределения имеет правильное построение самого вариационного ряда: выбор числа групп и размера интервала варьирующего признака.
Когда мы говорим о характере, типе закономерности распределения, то имеем в виду отражение в нем общих условий, определяющих вариацию. При этом речь всегда идет о распределениях качественно однородных явлений. Общие условия, определяющие тип закономерности распределения, познаются анализом сущности явления, тех его свойств, которые определяют вариацию изучаемого признака. Следовательно, должна быть выдвинута какая-то научная гипотеза, обосновывающая определенный тип теоретической кривой распределения.
Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариантов (значений признака). Теоретическое распределение может быть выражено аналитически – формулой, которая связывает частоты вариационного ряда и соответствующие значения признака. Такие алгебраические формулы носят название законов распределения.
Из многих форм кривых распределения, по которым может выравниваться вариационный ряд, есть необходимость ознакомиться с двумя: нормальным распределением и распределением Пуассона.
График
нормального распределения имеет форму
колоколообразной кривой, симметричной
относительно
,
концы которой асимптотически приближаются
к оси абсцисс. Она имеет точки перегиба,
абсциссы которых находятся на расстоянии
от центра симметрии. Эта кривая выражается
уравнением:
где у – ордината кривой нормального распределения;
- нормированные
отклонения.
-2
-
+
+2
Рис.6.1. Кривая нормального распределения
При выравнивании вариационного ряда по кривой нормального распределения теоретические частоты ряда определяются по формуле
где N= f – сумма всех частот вариационного ряда;
h – величина интервала в группах (классах);
- среднее квадратическое отклонение;
- нормированное отклонение вариантов от средней арифметической.
Значение
ординат кривой нормального распределения
будет соответствовать величине
, которая табулирована и определяется
по таблицам значений данной функции
(t).
Как видно из формулы, основными параметрами кривой нормального распределения являются и . По этим характеристикам ее и можно построить.
Распределение Пуассона. В целом ряде случаев, если вариационный ряд представляет собой распределение по дискретному признаку, где по мере увеличения значений признака х частоты резко уменьшаются и где средняя арифметическая ряда равна или близка по значению к дисперсии, т.е. =2, то такой ряд можно выровнять по кривой Пуассона, аналитическое выражение которой
Где Рх – вероятность наступления отдельных значений х;
– средняя
арифметическая ряда.
Рх
Х
Рис. 6.2. Кривая Пуассона.
Теоретические частоты при выравнивании эмпирических данных определяются по формуле
,
где f ’- теоретические частоты;
N – общее число единиц ряда.
Гипотезы о распределениях заключаются в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определенному закону. Проверка гипотезы состоит в том, чтобы на основании сравнения фактических (эмпирических) частот с предполагаемыми (теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению. Может проводиться и сравнение частостей.
Под гипотетическим распределением необязательно понимается нормальное распределение. Может быть выдвинута гипотеза о биноминальном распределении, распределении Пуассона и т.д. Причина частого обращения к нормальному распределению в том, что в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из них не имеет преобладающего влияния. Закон нормального распределения лежит в основе многих теорем математической статистики, применяемых для оценки репрезентативности выборок, при измерении связей и т.д. В социально-экономической статистике нормальное распределение встречается редко, но сравнение с ним важно для выяснения степени и характера отклонения от него фактического распределения.
Можно отметить, что близость средней арифметической величины, медианы и моды указывает на вероятное соответствие изучаемого распределения нормальному закону. Но более полная и точная проверка соответствия распределения гипотезе о нормальном или другом законе распределения производится с использованием специальных критериев согласия.
Критерии согласия.
После выравнивания ряда, т.е. нахождения теоретических частот, возникает необходимость проверить, случайны или существенны расхождения между эмпирическими и теоретическими частотами, и тем самым проверить правильность выдвинутой при выравнивании ряда гипотезы о наличии того или иного характера распределения в эмпирическом ряду.
Для оценки близости эмпирических (f) и теоретических (f ’ ) частот можно применить один из критериев согласия: критерий Пирсона (2 – «хи-квадрат»), критерий Романовского, критерий Колмогорова ( - «лямбда»).
Критерий Пирсона (2) представляет собой сумму отношений квадратов расхождений между f и f ‘ к теоретическим частотам:
.
Фактическое значение 2 сравнивают с критическим, определяемым по специальным таблицам в зависимости от принимаемого уровня значимости и числа степеней свободы.
Уровень значимости () – вероятность допуска ошибки в утверждении гипотетического закона (характера) распределения – обычно принимается равным 5 % или 1 % (=0,05 или =0,01).
Число степеней свободы (k) рассчитывается как число групп (m) в ряду распределения минус единица и минус число параметров эмпирического распределения, использованных для нахождения теоретических частот. Так, при выравнивании по кривой нормального распределения число степеней свободы k = m-1-2, поскольку при расчете теоретических частот используется два параметра эмпирического распределения: и , т.е. k = m –3.
Если фактическое 2 оказывается меньше табличного (критического), то расхождения между эмпирическими и теоретическими частотами можно считать случайными.
При отсутствии таблиц для оценки случайности расхождений теоретических и эмпирических частот можно воспользоваться критерием Романовского
Если указанное отношение меньше 3, то расхождения считают случайными, если больше 3, то они существенны.
Критерий Колмогорова () основан на определении максимального расхождения между накопленными частостями или частотами эмпирического и теоретического распределений:
где d – максимальная величина расхождений между накопленными частостями;
N – число наблюдений, или сумма всех частот.
Если пользоваться не накопленными частостями, а частотами (абсолютными показателями), то формула примет вид
где D – максимальная разность между накопленными частотами;
N – сумма всех частот.
Рассмотрим несколько примеров расчета критериев согласия.
Пример1.
Пусть имеется следующее распределение 200 проб нити по крепости (графы 1 и 2 таблицы).
Исходя из гипотезы о нормальном распределении результатов испытаний необходимо выравнять ряд по кривой нормального распределения (т.е. рассчитать теоретические частоты) и оценить близость эмпирических и теоретических частот с помощью критериев согласия: Пирсона (2), Романовского и Колмогорова ().
Крепость нити, г |
Число проб |
Середина интервала |
|
|
(t) |
154*(t)f ‘ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
120 – 130 |
1 |
125 |
-36,4 |
-2,80 |
0,008 |
1 |
130 – 140 |
8 |
135 |
-26,4 |
-2,03 |
0,051 |
8 |
140 – 150 |
27 |
145 |
-16,4 |
-1,26 |
0,180 |
28 |
150 – 160 |
58 |
155 |
-6,4 |
-0,49 |
0,354 |
55 |
160 – 170 |
56 |
165 |
3,6 |
0,28 |
0,384 |
59 |
170 – 180 |
34 |
175 |
13,6 |
1,05 |
0,230 |
35 |
180 – 190 |
14 |
185 |
23,6 |
1,82 |
0,076 |
12 |
190 – 200 |
2 |
195 |
33,6 |
2,58 |
0,014 |
2 |
Итого |
200 |
- |
- |
- |
- |
200 |
Для нахождения теоретических частот используем формулу:
,
или
где - нормированные отклонения от средней, т.е. и - основные параметры кривой нормального распределения.
С них и начнем свои расчеты. Опуская вычисления, запишем результаты:
= 161,4;
= 13.
Дальнейшие расчеты таковы:
находим отклонения отдельных вариантов от средней (графа 4);
делим каждое отклонение на , т.е. находим нормированные отклонения (графа 5);
зная t, находим по таблицам (t) (графа 6);
рассчитаем постоянный множитель const = Nh/. В нашем примере const = 200*10/13 = 154;
умножая последовательно 154 на (t)и округляя результаты до целых чисел, находим теоретические частоты (графа 7).
Как видно из таблицы, теоретические частоты (f ‘) , близки к эмпирическим (f), хотя отдельные расхождения имеют место.
Для суждения о случайности или существенности этих расхождений используем ряд критериев согласия:
Критерий Пирсона:
Расчет этого критерия рассмотрен в таблице:
f |
f ‘ |
f – f ‘ |
(f – f ‘)2 |
(f – f ‘)2/f ‘ |
1 |
1 |
0 |
0 |
0 |
8 |
8 |
0 |
0 |
0 |
27 |
28 |
-1 |
1 |
0,04 |
58 |
55 |
3 |
9 |
0,16 |
56 |
59 |
-3 |
9 |
0,15 |
34 |
35 |
-1 |
1 |
0,03 |
14 |
12 |
2 |
4 |
0,33 |
2 |
2 |
0 |
0 |
0 |
200 |
200 |
- |
- |
2 = 0,71 |
В рассматриваемом примере ряд имеет 8 групп (классов) вариантов, следовательно, и 8 групп частот. Поэтому число степеней свободы для последних (при выравнивании по кривой нормального распределения) k = 8 – 3 = 5. Примем наиболее часто используемый уровень значимости = 0,05 и обратимся к таблицам («Значения 2 – критерия Пирсона» при различных значениях уровня значимости (0,05; 0,01 и т.д.)).
По таблицам значений 2- критерия Пирсона для степеней свободы k = 5 и уровня значимости = 0,05 определяем, что 2табл.= 11,07. Так как полученное в задаче фактическое значение 2факт.= 0,71, т.е. меньше табличного, то, следовательно, можно считать случайными расхождения между эмпирическими и теоретическими частотами и выдвинутая гипотеза о близости эмпирического распределения к нормальному не опровергается.
Применим критерий Романовского:
Поскольку 1,4 3, то можно считать расхождения между эмпирическими и теоретическими частотами случайными.
Попробуем проверить нашу гипотезу с помощью критерия Колмогорова ( ). Для этого запишем накопленные частоты эмпирического и теоретического распределений и найдем максимальный разрыв между ними:
f |
f ’ |
Накопленные частоты |
s – s’ |
|
эмпирическое (s) |
теоретическое (s’) |
|||
1 |
1 |
1 |
1 |
0 |
8 |
8 |
9 |
9 |
0 |
27 |
28 |
36 |
37 |
1 |
58 |
55 |
94 |
92 |
2 |
56 |
59 |
150 |
151 |
1 |
34 |
35 |
184 |
186 |
2 |
14 |
12 |
198 |
198 |
0 |
2 |
2 |
200 |
200 |
0 |
Максимальный
разрыв D
= 2, поэтому
=
По таблицам значений функции P() находим для = 0,2, что Р = 1,000. Следовательно, вполне можно полагать, что расхождения между f и f ‘ носят случайный характер.
Пример 2.
В течение рабочей недели производилось наблюдение за работой 50 станков и регистрировались неисправности, требовавшие остановки станков для их регулировки. Результаты наблюдений следующие:
Число неисправностей (х) |
0 |
1 |
2 |
3 |
4 |
5 |
Число станков (f) |
14 |
16 |
10 |
7 |
2 |
1 |
Требуется:
1) вычислить вероятности и теоретические частоты числа неисправностей, считая, что распределение последних подчиняется закону Пуассона;
оценить близость эмпирических и теоретических частот с помощью критериев Пирсона, Романовского и Колмогорова.
Решение:
а) Рассчитаем среднее число неисправностей:
б) Находим
по таблицам значение
=0,2466.
в) Подставляя
в формулу
значения
=
0,1,2,3,4,5 получаем вероятности числа
неисправностей от 0 до 5.
г) Умножив последние на 50 (общее число единиц распределения), получим теоретические частоты числа неисправностей, т.е.
.
Значения
и
(округленные
до целого числа) показаны в приводимой
ниже таблице:
|
(теоретические частоты)= 50 |
0,2466 |
12 |
0,3452 |
17 |
0,2417 |
12 |
0,1128 |
6 |
0,0395 |
2 |
0,0111 |
1 |
Итого |
50 |
Для оценки близости эмпирических и теоретических частот воспользуемся критериями Пирсона, Романовского и Колмогорова.
Критерий Пирсона: .
Все расчеты показаны в таблице:
|
f |
f ‘ |
f - f ‘ |
(f - f ‘ )2 |
(f - f ‘ )2/f ‘ |
0 |
14 |
12 |
2 |
4 |
0.33 |
1 |
16 |
17 |
-1 |
1 |
0.06 |
2 |
10 |
12 |
-2 |
4 |
0.33 |
3 |
7 |
6 |
1 |
1 |
0.17 |
4 |
2 |
2 |
0 |
0 |
0 |
5 |
1 |
1 |
0 |
0 |
0 |
Фактическое
значение
.
Находим
критическое (табличное) значение
при k
= 6 – 2 =4 и
,
.
Так как
,
т.е. 0.89
9.49, то имеем все основания считать
расхождения между эмпирическими и
теоретическими частотами случайными,
а следовательно, не опровергнутой
гипотезу о том, что распределение числа
неисправностей подчиняется закону
Пуассона.
Применим критерий Романовского: =
.
Следовательно, расхождения случайны.
По критерию Колмогорова получаем: .
Накопленные частоты |
|
|
Эмпирические (s) |
Теоретические (s‘ ) |
|
14 |
12 |
2 (D) |
30 |
29 |
1 |
40 |
41 |
1 |
47 |
47 |
0 |
49 |
49 |
0 |
50 |
50 |
0 |
Таким
образом,
.
По таблицам
находим, что P(
)
1.
Итак, все три критерия оценивают расхождения между эмпирическими и теоретическими частотами как случайные, не опровергая тем самым выдвинутую гипотезу о том, что распределение станков по числу неисправностей подчиняется закону Пуассона.