Структурная группировка статистических наблюдений на транспорте.
По объемам перевезенных грузов произвести структурную группировку
Таблица 1.1
Средние данные о численности работников и объеме перевезенных грузов по ряду АТП
№ АТП |
Среднесписочная численность, чел |
Объем перевезенного груза, тыс.т. |
1 |
3587,5 |
7927,5 |
2 |
2947 |
8869 |
3 |
1151,5 |
1946 |
4 |
1442 |
4973,5 |
5 |
2642,5 |
10990 |
6 |
2415 |
9222,5 |
7 |
3220 |
9369,5 |
8 |
1897 |
6279 |
9 |
3234 |
14388,5 |
10 |
2520 |
12348 |
11 |
1785 |
3300,5 |
12 |
3920 |
6860 |
13 |
1498 |
4928 |
14 |
2873,5 |
13447 |
15 |
1676,5 |
3871 |
16 |
2887,5 |
10132,5 |
17 |
2597 |
4672,5 |
18 |
1137,5 |
4095 |
19 |
1452,5 |
3195,5 |
20 |
2838,5 |
10272,5 |
Определить количество группы в выборке по формуле Стерджесса
Подсчитать величину интервала
Для изучения структуры предприятий одной отрасли промышленности по выпуску продукции, пользуясь данными из задания, построим статистический ряд распределения предприятий по сумме произведенной продукции.
Величину равновеликого интервала для образования шести групп находим по формуле:
= ,
где Xmax - максимальной значение признака, X min - минимальное значение признака, n - число групп
Отсюда путем прибавления величины интервала к минимальному уровню признака (в данном случае 1946 тыс. т.) найденное значение интервала получаем верхнюю границу первой группы: 1946 + 2488,4= 4434,4
Прибавляя далее величину интервала к верхней границе первой группы, получаем верхнюю границу второй группы: 4434,4 + 2488,4 = 6922,8. В результате получим следующие группы предприятий по размеру выпуска продукции (табл. 1.2).
Построить интервальный ряд распределения
Таблица 1.2
Группировка данных по объемам перевезенных грузов
Группы предприятий по объему перевезенных грузов, тыс. т. |
№ АТП |
Среднесписочная численность, чел. |
Объем перевезенного груза, тыс. т. |
1 |
2 |
3 |
4 |
1946 – 4434,4 |
3 |
1151,5 |
1946 |
11 |
1785 |
3300,5 | |
15 |
1676,5 |
3871 | |
18 |
1137,5 |
4095 | |
19 |
1452,5 |
3195,5 | |
Итого |
5 |
7203 |
16408 |
4434,4 – 6922,8 |
4 |
1442 |
4973,5 |
8 |
1897 |
6279 | |
12 |
3920 |
6860 | |
13 |
1498 |
4928 | |
17 |
2597 |
4672,5 | |
Итого |
5 |
11354 |
27713 |
6922,8 – 9411,2 |
1 |
3587,5 |
7927,5 |
2 |
2947 |
8869 | |
6 |
2415 |
9222,5 | |
7 |
3220 |
9369,5 | |
Итого |
4 |
12170 |
35389 |
9411,2 – 11899,6 |
5 |
2642,5 |
10990 |
16 |
2887,5 |
10132,5 | |
20 |
2838,5 |
10272,5 | |
Итого |
3 |
8368,5 |
31395 |
11899,6 - 14388 |
9 |
3234 |
14388,5 |
10 |
2520 |
12348 | |
14 |
2873,5 |
13447 | |
Итого |
3 |
8627,5 |
40184 |
ВСЕГО: |
20 |
47723 |
151089 |
Рассчитать среднюю арифметическую по объемам перевезенных грузов
Средние величины – основные обобщающие показатели, используемые при анализе статистических таблиц.
Средние величины должны рассчитываться лишь для качественно однородных совокупностей.
Из средних величин наиболее часто встречаются средняя арифметическая простая х =∑xi/ п и средняя арифметическая взвешенная х =∑xi fi/ ∑fi, где х. — отдельные значения признака, варианты: fi— веса каждого варианта. Взвешенная применяется в тех случаях, когда отдельные значения признаков повторяются. Если вместо абсолютных частот в распределении имеются частости (wi), выступающие в роли весов, то тогда х =∑xi wi (если wi выражены в долях, ∑wi = 1) или х =∑xiwi/ ∑wi (если wi выражены в процентах, ∑wi = 100).
Таблица 1.3
Структурная группировка
объем перевезенного груза |
Xi |
Fi |
ωi |
Cum fi |
Cum ωi |
Xi* Fi | ||||
1946 – 4434.4 |
3190.2 |
5 |
25 |
5 |
25 |
15951 |
- 4230,28 |
-21151,4 |
17895268 |
89476340 |
4434.4 – 6922.8 |
5678.6 |
5 |
25 |
10 |
50 |
28393 |
-1741,88 |
-8709,4 |
3034145,9 |
15170729 |
6922.8 – 9411.2 |
8167 |
4 |
20 |
14 |
70 |
32668 |
746,52 |
2986,08 |
557292,11 |
2229168,4 |
9411.2 – 11899.6 |
10655.4 |
3 |
15 |
17 |
85 |
31966.2 |
3234,92 |
9704,76 |
10464707 |
31394121 |
11899.6 - 14388 |
13143.8 |
3 |
15 |
20 |
100 |
39431.4 |
5723,32 |
17169,96 |
32756391 |
98269173 |
Всего: |
40835 |
20 |
100 |
66 |
330 |
77012 |
|
|
|
|
fi – частота – численность отдельных вариантов, т.е. числа, показывающие как часто встречается в ряду распределения.
xi – середина интервала
ωi – частость – частоты, выраженные в виде относительных величин, их сумма равна 1 или 100%.
Находим по формуле
2.1 Рассчитать среднюю арифметическую взвешенную
Применяется в случае сгруппированных данных, т.е. если построен ряд распределения.
тыс. т.
Это наиболее типичный объем перевезенных грузов в данной совокупности АТП.
2.2 Подсчитать структурные средние. Графическое изображение.
Используются для изучения рядов распределения, т.е. определяется структура. К ним относятся мода (Мо) и медиана (Ме).
Мода – это наиболее часто встречаемое значение признака.
Для интервального ряда с равными интервалами мода рассчитывается по формуле
Х0— начальная (нижняя) граница модального интервала;
h — величина интервала;
f2— частота модального интервала;
f1— частота интервала, предшествующего модальному;
f3— частота интервала, следующего за модальным.
Определяется модальный интервал по столбцу частот fi находим самую большую частоту. Это и будет модальным интервалом.
Вывод: наиболее часто встречающийся объем перевезенных грузов составляет 6076,74 тыс. т.
Для графического отображения используется гистограмма.
Рис. 1.1 Гистограмма
Структурная средняя медиана – определяет среднее значение признака у средней единицы ранжированного ряда.
Для нахождения медианы (значения признака у средней единицы ранжированного ряда) сначала определяется ее порядковый номер ((∑f)/2), а затем по накопленным частотам определяется либо сама медиана (для дискретных рядов), либо медианный интервал (для интервальных рядов), в котором путем простой интерполяции рассчитывается значение медианы по формуле
Х0— нижняя граница медианного интервала;
(∑f)/2— порядковый номер медианы;
s Me-1— накопленная частота до медианного интервала;
f Me— частота медианного интервала.
тыс. т.
Вывод: у половины предприятий объем перевезенных грузов больше, чем 6922,8 тыс. т., а у другой половины меньше, чем 6922,8 тыс. т.
Для графического отыскания медианы по накопленным частотам строим кумуляту.
Рис. 1.2 Кумулята
Рассчитать показатели вариации по объемам перевезенных грузов. Сделать выводы.
Вариацией признака называется различие численных значений признака у отдельных единиц совокупности. Размеры вариации позволяют судить, насколько однородна изучаемая группа и насколько характерна средняя по группе. В показателях рассчитываются отклонения значения признака от средней величины.
В отклонении проявляется развитие явления: среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.
Среднее линейное отклонение d - это средняя арифметическая из абсолютных отклонений индивидуальных значений признака от средней арифметической. Оно показывает, насколько в среднем отличаются индивидуальные значения признака от их среднего значения.
Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты.
;
Коэффициент вариации – относительный показатель вариации используется для сравнительной оценки вариации единиц совокупности и для характеристики однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33 %.
Выражается d и S в именованных числах, также как средние арифметические, Мо и Ме.
Среднее линейное отклонение
тыс. т.
Вывод: среднее линейное отклонение индивидуальных значений от среднего составляет 2986,08 тыс. т.
Среднее квадратическое отклонение
тыс. т.
Вывод: среднее квадратичное отклонение индивидуальных значений от среднего составляет 3439,05 тыс. т.
Коэффициент вариации
Вывод: так как коэффициент вариации более 40%, то совокупность неоднородна и среднее значение выбрано ненадёжно.
Раздел II. Аналитическая группировка статистических наблюдений на транспорте.
Определить тесноту связи между фактором (среднесписочная численность на АТП) и результирующим показателем (объемами перевезенных грузов). Подсчитать коэффициент корреляции.
Основные понятия математической статистики это корреляция и регрессия.
Первая задача математичкой статистики – это изучение связей между случайными явлениями. Эту задачу решает корреляционный анализ. Он находится в зависимости от регрессионного анализа.
Регрессионный анализ решает вторую задачу математической статистики. Определяет форму связи между случайными явлениями.
Оценки, полученные с помощью регрессионного анализа, имеют большую точность, чем выше коэффициент корреляции.
С помощью аналитических (факторных) группировок исследуются связи между изучаемыми явлениями и их признаками. В основе аналитической группировки лежит факторный признак, и каждая выделенная группа характеризуется средними значениями результативного признака.
Коэффициент корреляции определяет интенсивность связи между случайными величинами и находится по формуле:
Вывод: коэффициент корреляции равен 0,69, следовательно, зависимость между случайными величинами высокая. Зависимость прямая, т.е. с ростом среднесписочной численности объемы перевезенных грузов увеличиваются.
Таблица 2.1
Аналитическая группировка
x |
y |
|
|
|
|
|
|
| |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
3587,5 |
7927,5 |
1201,38 |
373,1 |
448233,01 |
1443301,89 |
139203,61 |
11083,31 |
-3155,81 |
0,40 |
2947 |
8869 |
560,88 |
1314,6 |
737326,28 |
314580,766 |
1728173,2 |
9084,95 |
-215,95 |
0,02 |
1151,5 |
1946 |
-1234,63 |
-5608,4 |
6924270,9 |
1524298,89 |
31454151 |
3482,99 |
-1536,99 |
0,79 |
1442 |
4973,5 |
-944,13 |
-2580,9 |
2436692,2 |
891372,016 |
6661044,8 |
4389,35 |
584,15 |
0,12 |
2642,5 |
10990 |
256,38 |
3435,6 |
880801,95 |
65728,1406 |
11803347 |
8134,91 |
2855,09 |
0,26 |
2415 |
9222,5 |
28,88 |
1668,1 |
48166,388 |
833,765625 |
2782557,6 |
7425,11 |
1797,39 |
0,19 |
3220 |
9369,5 |
833,88 |
1815,1 |
1513566,5 |
695347,516 |
3294588 |
9936,71 |
-567,21 |
0,06 |
1897 |
6279 |
-489,13 |
-1275,4 |
623830,03 |
239243,266 |
1626645,2 |
5808,95 |
470,05 |
0,07 |
3234 |
14388,5 |
847,88 |
6834,1 |
5794462,5 |
718892,016 |
46704923 |
9980,39 |
4408,11 |
0,31 |
2520 |
12348 |
133,88 |
4793,6 |
641743,2 |
17922,5156 |
22978601 |
7752,71 |
4595,29 |
0,37 |
1785 |
3300,5 |
-601,13 |
-4253,9 |
2557125,6 |
361351,266 |
18095665 |
5459,51 |
-2159,01 |
0,65 |
3920 |
6860 |
1533,88 |
-694,4 |
-1065123 |
2352772,52 |
482191,36 |
12120,71 |
-5260,71 |
0,77 |
1498 |
4928 |
-888,13 |
-2626,4 |
2332571,5 |
788766,016 |
6897977 |
4564,07 |
363,93 |
0,07 |
2873,5 |
13447 |
487,38 |
5892,6 |
2871905,9 |
237534,391 |
34722735 |
8855,63 |
4591,37 |
0,34 |
1676,5 |
3871 |
-709,63 |
-3683,4 |
2613832,7 |
503567,641 |
13567436 |
5230,68 |
-1359,68 |
0,35 |
2887,5 |
10132,5 |
501,38 |
2578,1 |
1292594,9 |
251376,891 |
6646599,6 |
8899,31 |
1233,19 |
0,12 |
2597 |
4672,5 |
210,88 |
-2881,9 |
-607720,7 |
44468,2656 |
8305347,6 |
7992,95 |
-3320,45 |
0,71 |
1137,5 |
4095 |
-1248,63 |
-3459,4 |
4319493,3 |
1559064,39 |
11967448 |
3439,31 |
655,69 |
0,16 |
1452,5 |
3195,5 |
-933,63 |
-4358,9 |
4069578 |
871655,641 |
19000009 |
4422,11 |
-1226,61 |
0,38 |
2838,5 |
10272,5 |
452,38 |
2718,1 |
1229600,5 |
204643,141 |
7388067,6 |
8746,43 |
1526,07 |
0,15 |
Оценить значимость коэффициента корреляции по t-критерию Стьюдента
Коэффициенты полученные по выборочным данным могут не соответствовать коэффициентам в генеральной совокупности.
С помощью критериев значимости определяется существенность полученных коэффициентов по выборочным данным, т.е. насколько они значимы во всей генеральной совокупности с определённой вероятностью. Для экономических расчетов вероятность 95%.
Критерий Стьюдента используется для малых выборок, если n не более 20.
n -2 - число степеней свободы f.
Теоретическое значение t определяется по таблице распределения Стьюдента (приложение). Для установления значимости коэффициента корреляции проверяют гипотезу о некоррелированности случайных величин в генеральной совокупности, относительно которых подсчитан коэффициент корреляции из частичной совокупности. Если значение t, определенное по формуле, будет больше, чем значение t, полученное из таблицы распределения Стьюдента при заданном уровне значимости, то предположение о нулевом значении коэффициента корреляции в генеральной совокупности не подтверждается. Если tтабл ≥ tрасч, то в генеральной совокупности корреляции может не быть.
По исходным данным:
по t-критерию Стьюдента (tтаб = 2,101):
Вывод: tрассч < tтаб. Это означает, что в генеральной совокупности коэффициент корреляции может быть равен 0 с 95 %-ой вероятностью.
Построить поле корреляции. Подсчитать коэффициент регрессии
Полем корреляции называются нанесенные в определённом масштабе точки в прямоугольной системе координат, каждая из которых имеет две координаты (рис. 2.1).
Рис. 2.1 Линейная зависимость
Коэффициент регрессии определяет форму связи между случайными величинами и для линейной парной зависимости (y=b*x+a) рассчитывается по формуле
a=109,69
Оценить модель через среднюю ошибку аппроксимации.
Дополнительной оценкой точности аппроксимации является средняя относительная ошибка аппроксимации. Она представляет собой среднее отклонение расчетных значений от фактических.
Вывод: ошибка аппроксимации составляет 31,5%, это говорит о том, что качество модели удовлетворительно.
Определить долю влияния изучаемого фактора на результирующий показатель с помощью коэффициента детерминации
Коэффициент детерминации – это квадрат коэффициента корреляции. Он показывает в какой мере вариация результативного признака обусловлена влиянием факторов, включенных в модель.
Вывод: влияние факторов, вошедших в модель, составляет 0,5, на результативный показатель.
Вывод: влияние факторов, не вошедших в модель, составляет 0,5, на объем перевезенного груза.