5. Ряды распределения.
Распределение единиц совокупности на группы по вариационному признаку в определенном порядке представляет собой в статистике ряд распределения. По виду признака ряды распределения бывают атрибутивными и вариационными.
Атрибутивные – ряды распределения, построенные по качественным признакам. Примером атрибутивных рядов могут быть текущие затраты на охрану различных элементов природы (таблица 3.10).
Таблица 3.10.
Динамика текущих затрат на охрану природы в Тамбовской области за 1996-1999 годы (млрд. руб.).
№ п/п. |
Виды затрат |
1996 |
1998 |
1999 |
||||
Млрд. руб. |
% |
Млрд. руб. |
% |
Млрд. руб. |
% |
|||
1 |
По охране атмосферного воздуха. |
66,2 |
25,5 |
50,2 |
24,2 |
15,7 |
10,5 |
|
2 |
По охране и рациональному использованию водных ресурсов. |
187,3 |
71,9 |
152,4 |
73,6 |
126,0 |
84,2 |
|
3 |
По охране отходов производства и потребления. |
7,0 |
2,6 |
4,6 |
2,2 |
8,0 |
5,3 |
|
|
Всего |
260,5 |
100 |
207,2 |
100 |
149,7 |
100 |
|
|
В%% к 1996 году. |
|
100 |
- |
79,5 |
- |
57,5 |
|
По данным таблицы 3.10 можно исследовать изменение общих затрат на охрану природы. Они сократились в 1999 по сравнению с 1996 на 42,5% или на 110,8 млрд.руб.
Вариационные ряды – ряды распределения, построенные по количественному признаку.
Вариационный ряд состоит из двух элементов: вариантов и частот. Варианты – отдельные конкретные значения признака в вариационном ряду. Частоты – числа, показывающие как часто встречаются те или иные варианты в ряду распределения. При этом сумма всех частот составляет численность всех единиц совокупности.
Частости – частоты, выраженные в % или долях к итогу. В зависимости от характера вариации (прерывной или непрерывной) количественных признаков вариационные ряды подразделяются на: дискретные и интервальные.
Дискретный вариационный ряд – ряд распределения совокупности по величине количественного признака только с целыми значениями.
Примером дискретного ряда может быть разряд рабочего, количество комнат, количество детей в семье и т.д. (таблица 3.11).
Таблица 3.11.
Зависимость производительности труда рабочего от его разряда.
№ п/п. |
Разряд рабочего |
Средняя дневная выработка продукции, руб. |
В % к 1 ряду |
1 |
1 |
196 |
100,0 |
2 |
2 |
258 |
131,6 |
3 |
3 |
270 |
137,8 |
4 |
4 |
292 |
150,0 |
5 |
5 |
359 |
183,6 |
6 |
6 |
400 |
204,1 |
В таблице 3.11 в первой колонке представлены варианты дискретного ряда, во второй – частоты вариационного ряда, в третьей – частости.
Вариационный интервальный ряд – ряд распределения единиц совокупности по величине количественного признака, величина которого может принимать в определенных пределах любые значения при непрерывной вариации.
Анализировать характер изменения частот, форм рядов распределения лучше и нагляднее всего при помощи их графического изображения, т.е. с помощью гисторгаммы, полигона распределения, кумуляты, антикумуляты и огивы, вычерченных на основе таблицы 3.12.
Таблица 3.12.
Расчетная таблица распределения фермерских хозяйств по уровню урожайности зерно-бобовых культур (ц/га.)
№ п/п |
Xi |
Fi |
Xi |
Xi* Fi |
Si |
Si |
Частости |
Строки |
|||
% |
Доли |
Мо |
Ме |
Qi |
|||||||
1 |
8-10 |
8 |
9 |
72 |
8 |
60 |
13,3 |
0,133 |
|
|
|
2 |
10-12 |
10 |
11 |
110 |
18 |
52 |
16,7 |
0,167 |
|
|
Q1 |
3 |
12-14 |
17 |
13 |
221 |
35 |
42 |
28,3 |
0,283 |
Мо |
Ме |
Q2 |
4 |
14-16 |
12 |
15 |
180 |
47 |
25 |
20,0 |
0,200 |
|
|
Q3 |
5 |
16-18 |
7 |
17 |
119 |
54 |
13 |
11,7 |
0,117 |
|
|
|
6 |
18-20 |
4 |
19 |
76 |
58 |
6 |
6,7 |
0,067 |
|
|
|
7 |
20-22 |
2 |
21 |
42 |
60 |
2 |
3,3 |
0,033 |
|
|
|
8 |
Всего |
60 |
- |
820 |
- |
|
100 |
1,00 |
|
|
|
Гисторгамма строится путем откладывания на оси абсцисс величины интервала, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах. Если соединить середины верхних сторон прямоугольников прямыми линиями, то мы преобразуем гисторгамму в полигон распределения (рис.3.12).
На основании этого графика можно определить численное значение часто встречаемой в нашей совокупности средней структурной величины, которая называется мода. Для этого левый угол самого высокого прямоугольника соединяем прямой линией с левым углом последущего прямоугольника, а правый угол самого высокого прямоугольника соединяем тоже прямой линией с правым углом предыдующего прямоугольника. Затем из полученной точки пересечения “п” опускаем перпендикуляр до пересечения с осью абсцисс. Точка пересечения с осью абсцисс и обозначит нам численное значение моды (Мо). В нашем примере она будет равна 13,16.
Численное значение моды, если нет графика, можно определить математическим способом по формуле:
,
где Xmo – минимальное значение Х модальной строки, которая определяется по наибольшей частоте;
Fmo – численное значение частоты в модальной строке;
F-1 – численное значение частоты в предмодальной строке;
F+1 – численное значение частоты в послемодальной строке.
В нашем примере мода будет равна:
.
F
i
1
8
16
1
4
1
2
1
0
8
6
4
2
8 10 12 Mo 14 16 18 20 2 Xi
Рис.3.1 График гистограммы, полигона распределения, определение моды по данным таблицы 3.11 (равные интервалы).
Чтобы построить гистограмму распределения вариационного ряда с неравными интервалами на оси ординат откладываются частоты, а плотность распределения признака в соответствующих интервалах. Это делается для устранения влияния величины интервала на распределение. Плотность распределения – частота, рассчитанная на единицу ширины интервала, т. е. сколько единиц совокупности в каждой группе приходится на единицу ширины интервала. Пример расчета и построение гистограммы по вариационному ряду представлены в таблице 3.13 и на рис. 3.2.
Таблица 3.13.
Распределение предприятий по уровню рентабельности, % (данные условные).
№ п/п |
% рентабельности |
Число предприятий |
Величина интервала |
Плотность распределения |
1 |
0-2 |
1 |
2 |
0,5 |
2 |
2-6 |
6 |
4 |
1,5 |
3 |
6-12 |
18 |
6 |
3,0 |
4 |
12-24 |
16 |
12 |
1,3 |
5 |
24-30 |
4 |
6 |
0,7 |
6 |
30-36 |
3 |
6 |
0,5 |
|
Всего |
48 |
- |
- |
Кумулята – кривая, построенная на основании накопленных частот, начиная от минимального и заканчивая максимальным значением признака в совокупности (Xi).
Антикумулята – кривая, построенная на основании накопленных частот (Si), начиная от максимального и заканчивая минимальным значением признака в совокупности. Однако, профессор Елисеева И.И. называет ее “огивой”, в то время как огива – это перевернутая на 180 градусов кумулята и ее изображение не совпадают с антикумулятой.
m
3,0
2,0
1,0
0,5
0 1 2 6 12 24 30 36 Xi
Рис.3.2 График гистограммы вариационного ряда с неравными интервалами, построенная на основании таблицы 3.13.
Накопленные частоты (S) рассчитываются путем последовательного суммирования частот (Fi) по группам.
Кумулята и антикумулята строятся путем откладывания по оси абсцисс, как и при построении гистограммы, значений вариантов ряда, с выставлением перпендикуляров, а по оси ординат откладывается накопленная частота. Соединяя полученные точки пересечения, получаем кривые линии в виде кумуляты и антикумуляты (рис.3.3) с точкой пересечения “ м” на поле графика. Если теперь из точки “м” опустить перпендикуляр на ось абсцисс, то точка пересечения с ней покажет нам численной значение средней взвешенной величины, называемой медианой (рис.3.3).
Медиана – средняя структурная величина, показывающая численное значение признака, находящегося в середине ранжированного ряда. На нашем графике она равна 13,41%.
Fi
60 . кумулята
56
52
48
42
38
34
30
26 антикумулята
22
18
14
10
6
8 10 12 Me 14 16 18 20 22 Х
Рис.3.3 График кумуляты и антикумуляты с равными интервалами, построенными на основании таблицы 3.12.
Если нет графика, численное значение медианы в статистической совокупности можно рассчитать по математической формуле:
,
где Xme- нижнее значение медианной строки;
S-1-численной значение накопленной частоты в передмедианной строке;
Fme - частота медианной строки;
n- количество единиц совокупности.
Медианная строка определяется по численному значению накопленной частоты (S), приближенной к номеру медианы, определяемого по формуле:
N=0,5*(n+1) – при нечетном числе единиц совокупности;
N=0,5*n – при четном числе единиц совокупности.
По данным таблицы 12 численное значение медианы будет равно 13,12%, как и на рис 3.3
.
Если при графическом изображении вариационного ряда (таблица 3.12) в виде кумуляты численные значения fi и xi поменять местами, то мы получим огиву (рис.3.4).
X
i
22
20
18
16
14
12
10
8
6 12 18 24 30 36 42 54 60 Fi
Рис.3.4 График огивы с равными интервалами, построенный по данным таблицы 3.12.
Аналогично медиане вычисляется среднее значение признака, в разделенной на равные четыре части совокупности. Эти четыре части называют квартилями и обозначают буквой Q с подписным значком номера. Понятно, что Ме совпадает с Q2. Для первой и третьей квартилей приводим формулы и расчет средних значений по данным таблицы 3.12.
Так как Q2=Ме=13,41, то разница между Ме и первой квартилью (13,41-11,4=2,01) меньше, чем между медианой и третьим квартилем (15,67-13,41=2,26), что свидетельствует о наличии несимметричности в средней области распределения. Это было уже заметно по гистограмме.
Если разделить вариационный ряд на 5 частей, то среднее значение каждой части будет называться квинтилями, на 10 частей – децилями. Так как эти средние величины применяются, для подробного изучения структуры вариационного ряда, не столь часто, подробно их рассматривать здесь не будем.
6.СРАВНИМОСТЬ СТАТИСТИЧЕСКИХ ГРУППИРОВОК.
Группировки, построенные для анализа явлений с разным количеством групп, величиной интервалов и т.д. оказываются, как правило, не сопоставимыми. Чтобы привести такие группировки к сопоставимому виду используется метод построения вторичной группировки, т. е. метод перегруппировки единиц совокупности без обращения к первичным данным.
Существует два способа образования новых групп: объединение мелких первоначальных интервалов в крупные и разокрупнение крупных, особенно неравных интервалов в равные и более мелкие.
Построение вторичных группировок для объективного сравнения с равными интервалами, на базе группировок с неравными интервалами, покажем на следующем конкретном примере. Допустим, мы имеем вариационную таблицу колеблемости урожайности озимой пшеницы, в зависимости от размера площади в ряде фермерских хозяйств (Таблица 3.14).
Сначала, для вариационного ряда с неравными интервалами рассчитаем абсолютную или относительную плотности распределения в группах по следующим формулам:
;
,
где
fi – частота, выраженная в абсолютных единицах;
wi – частость (частота), выраженная в относительных единицах;
hi – величина интервалов.
В нашем примере, зная относительную плотность распределения по группам (сколько % приходится на одну учетную единицу в признаке) можно определить частости соответствующего нового интервала по формуле:
Таблица 3.14.
Изменение урожайности озимой пшеницы в цен/га в группах фермерских хозяйств в зависимости от размера посевной площади.
№ п/п |
От 10 до 30 га |
От 30 до 100 га |
||||||||
Вариация урожайности цен/га |
показатели |
Вариация урожайности цен/га |
Показатели |
|||||||
hi |
Wi |
hi |
Wi |
|||||||
1 |
16-20 |
4 |
20 |
12-16 |
4 |
10 |
||||
2 |
20-30 |
10 |
40 |
16-20 |
4 |
30 |
||||
3 |
30-40 |
10 |
30 |
20-24 |
4 |
10 |
||||
4 |
40 и более |
4 |
10 |
24-28 |
4 |
15 |
||||
5 |
Всего |
- |
100 |
28-36 |
8 |
25 |
||||
6 |
|
|
|
36-40 |
4 |
10 |
||||
7 |
|
|
|
Всего |
- |
100 |
||||
В нашем примере предстоит сначала рассчитать новые величины интервалов и их частости в группах фермерских хозяйств с посевной площадью озимой пшеницей от 10 до 30 га.
В первой строке величины интервалов совпадают (h=4), поэтому wi как в первой, так и во второй группах фермерских хозяйств оставляют без изменений: соответственно 20% и 10%.
Во второй строке фермерских хозяйств величина интервала равна не 4 цен/га, как во втором, а 10 (от 20 до 30 га), поэтому определяем относительную плотность распределения (Mot):
Тогда общая частость второй строки в 40% будет расчлена на новые значения частости с единой величиной интервала 4 цен/га следующим образом:
с
урожайностью 20-24 цен/га.
с
урожайностью 24-28 цен/га.
Оставшиеся 8% частостей (40%-32%) составляют только 0,5 части строки (8%/16%), т.е. только 2 единицы, а не 4, поэтому 8% хозяйств будет перенесено в другую группу с урожайностью 28-32 цен/га.
В третьей строке первой группы фермерских хозяйств относительная плотность распределения будет равна (%):
Тогда четвертая строка будет сформирована из 0,5 строки с интервалом 28-30 цен/га и 0,5 строки с интервалом 28-32 цен/га, т.е.:
W4= 4% * 2 + 3% * 2 = 8% + 6% = 14%
W 5, W 6 , cоответственно, будут равны 12% (3%*4).
Таким образом, общая величина частости 30% в третьей строке первой группы фермерских хозяйств величина интервала равна 4 цен/га, поэтому=10% корректировке не будет подлежать.
В пятой строке первой группы фермерских хозяйств величина интервала равна 8цен/га, а не 4, поэтому для нее рассчитываем относительную плотность распределения, которая будет равна 3,125%
Тогда частости во второй группе фермерских хозяйств будут равны 12,5%
w5= 3,125%*4=12,5% с урожайностью 28-32 га
w6=3,125%*4=12,5% с урожайностью 32-36 га.
Таким образом, общая величина частостей в 25% в пятой строке второй группы фермерских хозяйств (12,5%+12,5%).
С учетом проведенных расчетов построим таблицу 3.15 для сравнения структур распределения групп по уровню урожайности в хозяйствах 1 и 2 групп.
Таблица 3.15.
Группировка фермерских хозяйств по уровню урожайности озимой пшеницы (цен/га.) в зависимости от посевной площади.
№ п/п |
Группы фермерских хозяйств по уровню урожайности (цен/га) |
1 группа. посевная площадь от 10 до 30 га |
2 группа. Посевная площадь от 30 до 100 га |
1 |
12-16 |
- |
10,0 |
2 |
16-20 |
20 |
30,0 |
3 |
20-24 |
16 |
10,0 |
4 |
24-28 |
16 |
15,0 |
5 |
28-32 |
14 |
12,5 |
6 |
32-36 |
12 |
12,5 |
7 |
36-40 |
12 |
10,0 |
8 |
40 и более |
10 |
- |
9 |
Итого |
100% |
100% |
Из таблицы 3.15 видно, что с увеличением посевных площадей во второй группе фермерских хозяйств, уровень урожайности озимой пшеницы имеет тенденцию к снижению: 40% хозяйств с урожайностью от 12 до 20 цен/га., а в первой группе только 20%; 35% хозяйств с урожайностью от28 до 40 цен/га, а в первой группе таких хозяйств 38%; во второй группе нет ни одного хозяйства с урожайностью более 40 цен/га., а в первой группе их 10%.
