2.3. Группировка статистических данных
Одним из основных и распространенных методов обработки и анализа первичной статистической информации является группировка. Например, ограничиться знанием численности всего населения нельзя. Надо знать численность мужского и женского населения, лиц, занятых в производстве, в сельском хозяйстве, размещение населения по районам и др. Подробное описание населения необходимо для государственного управления, организации хозяйства, строительства и т.д. Другими словами, от статистики требуется не только характеристика всего наблюдаемого объекта, но и знание отдельных его частей, групп. Сравнение отдельных групп позволяет сделать выводы об их различии и об их развитии. Обобщение данных о развитии групп дает представление о характере развития объекта в целом.
Чтобы иметь сведения о группах изучаемой совокупности, необходимо эту совокупность расчленить.
Расчленение множества единиц статистической совокупности на однородные группы по существенным для них признакам, называется группировкой. Несмотря на кажущуюся легкость проведения группировок и технический характер дела, эта операция является трудным этапом статистической работы.
Метод группировок позволяет решать следующие основные типы задач:
выявление социально-экономических типов;
изучение структуры явления и структурных сдвигов, происходящих в нем;
выявление связи и взаимосвязи между явлениями.
Решаются эти задачи с помощью типологических, структурных и аналитических группировок.
Прежде чем проводить любую группировку, необходимо определить группировочный признак, или основание группировки.
Основанием группировки является признак, по которому статистическая совокупность расчленена на группы.
Выбор основания группировки зависит от цели статистического исследования и предварительного экономического анализа.
Основанием группировки может служить либо атрибутивный (выражает свойства данного явления их наименованиям), либо количественный (цифровое выражение свойств данного явления) признак. Расчленение статистической совокупности на группы проиллюстрируем следующим примером.
Пусть нас интересует тарифный разряд рабочих механического цеха одного их машиностроительных предприятий. В этом цехе работает 100 человек. Информацию о разрядах рабочих нетрудно получить в отделе кадров предприятия.
Ниже приводятся эти сведения:
5 |
1 |
4 |
5 |
4 |
3 |
5 |
5 |
2 |
5 |
5 |
6 |
4 |
3 |
1 |
5 |
2 |
5 |
5 |
5 |
3 |
3 |
3 |
6 |
6 |
5 |
6 |
5 |
3 |
4 |
5 |
4 |
6 |
6 |
5 |
2 |
1 |
5 |
4 |
5 |
5 |
3 |
6 |
4 |
5 |
5 |
4 |
3 |
5 |
5 |
5 |
4 |
5 |
6 |
1 |
5 |
2 |
6 |
4 |
4 |
3 |
5 |
6 |
3 |
5 |
6 |
2 |
5 |
4 |
5 |
5 |
4 |
6 |
5 |
2 |
5 |
3 |
4 |
5 |
6 |
5 |
5 |
3 |
5 |
4 |
6 |
6 |
5 |
5 |
4 |
5 |
5 |
6 |
5 |
6 |
5 |
5 |
6 |
5 |
5 |
|
|
В этом массиве статистических данных группировочным признаком является тарифный разряд рабочих.
Для изучения этих данных их необходимо сгруппировать. Расположим численные значения признака в порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим ранжированный ряд данных, который имеет вид:
1,1,1,1 |
2,2,...2,2 |
3,3,...3,3 |
4,4. .4,4 |
5,5,...5,5 |
6,6...6,6 |
4 раза |
6 раз |
12 раз |
16 раз |
44 раза |
18 раз |
Таким образом, мы получили статистический ряд распределения – упорядоченное распределение единиц совокупности по определенному варьирующему признаку, то есть упорядоченный ряд чисел по мере их возрастания или убывания.
Из ранжированного ряда распределения следует, что признак (тарифный разряд) принял шесть различных значений: 1,2,3,4,5 и 6 разряды.
В дальнейшем различные значения одного и того же признака будем называть вариантами, а под варьированием – понимать изменения значения признака.
Если признак по своей сущности таков, что различные значения его не могут отличаться друг от друга меньше, чем на некоторую конечную величину, то говорят, что это дискретно варьирующий признак.
Тарифный разряд – это дискретно варьирующий признак: его различные значения не могут отличаться друг от друга меньше, чем на единицу. В нашем примере этот признак принял шесть различных значений или 6 вариант: варианта 1 повторилась 4 раза, варианта 2 – 6 раз, варианта 3 – 12 раз и т.д.
Варианты признака в статистике принято обозначать буквой х, а число, показывающее, сколько раз встречается варианта х в ряде распределения, называется частотой и обозначается буквой f.
Наряду с понятием частоты в статистике часто используется понятие накопленной частоты (Sf), которая показывает, во скольких наблюдениях в сумме признак х принял значение с учетом предыдущих его значений.
Для удобства пользования и анализа статистической информации результаты группировки удобно представить в табличном виде. Для нашего примера сгуппированные данные представлены в табл.1.
Таблица 1
Тарифные разряды рабочих механического цеха
Тарифный разряд, х |
Количество рабочих, f |
Накопленная частота, Sf |
1 |
4 |
4 |
2 |
6 |
10 |
3 |
12 |
22 |
4 |
16 |
38 |
5 |
44 |
82 |
6 |
18 |
100 |
ВСЕГО: |
100 |
|
Таблица, позволяющая судить о распределении частот между вариантами, называется дискретным вариационным рядом или группированной таблицей.
Итак, подведем итог.
Вариационными рядами называют ряды распределения, построенные по количественному признаку.
Любой вариационный ряд состоит как минимум из двух элементов: вариант и частот.
Варианта – отдельное значение признака, который он принимает в вариационном ряду.
Частота – число, показывающее, как часто встречаются те или иные варианты в ряду распределения.
Накопленная частота – результат последовательного суммирования частот.
В зависимости от признака, положенного в основу образования ряда различают структурные (см. предыдущий пример) и атрибутивные ряды распределения
Атрибутивными называют ряды распределения, построенные по качественным признакам.
Ниже (табл. 2) приведен пример атрибутивного ряда распределения юридической помощи адвокатов гражданам.
Таблица 2
Юридическая помощь адвокатов гражданам
№ п/п |
Виды юридической помощи |
Количество обращений за помощью |
|
всего, тыс. чел. |
в % к итогу |
||
1. |
Устные советы |
5109 |
69,43 |
2. |
Составление документов |
991 |
13,47 |
3. |
Поручения по ведению уголовных дел |
1021 |
13,87 |
4. |
Поручения по ведению гражданских дел |
238 |
3,23 |
|
ВСЕГО: |
7359 |
100,00 |
Элементами этого ряда распределения являются значения атрибутивного признака, представленного названиями видов правовой помощи, оказанной адвокатами, и числа случаев, относящихся к каждому виду и форме помощи.
Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменения структуры.
В случае непрерывного изменения численного значения наблюдаемого признака, варианта может принимать любые значения, отличающиеся друг от друга на сколько угодно малую величину. Такой признак называется непрерывно варьирующим.
Рассмотрим пример построения ряда распределения для случая, когда признак непрерывно варьирует.
Пусть, необходимо изучить выработку производственных рабочих механического цеха за 1 год. Всего рабочих в цехе работает - 117 человек. Ниже представлены сведения о выработке продукции каждым рабочим (в %):
111 |
85 |
85 |
91 |
101 |
109 |
86 |
102 |
111 |
98 |
105 |
85 |
112 |
98 |
112 |
113 |
87 |
109 |
109 |
115 |
99 |
105 |
111 |
94 |
107 |
99 |
107 |
125 |
89 |
104 |
113 |
96 |
104 |
103 |
145 |
105 |
88 |
103 |
97 |
115 |
109 |
89 |
108 |
107 |
97 |
107 |
106 |
96 |
109 |
116 |
109 |
117 |
108 |
109 |
139 |
116 |
117 |
103 |
127 |
119 |
118 |
125 |
105 |
117 |
116 |
106 |
101 |
113 |
107 |
105 |
119 |
107 |
119 |
111 |
112 |
129 |
113 |
106 |
104 |
106 |
98 |
123 |
108 |
93 |
105 |
106 |
139 |
108 |
109 |
93 |
107 |
117 |
107 |
118 |
99 |
108 |
108 |
119 |
98 |
108 |
101 |
109 |
109 |
128 |
128 |
127 |
121 |
118 |
122 |
116 |
124 |
125 |
114 |
126 |
131 |
141 |
143 |
|
|
|
В этом примере наблюдаемым признаком является выработка каждого рабочего в отчетном году, очевидно, в % к предыдущему году. Значения, принимаемые этим признаком, могут отличаться одно от другого на сколь угодно малую величину, т.е. признак может принять любое значение в некотором числовом интервале (в примере выработка округлена до целых процентов)
По приведенным данным трудно выявить характерные черты варьирования значений признака. Построение дискретного вариационного ряда также не даст желаемого результата (слишком велико число наблюдаемых вариант признака).
Для получения ясной картины объединим в группы рабочих, у которых величина выработки колеблется, например, в пределах 10%. Сгруппированные таким образом данные можно представить в виде таблицы. Эти данные представлены в табл. 3.
В таблице частоты f показывают, во скольких наблюдениях признак принял значения, принадлежащих тому или иному интервалу. Такую частоту называют интервальной.
Группированную таблицу, позволяющую судить о распределении частот между интервалами варьирования значений признака, называют интервальным вариационным рядом.
Таблица 3
Выработка рабочих механического цеха, (%)
Выработка рабочих, х |
Количество рабочих (частота), f |
Накопленная частота, Sf |
80-90 |
8 |
8 |
90-100 |
15 |
23 |
100-110 |
46 |
69 |
110-120 |
29 |
98 |
120-130 |
13 |
111 |
130-140 |
3 |
114 |
140-150 |
3 |
117 |
ВСЕГО: |
117 |
|
Для построения интервального вариационного ряда, в первую очередь, необходимо определить величину интервала и установить полную шкалу интервалов, а в соответствии с ней - сгруппировать результаты наблюдений.
В предыдущем примере при выборе величины интервала учитывались требования наибольшего удобства отсчета. Интервал был принят равным 10% и оказался удачным. Построенный интервальный ряд позволил выявить закономерность варьирования значений признака.
Однако, вопрос о размерах интервалов и о количестве групп не так уж прост, как это кажется на первый взгляд
Интервалы группировок могут быть равными и не равными. Равные интервалы применяются в тех случаях, когда изменение количественного признака внутри совокупности происходит равномерно. Неравные интервалы применяются, главным образом, как интервалы прогрессивно-увеличивающиеся.
Вопрос о числе групп при группировке по количественному признаку зависит от изменчивости признака и числа наблюдений. Чем интенсивнее меняется признак, чем больше совокупность единиц, тем групп образуется тоже больше. Однако это правило надо применять разумно, руководствуясь логикой и здравым смыслом. Выделение слишком большого числа групп также неразумно, как и выделение их малого числа
Расчет оптимальной величины интервала, т е. такого, при котором построенный интервальный ряд не был бы слишком громоздким и в то же время позволял бы выявить характерные черты изучаемого явления, производятся по формуле:
, (1)
где хтах – максимальная величина признака;
хmin – минимальная величина признака;
m – число групп;
R – размах вариации.
Если подходить к определению равных интервалов формально, то можно воспользоваться формулой Стерджесса:
, (2)
где N – число единиц совокупности.
Если величина интервала h – дробное число, то его следует округлить до ближайшего целого числа, либо до ближайшей несложной дроби.
Чтобы составить группировку надо сначала определить начало отсчета интервалов – нижнюю границу первого интервала.
За начала первого интервала берется число, ближайшее к минимальному значению признака.
Построение интервалов продолжается до тех пор, пока максимальное значение признака не окажется в последнем интервале.
Как уже отмечалось, решение всех типов задач методом группировки можно с использованием типологических, структурных и аналитических группировок.
При проведении типологической группировки происходит разделение исследуемого общественного явления на классы, социально-экономические типы.
Техника распределения единиц на типические группы – дело очень сложное. Основное затруднение состоит в определении признака, который должен лечь в основание группировки. Выделить типичное можно не по любому признаку, а только по определенному. Он должен изменяться от условий места и времени.
Примером типологической группировки может служить расчленение населения, занятого в народном хозяйстве, на работников физического и умственного труда
Выделенные в результате типологической группировки отдельные типы явления изучаются с точки зрения их состава.
Структурной группировкой называется расчленение однородной в качественном отношении совокупности единиц на группы, характеризующие строение совокупности, ее структуру.
Велико значение структурных группировок в области изучения концентрации промышленных, сельскохозяйственных, торговых, строительных, транспортных и других предприятий. Для изучения процесса концентрации, например, в промышленности, можно группировать предприятия по числу работающих, по стоимости промышленно-производственных основных фондов, по выпускаемой продукции, по степени выполнения плана и т.д.
Аналитические группировки дают возможность установить связь между отдельными признаками изучаемого социально-экономического явления.
Примером аналитической группировки может служить изучение связи между размером предприятий и заработной платой. Например, чем больше предприятие, тем больше заработная плата.