
- •Лекция 2: Сводка и группировка статистических данных
- •2.1 Статистическая сводка и группировка
- •2.2 Ряды распределения
- •Распределение студентов группы по полу
- •Распределение семей города по числу детей
- •Распределение работников фирмы по уровню дохода в январе 1998 г.
- •2.3 Статистические таблицы
- •Распределение клиентов страховых компаний
Лекция 2: Сводка и группировка статистических данных
2.1 Статистическая сводка и группировка
Сводка – это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.
По глубине и точности обработки материала различают сводку простую и сложную.
Простая сводка – это операции по подсчету общих итогов совокупности единиц наблюдения. Сложная сводка – это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всему объекту и представление результатов группировки и сводки в виде статистических таблиц.
Группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным, существенным для них признакам. С помощью метода группировок решаются следующие задачи:
1. выделение социально-экономических типов явлений;
2. изучение структуры явления и структурных сдвигов, происходящих в нем;
3. выявление связи и зависимости между явлениями.
В соответствии с задачами группировки различают следующие ее виды: типологическая, структурная, аналитическая.
Типологическая группировка - это расчленение разнородной совокупности на отдельные качественно однородные группы и выявление на этой основе экономических типов явлений. Структурной группировкой называется группировка, которая предназначена для изучения состава однородной совокупности по какому-либо варьирующемуся признаку. Аналитическая группировка – это группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками.
При построении аналитических группировок можно установить взаимосвязь между двумя и более признаками. При этом один признак будет результативным, а другой или другие факторным. Факторными называются признаки, оказывающие влияние на изменение результативных. Результативными называются признаки, изменяющиеся под влиянием факторных. Для того чтобы установить взаимосвязь между признаками, данные следует сгруппировать по признаку- фактору и затем вычислить среднее значение результативного признака в каждой группе. Сопоставляя изменения значений факторного и результативного признаков, определяют характер связи между ними. Если с увеличением значения факторного признака возрастает и значение результативного признака, то между ними существует прямая связь. Изменение их значений в противоположных направлениях свидетельствует об обратной связи между признаками.
В основание группировки могут быть положены как количественные, так и качественные (атрибутивные) признаки. Количественные признаки имеют числовое выражение (объем торгов, доход семьи), атрибутивные отражают состояние единицы совокупности (семейное положение, пол человека).
При осуществлении группировки необходимо решить вопрос о количестве групп, на которые следует разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основании группировки, численности совокупности, степени вариации признака.
Если группировка строится по атрибутивному признаку, то групп, как правило, будет столько, сколько имеется градаций, видов состояний у этого признака, например группировка численности населения по полу учитывает мужской и женский пол. Если группировка проводится по количественному признаку, то можно использовать формулу Стерджесса:
n = 1 + 3,322 * lg N, (4.1)
где n – число групп;
N – число единиц совокупности.
После определения числа групп определяют интервалы группировки.
Интервал – это значение варьирующего признака, лежащего в определенных границах. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами.
Величина равного интервала определяется по следующей формуле:
h = R / n = (xmax - xmin) / n, (4.2)
где xmax и xmin – максимальное и минимальное значения признака в совокупности;
n – число групп.
Правила записи числа шага интервала:
1. если величина интервала, рассчитанная по формуле 4.2, представляет собой величину, которая имеет один знак до запятой (например, 0,88; 1,585; 4,71), то в этом случае полученные значения целесообразно округлить до десятых и их использовать в качестве шага интервала, т.е. это будет: 0,9; 1,6; 4,7;
2. если рассчитанная величина интервала имеет две значащие цифры до запятой и несколько знаков после запятой (например, 15,985), то ее округляют до целого числа (до 16);
3. если рассчитанная величина интервала представляет собой трехзначное, четырехзначное и так далее число, то эту величину следует округлить до ближайшего числа, кратного 100 или 50 (например, 557 округляют до 600).
Каждый интервал кроме своей величины имеет верхнюю и нижнюю границы или хотя бы одну из них. Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей – наибольшее значение признака в интервале.
Интервалы группировок могут быть закрытыми и открытыми. Закрытыми называются интервалы, у которых имеются верхняя и нижняя границы. У открытых интервалов указана только одна граница: верхняя у первого, нижняя – у последнего.
Например, группы строительных фирм по объему работ (тыс. руб.): до 1400, 1400 – 1600, 1600 – 1800, 1800 и более. До 1400 тыс. руб. – это открытый интервал, у которого указана верхняя граница; 1400 – 1600 – это закрытый интервал, где 1400 - нижняя граница, 1600 – верхняя граница; 1800 и более – это открытый интервал, у которого указана нижняя граница интервала. Если нижняя граница формируется по принципу “включительно”, то верхняя – по принципу “исключительно” Тогда, например, при включении строительной фирмы с объемом работ в 1600 тыс. руб. в группу не возникнет проблем в какую именно. При заданных условиях она войдет третью группу, в ином случае – во вторую. Судить можно и по последнему открытому интервалу. Возможны два случая обозначения открытого последнего интервала: 1) 1800 тыс. руб. и более; 2) более 1800 тыс. руб. В первом случае строительные фирмы с объемом работ 1600 тыс. руб. попадут в третью группу; во втором случае – во вторую группу.
Если размах вариации признака совокупности велик и значения признака варьируются неравномерно, то необходимо использовать группировку с неравными интервалами прогрессивно-возрастающими или прогрессивно-убывающими в арифметической или геометрической прогрессии.
Величина интервалов, изменяющихся в арифметической прогрессии, определяется следующим образом:
hi+1 = hi + a,
а в геометрической прогрессии:
hi+1 = hi * q,
где а - константа, имеющая для прогрессивно-возрастающих интервалов знак “+”,
а для прогрессивно-убывающих интервалов знак “-”;
q - константа (для прогрессивно-возрастающих интервалов q>1, для прогрессивно-убывающих интервалов - q<1).
Применение неравных интервалов обусловлено тем, что в первых группах небольшая разница в показателях имеет большое значение, а в последних группах эта разница несущественна.
Например, при построении группировки малых и крупнейших предприятий отрасли по показателю численности ППП, который варьируется от 200 до 2000 человек, целесообразно рассматривать неравные интервалы. Возьмем а = 300 человек для прогрессивно-возрастающего интервала.
hi = 200; hi+1 = 200 + 300 = 500;
hi+2 = hi+1 + 2*а = 500 + 2*300 = 1100 и т.д.
Таким образом формируются интервалы: 200 – 500; 500 – 1100; 1100 – 2000.