Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
«статистика» (1).doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
978.95 Кб
Скачать

3.2. Группировка статистических данных

Изучаемые статистикой массовые явления и процессы протекают в качественно однородных совокупностях. Однако качественная однородность единиц, составляющих совокупность, не является чем-то абсолютным, навсегда и на все случаи заданным. Единицы, качественно однородные в одном отношении, оказываются разнородными в другом. Это позволяет делить статистическую совокупность на частные подсовокупности — использовать методы группировки.

Таким образом, группировка — это разбиение совокуп­ности на группы, однородные по какому-либо признаку. С точки зрения отдельных единиц совокупности группировка — это объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Устойчивое разграничение объектов выражается класси­фикацией. Классификация — это как бы стандарт, в котором каждая атрибутивная запись может быть отнесена лишь к одной группе или подгруппе. Классификация основывается на самых существенных признаках, которые меняются очень мало (например, классификация отраслей народного хозяйства, классификация основных фондов и т. д.). Таким образом, классификация — это узаконенная, общепринятая, нормативная группировка.

Метод группировки основывается на двух категориях — группировочном признаке и интервале.

Группировочный признак — это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Классификация и группировка должны производиться на основании вполне объективных и легко

30

распознаваемых признаков. При этом последние могут носить как атрибутивный, так и количественный характер. Следует иметь в виду, что в ряде случаев классификация, которая представ­ляется чисто качественной, в конечном итоге оказывается основанной на количественном признаке. Такова, например, классификация промышленных предприятий по отраслям. Поскольку одно и то же предприятие выпускает продукцию разных видов, статистика решает этот вопрос по количественному преобладанию того или иного вида.

Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между макси­мальными и минимальными значениями признака в группе.

Интервалы бывают:

равные, когда разность между максимальным и мини­мальным значениями в каждом из интервалов одинакова;

неравные, когда, например, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе;

открытые, когда имеется только либо верхняя, либо нижняя граница;

закрытые, когда имеются и нижняя, и верхняя границы.

Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует особый вид группировки: типологическая, структурная, аналитическая (факторная).

Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных подсовокупностей).

Структурная дает возможность описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги.

Аналитическая (факторная) группировка позволяет оценивать связи между взаимодействующими признаками.

В зависимости от числа положенных в их основание признаков различают простые и многомерные группировки.

Группировка, выполненная по одному признаку, называется простой.

Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации.

По отношениям между признаками выделяют иерархические и неиерархические группировки.

Иерархические группировки выполняются по двум и более признакам, при этом значения второго признака определяются областью значений первого (например, классификация отраслей промышленности по подотраслям).

Неиерархические группировки строятся, когда строгой зависимости значений второго признака от первого не существует.

Среди простых группировок особо выделяют ряды распределения.

Ряд распределения — это группировка, в которой для характеристики групп (упорядоченно расположенных по значению признака) применяется один показатель — численность группы. Другими словами, это ряд чисел, показывающий, как распре­деляются единицы некоторой совокупности по изучаемому признаку.

Ряды, построенные по атрибутивному признаку, называются атрибутивными рядами распределения.

Ряды распределения, построенные по количественному признаку, называются вариационными рядами.

По очередности обработки информации группировки бывают первичные (составленные на основе первичных данных) и вторичные, являющиеся результатом перегруппировки ранее уже сгруппированного материала.

Относительно временного критерия группировки бывают статические, дающие характеристику совокупности на определенный момент времени или за определенный период, и динамические. Последние — это группировки, показывающие переходы единиц из одних групп в другие (а также вход и выход из совокупности). Количества таких переходов, рисующие внутреннюю динамику совокупности, удобно располагать в «шахматную» таблицу, которую называют матрицей перехода. Такую матрицу также часто называют миграционной или матрицей мобильности.

При проведении группировки приходится решать ряд задач:

1) выделение группировочного признака;

2) определение числа групп и величины интервалов;

3) при наличии нескольких группировочных признаков описание того, как они комбинируются между собой;

4) установление показателей, которыми должны характе­ризоваться группы, т. е. сказуемого группировки.

Рассмотрим методологические вопросы построения различных видов группировок.

Типологическая группировка может строиться для разных целей и по различным критериям. Задача выделения типов из общей совокупности решается сравнительно просто только в тех случаях, когда различия очевидны и устойчивы и могут быть описаны одним или несколькими признаками. Однако на практике это бывает редко. Принадлежность группируемых объектов к общей совокупности приводит обычно к появлению у них некоторых общих особенностей, маскирующих различия между типами. Кроме того, недостаточно четкое обособление отдельных типов друг от друга в действительности, множественность признаков описания объекта и ряд других обстоятельств еще более усложняют группировку. Поэтому задача проведения качественной типологической группировки совокупности весьма сложна.

По способу формирования типологических групп различают:

1) способ последовательных разбиений, заключающийся в формировании таких групп, все объекты которых имеют одинаковые значения классификационных признаков;

2) способ многомерной классификации. В этом случае объекты, образующие группы, могут иметь различные значения классификационных признаков.

Первый способ является исторически более ранним. Он включает в себя два метода. Во-первых, это типичный для него метод комбинационной группировки, при которой формирование групп производится путем последовательного разбиения сначала всей совокупности по одному признаку, затем полученных частей — по другому и т. д., причем строго соблюдается принцип иерархии групп. Во-вторых, это многошаговый метод последо­вательных разбиений совокупности. Способ многомерной классификации, когда группы формируются на основе близости объектов одновременно по большому числу признаков, получил широкое применение с разработкой методов распознавания образов и появлением ЭВМ.

При использовании методов комбинационной группировки классификация осуществляется путем последовательного логического деления совокупности по отдельным признакам. Очередность этапов здесь такова:

1) наметка типов;

2) выбор группировочного признака (признаков);

3) определение числа групп и величины интервалов;

4) сведение выделенных групп в типы;

5) характеристика типов с помощью системы показателей. Наметка типов производится с помощью теоретического качественного анализа. Предварительно намечают столько типов, сколько их может быть в данной совокупности теоретически (хотя фактически возможно меньшее их число).

При выборе группировочного признака необходимо учитывать два условия. Во-первых, типологическая группировка должна выполняться только по существенным признакам. Теоретически следует охватить все существенные признаки, однако при таком подходе получается излишнее дробление совокупности. Группы оказываются малы по объему и не пригодны для статистического анализа. Поэтому рекомендуется проводить группировку по двум-трем главным признакам, взятым в комбинации. Во-вторых, при необходимости для характеристики разных типов выбираются различные признаки, т. е. осуществ­ляется специализация признака. Например, для выделения типов сельскохозяйственных предприятий по размеру в качестве группировочного будет выступать признак отраслевой принад­лежности (растениеводство или животноводство). Далее же количественные признаки: для растениеводства — посевная площадь и число комбайнов, а для животноводства — поголовье крупного рогатого скота и производство молока.

На различных этапах формирования типологической группировки число групп неодинаково. По ее завершении оно соответствует фактическому числу выделенных типов. На предварительном этапе количество комбинированных групп определяется произведением К, • К^ • ... • К^, где К, — число градаций i-го группировочного признака.

В случае количественного группировочного признака необходимо определять величину интервалов. Интервалы задают критические точки перехода одного качества в другое. При построении типологической группировки интервалы должны быть неравными и специализированными. Специализация интервалов означает, что разным значениям одного признака соответствуют разные значения другого.

Полученные комбинированные группы в итоге чисто технически объединяются в типы. Критерием оптимальности выполненной типологической группировки может служить максимум межгрупповой дисперсии интересующего исследователя признака:

Если результат не устраивает исследователя, то группировку следует повторить, задавая для каждого признака меньшее число групп.

Если группировка оказывается приемлемой, то для характеристики типов разрабатывается система показателей, среди которых обязательно должны быть характеристика численности типов — веса либо частоты — и интегральные показатели, рассчитанные в виде средних, удельных весов, соотношений, показателей динамики и т. д.

В процессе анализа иногда возникает задача рационального построения типов на основе комбинационной группировки в условиях ограниченности совокупности и наличия более четырех качественных признаков, предположительно вызывающих неоднородность. В таких случаях можно использовать моди­фикацию метода комбинационной группировки — многошаговый метод последовательных разбиений совокупности. Он базируется на анализе коэффициентов вариации качественных признаков. Коэффициент вариации характеризует способность признака различать отдельные элементы совокупности. Расчет значений коэффициента вариации качественных признаков Q(X) основан на сопоставлении числа различных пар событий:

(N^Zn2) I

Q(X)=(I - 1)N2

где I — число градаций признака X;

n— число объектов, принимающих i-ю градацию признака (i= 1,2, ...,!);

N — число объектов совокупности:

i N = £ n. .

Коэффициент вариации качественных признаков Q(X) реагирует только на характер распределения объектов по градациям признака. Он принимает максимальное значение 1 при равенстве частот градаций признака и считается, что равен 0 при одной градации, т. е. когда вся совокупность образует по данному признаку одну группу.

Малое значение коэффициента вариации свидетельствует о том, что распределение объектов на группы по данному признаку крайне неравномерно, т. е. большинство объектов имеет одинаковую градацию изучаемого признака и лишь небольшое число — отличную. В этом случае, если нет запрета на исключение рассматриваемого признака и связь его с моделируемым показателем слаба, признаки с малым значением коэффициента вариации могут вообще не рассматриваться.

Используя коэффициент вариации признака, группы формируют следующим образом. По каждому признаку вычисляется Q,(X), и разбиение совокупности производится по тому признаку, который имеет максимальное значение. Если таких признаков оказывается несколько, то выбор среди них осуществляется по содержательному смыслу. Результатом будут группы первого шага разбиения. Далее полученные группы рассматриваются как самостоятельные совокупности и описанная выше процедура повторяется на следующем шаге. Такое деление производится до тех пор, пока однородность объектов не достигнет желаемой степени либо число элементов в группах не станет меньше заданного.

В ходе научных исследований обнаружилось, что принципы чистой логики, лежащие в основе метода комбинационной группировки, часто бывает нелегко применять к эмпирическому материалу. Это обусловило необходимость разработки новых принципов группировки, отличных от традиционных.

Сущность этих новых принципов, лежащих в основе многомерной классификации, состоит в следующем. Класси­фикация объектов производится не последовательно по отдельным признакам, а одновременно по большому числу признаков. Этот фиксированный набор признаков образует так называемое пространство признаков, а каждому признаку придается смысл координаты. Если задано m существенных признаков совокупности, то любой объект рассматривается как точка в т-мерном пространстве признаков и задача класси­фикации сводится к выделению сгущений объектов в этом пространстве. Для этого используются разные алгоритмы, но всегда группы (типы, классы) формируются на основании близости объектов по комплексу признаков.

Подходы к формированию групп, применяемые в много­мерной группировке, лучше, чем комбинационные, согласуются со сложившимся представлением о существовании естественных типов объектов, близких по совокупности признаков. В самом деле, при комбинационной группировке объект, отклоняющийся по одному-единственному признаку от нормы, характерной для группы, будет автоматически из нее исключен. Более того, если этот признак используется на первом шаге группировки, то объект может легко попасть в группу, очень далекую от той, с которой он в действительности имеет наибольшее сходство. Если вспомнить понятие пространства признаков, то группы, получаемые при комбинационной группировке, представляют собой секторы такого пространства. При этом границы между ними обычно параллельны осям данного пространства и жестко заданные интервалы признаков часто разрушают реально существующие классы. Этот основной недостаток делает комбинационные группировки не всегда эффективными для выделения типов объектов по комплексу признаков, так как с добавлением каждого нового признака опасность разрушения объективно существующих однородных групп возрастает.

Следовательно, главное преимущество методов много­мерной группировки заключается в том, что они позволяют с той или иной степенью приближения выделить реально существующие в признаковом пространстве скопления точек — объектов. Это связано с одновременной группировкой по большому числу признаков и использованием сложных поверхностей в качестве границ.

Реализация методов последовательного разбиения возможна и без применения вычислительной техники, в то время как методы многомерной группировки в связи с трудоемкостью расчетов требуют использования ЭВМ, почему их часто называют методами автоматической классификации. Цели этих двух способов совпадают, основное же различие состоит в том, что при автоматической классификации исследователь лишь указывает направление поиска (заданием набора признаков, имеющих отношение к цели классификации), но отказывается на данном этапе от самостоятельного формирования классов.

Выбор одного из указанных способов классификации во многом определяется характером признаков, составляющих описание объекта. Если преобладают качественные признаки, их не очень много и априори известно, что они неравнозначны с точки зрения цели классификации, то целесообразнее использовать способ последовательного разбиения. При наличии большого числа примерно равнозначных признаков, особенно если это признаки количественные, а вопрос иерархии признаков и групп не столь важен, следует ориентироваться на многомерную классификацию.

Структурная группировка применяется для характе­ристики структуры и структурных сдвигов. При проведении структурной группировки решаются следующие вопросы.

1. Выбор группировочного признака. В данном случае в качестве такового может выступать как существенный, так и несущественный признак.

2. Определение числа групп и величины интервала. Здесь необходимо учитывать несколько условий:

а) число групп детерминируется уровнем колеблемости группировочного признака. Чем значительнее вариация признака, тем больше при прочих равных условиях должно быть групп;

б) число групп должно отражать реальную структуру изучаемой совокупности;

в) не допускается выделение пустых групп. Если проблема пустых групп все же возникает, при проведении структурных группировок используют неравные интервалы.

Для нахождения числа групп служит формула

п = 1 + 3,322 • Ig N,

где N — количество элементов совокупности.

В случае равных интервалов величина интервала может быть определена как

3. Определение системы показателей для характеристики групп. Обязателен показатель численности групп. Он можетбыть представлен либо частотой (количеством единиц в каждой группе), либо частотностью (удельным весом каждой группы).

Аналитическая (факторная) группировка предназначена для установления тесноты связи между взаимодействующими признаками — факторным и результативным. Она позволяет выявить наличие и направление связи, а также измерить ее тесноту и силу. Методологическими вопросами построения факторной группировки являются выбор группировочного признака, определение числа групп и величины интервала, выбор системы показателей для характеристики групп. Чаще всего в качестве группировочного принимают факторный признак, выделенный на основе априорного анализа. Интервалы в аналитической группировке берутся преимущественно равные либо равнонаполненные (группы с приблизительно одинаковой частотой). Величина интервала рассчитывается так же, как при построении структурной группировки. Среди показателей групп обязательным является среднее значение результативного показателя по каждой группе.