Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 3.rtf
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.28 Mб
Скачать

4. Принципы построения статистических

ГРУППИРОВОК.

В основание группировки берутся, как правило, существенные количественные или качественные признаки. Количественные признаки имеют численное выражение (метры, килограммы, рубли). Качественные признаки выражают состояние единицы совокупности (пол человека, его семейное положение, уровень образования).

После определения основания группировки рассчитывается количество групп, на которые следует разбить исследуемую статистическую совокупность. Количество групп зависит от задач исследования, вида признака, численности совокупности и степени вариации признака.

При построении группировки по качественному признаку групп будет столько, сколько имеется градаций, видов, состояний у этого признака. Например, при группировке населения по полу, образовывается только две группы: мужчины и женщины. При построении группировки по производству товаров народного потребления по экономическим районам вся совокупность делится на 11 групп, т.к. территория России поделена на 11 экономических регионов. Однако, большое количество групп затрудняет выявление закономерностей. Поэтому не следует образовывать более 7-8 групп.

При обработке статистических данных на персональном компьютере группировка единиц совокупности производится с помощью стандартных математических подходов. Один из таких подходов для определения оптимального количества групп (k) из единиц совокупности (N) основан на использовании математических формул Стержесса:

K= 1+3,32* lg N

Эта формула дает хорошие результаты если совокупность состоит из большого числа единиц, а ее распределение близко к нормальному.

После определения количества групп, следует определить величину интервала (h) для каждой группы (строки в таблице). Интервалы в группировке бывают равными и неравными. Неравные интервалы в свою очередь делятся на: прогрессивно возрастающие, прогрессивно убывающие и специализированные.

Группировку с равными интервалами строят тогда, когда количественные изменения признака в исследуемой совокупности сравнительно не велики, а их распределение носит относительно равномерный характер. При этих условиях величина равного интервала (h) определяется по нижеследующей математической формуле

,

где R – размах вариации, определяемый в свою очередь разницей между максимальным и минимальным значением признаков в совокупности (Xmax-Xmin).

Однако, прежде чем определить размах вариации (R), из статистической совокупности следует исключить аномальные наблюдения. При этом субъективное отбрасывание вариантов значений признака (даже сильно отличающихся от всех остальных значений) не может иметь оправдание. Поэтому, для обоснованного исключения аномальных (выделяющихся) наблюдений из дальнейшего анализа разработаны различные методы: Стьюдента, Граббса.

По методу Стьюдента из совокупности исключаются эмпирические величины (Xmax), если они оказываются больше величины максимальной “критической границы” (Smax), определяемой по формуле:

Xmin, если они окажутся меньше величины минимальной “критической границы” (Smin), определяемой по формуле:

,

где – средняя арифметическая величина всей совокупности, определяемая по формуле:

;

t – уровень достоверности соответствующий значению нормированной функции Лапласа ;

G- среднее квадратическое отклонение, рассчитываемое по формуле:

;

Например, известны нижеследующие данные (таблица 3.5).

Таблица 3.5

Урожайность сахарной свеклы

в ряде хозяйств региона (цен с га)

Количество хозяйств

Минимальные значения

Максимальные значения

Средняя урожайность

Среднее квадратическое отклонение

Х1

Х2

Хп-1

Хп

Хср

G

86

32

66

165

250

110,3

25,2

При уровне значимости а=0,01 значение нормированной функции Лапласа для рассматриваемой критической области будет равно:

=1-0,01=0,99

Этому значению в таблице нормированной функции Лапласа соответствует t=2,58. Тогда для нашего примера максимально допустимая граница значений признака не может превышать (с вероятностью 99%) 175.3 цен с га. ( Smax=Xcp+t*G=110.3+2.58*25.2). Поэтому, эмпирическое значение Xn=250 выходит за рассчитанную границу и эту величину следует исключить как аномальную из дальнейших расчетов.

Согласно критерию Стьюдента минимально допустимая граница значений признака не может быть ниже (с вероятностью 99%) 45,3 цен с га (Smin=Xcp-t*G=110,3-2,58*25,2).

Поэтому, X1=32 цен/га следует также исключить из дальнейших расчетов.

Однако для малых выборок или незначительных единиц генеральной совокупности этот метод исключения аномальных величин является не совсем надежным. В этом случае для исключения аномальных величин рекомендуется производить расчеты критерия Граббса.

В основу критерия Граббса положено соотношение двух сумм квадратов отклонений: для оценки на аномальность наибольшего значения наблюдения (Xn) рассчитывается отношение (Kmax):

, где

;

Для оценки на аномальность наименьшего значения наблюдения (Xn) рассчитывается отношение (Kmin/n):

, где

Далее рассчитанные отклонения (Красч) сравнивается с рассчитанной Ктабл величиной. Ктабл характеризует предельную величину расхождения в суммах квадратов отклонений, которая с вероятностью (0,01-а) объясняется случайными причинами.

Если Красч будет равно или меньше табличного, то наименьшее и наибольшее значение наблюдений не отбрасывается, а если Красч больше Ктабл значения Хmin и Хmax считаются аномальными и их следует исключить из дальнейшего исследования.

Применение критерия Граббса рассмотрим на примере полученной урожайности гороха по 11 хозяйствам одного из сельскохозяйственных регионов и произведем соответствующие подготовительные расчеты в таблице 3.6.

Таблица 3.6

Подготовительные расчеты для выявления аномальных величин при производстве гороха цен/га по 11 хозяйствам района.

п/п

Xn-1

X1-Xn-1

(Xi-Xn-1)2

Xim

Xi-Xm

(Xi-Xm)2

1

5

10

100

5

8

64

-

-

-

2

7

8

64

7

6

36

7

9

36

3

10

5

25

10

3

9

10

6

25

4

11

4

16

11

2

4

11

5

16

5

12

3

9

12

1

1

12

4

4

6

14

1

1

14

1

1

14

2

0

7

16

1

1

16

3

9

16

0

1

8

17

2

4

17

4

16

17

1

4

9

18

3

9

18

5

25

18

2

16

10

20

5

25

20

7

49

20

4

361

11

35

20

400

-

-

-

35

19

542

å

165

-

654

130

-

214

160

-

54,2

Средн.

15,0

-

65,4

13,0

-

2,14

16,0

-

-

Из таблицы 3.6 следует, что:

;

.

Согласно приведенной ниже выдержке из таблицы Граббса, при 11 наблюдениях и уровне значимости 1 % достоверность Ктабл равно 0,315 для наибольшего значения. Крассч. 0,327 больше Ктабл. Это значит, что наибольшее значение 35 цен/га мы должны исключить из дальнейших расчетов.

Выдержка из таблицы Граббса значений к при уровне значимости а=0,01 и а=0,05.

Число наблюдений

Уровень значимости а

0,01

0,05

3

0,0001

0,0027

4

0,9199

0,0494

5

0,0442

0,1270

6

0,0928

0,2032

7

0,1447

0,2696

8

0,1948

0,3261

9

0,2411

0,3742

10

0,2831

0,4154

11

0,3152

0,4435

15

0,4401

0,5559

20

0,5393

0,6379

25

0,6071

0,6923

Для наименьшего значения Кmin=0.829 значительно больше Красч, то и Х1, равное 5, тоже исключается из исследования.

По критерию профессора Болтнева А.М., подтвержденного многократными практическими расчетами, для дальнейших расчетов из совокупности следует исключить аномальное максимальное значение Хmax, если оно окажется больше величины максимальной критической границы (Smax), определяемой по формуле:

Исключается (Xi) – минимальная величина, если она окажется меньше величины минимальной критической границы (Smin), определяемой по формуле:

Примеры:

1. По данным Таблицы 5 Smax=2*110,3=220,6 ц./га, а Smin=0,4*110,3=44,1 ц./га.

Из этого расчета видно, что Хmax=250, больше критической максимальной величины, а Хmin=32 меньше критической минимальной величины. Следовательно, мы должны Х=250 и Х=32 исключить из дальнейших расчетов как аномальные. Аналогичные выводы по испытанию аномальных величин были сделаны согласно расчетов критерия Стьюдента.

2. По данным Таблицы 6, Smax=30 ц./га (2*15), а Smin = 6 ц./га (0,4*15). Из этого расчета также видно, что Х=35 больше критической максимальной величины равной 30, а Х=5 меньше критической минимальной величины равной 6. Следовательно, Х=30 и Х=5 мы должны исключить из выборочной совокупности как аномальные из дальнейших расчетов. Аналогичные выводы по испытанию аномальных величин были сделаны согласно расчетов и по критерию Граббса.

Преимуществом последнего метода определения аномальных величин является то, что он прост в расчетах, а по выводам соответствует (не противоречит) критериям Стьюдента и Граббса.

Однако вернемся к определению величины интервала. Полученную величину округляют (для упрощения расчетов) до десятой части или целого числа. Округленная величина и будет являться шагом интервала.

Группировки могут быть с открытыми и с закрытыми интервалами. Открытые интервалы – интервалы, у которых указана только одна граница (у первой строки – верхняя, а у последней – нижняя). Закрытыми являются интервалы, у которых в строках обозначены две границы.

Например, требуется произвести группировку с равным интервалом образцов пряжи на ее прочность, при этом максимальное значение признака (крепость пряжи) 280 гр на мм2 , а минимальное – 140 гр на мм2.

Совокупность состоит из 70 единиц. Согласно формулы Стержесса она должна быть разбита на 7 групп.

K=1+3,32*1,845=1+6,126=7,126

В нашем примере значение R=140 (280-140), а величина интервала h= 20 (140/7). По данным этого примера мы можем построить следующие варианты групп (см. таблицу 3.7) с равными открытыми и закрытыми интервалами.

Таблица 3.7

Примеры вариантов групп с открытыми

и закрытыми интервалами.

№ групп

1 вариант с равными закрытыми интервалами

2. вариант в равными открытыми интервалами

1

От 140-160

До 160

2

160,1-180

160,1-180

3

180,1-200

180,1-200

4

200,1-220

200,1-220

5

220,1-240

220,1-240

6

240,1-260

240,1-260

7

260,1-280

260,1 и более

Применение формулы Стержесса дает хорошие результаты, если совокупность имеет большое количество единиц, а их распределение близко к нормальному.

В основу другого способа определения числа групп положено среднее квадратическое отклонение, определяемое по формуле:

,где

Xi – индивидуальное значение варьирующего признака;

Xcp – среднее арифметическое признака по исследуемой совокупности, определяемое по формуле:

n – количество единиц совокупности.

Варианты группировки с использованием среднего квадратического отклонения и среднего линейного отклонения (G) можно видеть в таблице 3.8

К сожалению, эти два метода не гарантируют от “ пустых” и “малочисленных” групп. Их наличие свидетельствует о неправильно построенной группировке.

Таблица 3.8

Варианты использования групп с равными

интервалами при 0,5G,2/3G,1G.

п/п.

1 Вариант

n=0,5G

2 вариант

n=2/3G

3 вариант

n=1G

1

(X-3G)-(X-2,5G)

(X-3G)-(X-7/3G)

(X-3G)-(X-2G)

2

(X-2,5G)-(X-2G)

(X-7/3G)-(X-5/3G)

(X-2G)-(X-1G)

3

(X-2G)-(X-1,5G)

(X-5/3G)-(X-1G)

(X-1G)-(X)

4

(X-1,53G)-(X-1 G)

(X-1G)-(X-1/3G)

(X)-(X+1G)

5

(X-1G)-(X-0,5G)

(X-1/3G)-(X+1/3G)

(X+1G)-(X+2G)

6

(X-0,5G)-(X)

(X+1/3G)-(X+1G)

(X+2G)-(X+3G)

7

(X)-(X+0,5G)

(X+1G)-(X+5/3G)

8

(X+0,5G)-(X+1G)

(X+5/3G)-(X+7/3G)

9

(X+1G)-(X+1,5G)

(X+7/3G)-(X+3G)

10

(X+1,5G)-(X+2G)

11

(X+2G)-(X+2,5G)

12

(X+2,5G)-(X+3G)

Неравные интервалы применяются тогда, когда значение признака варьирует неравномерно и в значительных размерах. В арифметической или геометрической прогрессиях величины интервалов определяются по формулам:

;

,

где а – константа, т. е. число положительное при прогрессивно возрастающих или отрицательное при прогрессивно убывающих интервалах;

q – константа, т. е. число больше 1 при прогрессивно возрастающих или меньше 1 при прогрессивно убывающих интервалах.

Примером группировки могут быть предприятия разного типа по величине выручки за определенный период (таблица 9).

При определении границ интервала статистических группировок следует исходить из того, что изменение количественного признака начинает приводить к изменению качественного. Естественно, рамки таких границ зависят от отрасли народного хозяйства, места проведения анализа и времени. При анализе отраслей народного хозяйства применяются группировки со специализированными интервалами, с помощью которых из совокупности одних и тех же типов по одному и тому же признаку характеризуются явления, находящиеся в различных условиях.

Таблица 3.9

Варианты построения групп с неравными интервалами

при h=30, a=20, q=2.

группы

1 вариант с возрастающими по арифметической прогрессии.

2 вариант с возрастающими по геометрической прогрессии.

Xi

hi

Xi

Hi

1

20-50

30

20-50

30

2

50,1-100

50

50,1-110

60

3

100,1-170

70

110,1-220

120

4

170,1-260

90

220,1-440

240

5

260,1-310

110

440,1-920

480

Группировки могут быть построены с произвольными интервалами. Например, для группировки семей и одиночек по размеру жилой площади на одного человека (м. кв.) применялись группы: до 5; 5-6; 7-8; 9-12; 13-14; 15-19; 20 и более. Произвольные интервалы часто применяются при группировках предприятий по уровню рентабельности и производительности труда.

Группировку с произвольными интервалами можно построить с помощью коэффициента вариации определяемого по формуле:

,

где G – среднее квадратическое отклонение индивидуальных признаков от средней арифметической.

По этому методу построение группировки начинается с упорядочивания (ранжирования) единиц совокупности по возрастанию (убыванию) группировочного признака. В полученном ряду значений признака первые его значения объединяются в группу до тех пор, пока исчисленный для этой группы коэффициент вариации не станет равным 33%. Это будет свидетельствовать об образовании первой группы, которая исключается из исходной совокупности. Оставшаяся часть единиц принимается за новую совокупность, для которой повторяется алгоритм образования новой группы. И так до тех пор, пока все единицы совокупности не будут объединены в группы. При данном способе исследователь заранее не знает ни количества групп, ни границ интервалов.