Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИСМ: Путеводитель.doc
Скачиваний:
8
Добавлен:
12.11.2018
Размер:
1.11 Mб
Скачать

4. Ряды распределения. Анализ вариаций и формы распределения

Ряд распределения характеризует состав и структуру совокупности по определенному признаку. Элементами ряда распределения являются варианты — значения признака хj и частоты fj. В зависимости от статистической природы вариантов ряды делятся на атрибутивные и вариационные. В соотношении вариантов и частот проявляется закономерность распределения. Она описывается различными статистическими характеристиками, среди которых:

а) частотные характеристики;

б) характеристики центра распределения;

в) характеристики вариации;

г) характеристики неравномерности распределения, концентрации, асимметрии.

Частотными характеристиками любого ряда распределения являются абсолютная численность j-й группы — частота fj и относительная частота — частость dj.

Очевидно, что , a или 100%.

Дополнительная характеристика вариационных рядов — кумулятивная частота Sf (частость Sd), которая характеризует объем совокупности со значениями вариантов, не превышающими хj. Кумулятивные частотные характеристики образуются последовательным суммированием абсолютных или относительных частот. Так, S1 = f1, S2 = f1+ f2, S3 = f1 + f2 + f3 и т. д. Если интервалы вариационного ряда неравные, то используют плотность частоты (частости) на единицу интервала gj = fj : hj или gj = dj : hj, где hj — величина j-го интервала.

К характеристикам центра распределения относят среднюю, моду и медиану. Средняя величина характеризует типичный уровень признака в совокупности. По данным ряда распределения средняя рассчитывается как арифметическая взвешенная:

на основе частот

на основе частостей

где m — число групп.

В интервальных рядах, допуская, что распределение в границах j-го интервала является равномерным, как вариант хj используют середину интервала. При этом величину открытого интервала условно считают такой же, как и величину соседнего закрытого интервала. Так, в ряду распределения, характеризующем спрос на гособлигации на вторичном рынке (табл. 4.1), средний срок обращения облигаций составляет

Мода Мо — это наиболее распространенное значение признака, т.е. вариант, который в ряду распределения имеет наибольшую частоту (частость).

В дискретном ряду Мо определяется визуально по максимальной частоте или частости. Например, по данным самооценки материального состояния населения по четырем градациям (хороший, удовлетворительный, неудовлетворительный, невыносимый) большинство респондентов определили свое состояние как неудовлетворительное. Другой пример: в распределении современных семей по количеству детей наиболее распространенными являются малодетные семьи, которые имеют 1 ребенка.

Встречаются ряды, имеющие две моды (бимодальный ряд) или несколько (полимодальный). Например, на фондовом рынке одинаково высоким спросом пользуются как самые дешевые акции, так и дорогие. В интервальном ряду по наибольшей частоте определяется модальный интервал. Конкретное значение моды в интервале вычисляется по формуле

где х0 и h — соответственно нижняя граница и величина модального интервала; fmo, fmo-1, fmo+1 — частоты (частости) модального, предмодального и послемодального интервалов.

По данным табл. 4.1, наибольшим спросом пользуются акции со сроком обращения в интервале 4—6 месяцев. Это модальный интервал, ширина которого h = 2, а нижняя граница x0 = 4, частота fmo = 29, предмодальная частота fmo-1 = 13, а послемодальная fmo+1 = 22. Модальный срок обращения облигаций составляет

Таблица 4.1

Срок обращения, мес.

Количество проданных государственных облигаций, тыс.

Кумулятивная частота, тыс.

х

fj

Sf

xj

xjfj

До 2

15

15

1

15

2—4

13

28

3

39

4—6

29

57

5

145

6—8

22

79

7

154

8—10

12

91

9

108

10 и более

9

100

11

99

Итого

100

X

X

560

Медиана Me — это вариант, который расположен в середине упорядоченного ряда распределения и делит его на две равные по объему части. Медиана, как и мода, не зависит от крайних значений вариантов, поэтому применяется для характеристики центра в ряду распределения с неопределенными границами. Для определения Me в ряду используют кумулятивные частоты Sf или частости Sd. В дискретном ряду медианой будет значение признака, для которого кумулятивная частота Sf равна или превышает половину объема совокупности , или кумулятивная частость Sd > 0,5. В интервальном ряду таким образом определяется медианный интервал. Конкретное значение медианы в интервале вычисляется по формуле

где x0 и h — соответственно нижняя граница и величина медианного интервала; fme — частота медианного интервала; — кумулятивная частота предмедианного интервала. До данным табл. 4.1, половина объема совокупности проданных облигаций

Следовательно, кумулятивная частота = 57 определяет, что пятидесятая с начала ряда облигация будет находиться в интервале 4—6 с частотой fme = 29. Медианный срок обращения проданных облигаций составляет

Таким образом, половина облигаций продавалась со сроком обращения менее полугода — 5,5 мес., а половина — более 5,5 мес.

В симметричных рядах распределения значения моды и

медианы совпадают со средней величиной ( = Me = Мо), а в умеренно асимметричных они соотносятся таким образом: .

В приведенном выше примере из табл. 4.1 соотношение характеристик центра распределения облигаций по сроку обращения свидетельствует об умеренной асимметрии: 3 • (5,6 - 5,5)  5,6 - 5,4.

В анализе закономерностей распределения используются также другие порядковые характеристики: квартили и децили.

Квартили Q — это значения вариантов, которые делят упорядоченный ряд по объему на четыре равные части, а децили D — на десять равных частей. Следовательно, в ряду распределения выделяются три квартиля и девять децилей. Медиана является одновременно вторым квартилем и пятым децилем. Расчет квартилей и децилей основывается на кумулятивных частотах (частостях). Например, первый и третий квартили определяются по формулам:

первый квартиль:

третий квартиль:

Первый и девятый децили вычисляются по формулам:

Следовательно, а ряду распределения проданных облигаций первый квартиль составляет 3,5 мес., а третий - 7,6 мес., т.е.. у 25% облигаций, проданных на вторичном рынке, срок обращения не превышает 3,5 мес., а у 75% про данных облигаций с наибольшим сроком обращения минимальный срок был 7,6 мес.

Значения децилей указывают на то, что среди 10% проданных облигаций с наименьшим сроком обращения максимальный срок составляет 1,3 мес., а среди 10% облигаций с наибольшим сроком обращения минимальный срок — 9,8 мес., т.е. в 7,5 раза больше.

Для измерения и оценки вариации используют абсолютные и относительные характеристики. К абсолютным относятся: вариационный размах, среднее линейное и среднее квадратическое отклонение, дисперсии; относительные характеристики представлены рядом коэффициентов вариации, неравномерности, локализации, концентрации.

Вариационный размах характеризует диапазон вариации, это разность между максимальным и минимальным значениями признака: R = хmax – хmin. Если крайние значения признака не типичны для совокупности, то используют квартальные или децильные размахи. Квартальный размах RQ = Q3 – Q1 охватывает 50% объема совокупности, децильный = = D8 – D2 — 60%, децильный = D9 – D1 — 80%.

Обобщающей мерой вариации является среднее отклонение индивидуальных значений признака от центра распределения. Поскольку алгебраическая сумма отклонений , то в расчетах используют модули или 1 квадраты отклонений. Средний из модулей отклонений называют средним линейным отклонением ; средний квадрат отклонений — дисперсией 2, корень квадратный из дисперсии — средним, квадратическим отклонением :

По первичным, несгруппированным данным приведенные характеристики вариации рассчитываются по принципу невзвешенной средней, т. е.:

Среднее линейное и среднее квадратическое отклонения — именованные числа (в единицах измерения признака). По содержанию они идентичны, однако из-за математических свойств  > . В симметричном, близком к нормальному, распределении  = 1,25, R = 6= ± 3.

Дисперсию используют не только для оценки вариации, но и при измерении взаимосвязей, для проверки статистических гипотез и т.п. Для признаков метрической шкалы расчет дисперсии ведется по формуле

Как и любая средняя, дисперсия имеет определенные математические свойства:

а) если все значения признака хj уменьшить (увеличить) на определенную величину, дисперсия не изменится;

б) если все значения признака изменить в k раз, то дисперсия изменится в k2 раз;

в) в случае замены частот частостями дисперсия не изменится.

Для альтернативного признака, вариация которого имеет два взаимоисключающих значения — "1" и "0", а распределение характеризуется соответственно двумя частостями — d1 и d0, дисперсия рассчитывается как произведение частостей 2 = d1d0 = d1 (1 –d1).

В табл. 4.2 показан расчет абсолютных характеристик вариации на примере срока обращения облигаций.

Таблица 4.2

Срок обращения облигаций, мес.

f

xj

xj - x

f

f

До 2

15

1

-4,6

69,0

317,40

2—4

13

3

-2,6

33,8

87,88

4—6

29

5

-0,6

17,4

10,44

6—8

22

7

1,4

30,8

43,12

8—10

12

9

3,4

40,8

138,72

10 и более

9

11

5,4

48,6

262,44

Итого

100

X

X

240,4

860,00

Средний срок обращения облигаций — 5,6 мес.; среднее линейное отклонение составляет = 240,4 : 100 =2,4 мес.; дисперсия — 2 = 860 : 100 = 8,6; среднее квадратическое отклонение —  = = 2,9 мес.

Доля облигаций со сроком обращения менее 2 мес. составляет d1 = 0,15. Дисперсия доли 2 = 0,15 • (1 - 0,15) = 0,1275.

При сравнении вариаций разных признаков или одного признака в разных совокупностях, используют относительные характеристики вариации. Коэффициенты вариации рассчитываются как отношение абсолютных, именованных характеристик вариации (, , R) к центру распределения и часто выражаются в процентах, следовательно:

1) линейный коэффициент вариации

Коэффициент локализации рассчитывается для каждой j-й составляющей совокупности. При равномерном распределении все значения Lj = 1. В случае концентрации значении признака в j-й составляющей Lj > 1, и наоборот.

Коэффициент концентрации является обобщающей характеристикой отклонения распределения от равномерного. Значения его колеблются в пределах от 0 до 1. В равномерном распределении К = 0. Чем заметнее концентрация, тем больше значение К отклоняется от 0. Расчет коэффициентов Lj и к представлен в табл. 4.3 на примере распределения фермерских хозяйств по стоимости реализованной продукции.

Коэффициент концентрации составляет

что свидетельствует об относительно высоком уровне концентрации товарного сельскохозяйственного производства в фермерских хозяйствах. Объемы товарной продукции концентрируются в крупных хозяйствах — в последней группе Lj = 8,00.

Таблица 4.3

% к итогу

Стоимость реализованной продукции, тыс. ден. ед.

Количество ферм,

di

Стоимость реализованной продукции

Di

До 2

12

2

0,17

10

2—5

28

8

0,28

20

5—10

31

16

0,52

15

10—20

17

19

1,12

2

20—40

8

23

2,87

15

40 и более

4

32

8,00

28

Итого

100

100

X

90

Коэффициенты концентрации и локализации являются эффективным средством измерения дифференциации совокупности по данным интервальных рядов с неравными интервалами и по данным атрибутивных рядов. По аналогии с коэффициентом концентрации рассчитывают коэффициент подобия (сходства) структур двух объектов или одного объекта по двум признакам:

Если структуры одинаковы, Р = 1. Чем больше отклонения структур, тем меньше значения коэффициента Р.

Для оценки интенсивности структурных сдвигов во времени используют абсолютные меры вариации — среднее линейное или среднее квадратическое отклонение частостей, которые называют коэффициентами структурных сдвигов:

линейный

квадратический

где dj0 и dj1 — частости распределения за два периода; m — число составляющих совокупности.

Пример расчета линейного коэффициента структурных сдвигов в промышленном потреблении алюминия приведен в табл. 4.4. По данным таблицы

т.е. структура промышленного потребления алюминия изменилась в среднем на 5,5 процентного пункта.

Таблица 4.4

Отрасль потребления алюминия

% к итогу

Структурные сдвиги, процентные пункты

1985 г.

1995 г.

Транспортное машиностроение

33

26

-7

Производство тары и упаковки

20

29

9

Производство товаров долгосрочного пользования

13

9

-4

Другое

34

36

2

Итого

100

100

0

Дисперсия, в отличие от других характеристик вариации, является аддитивной величиной. То есть в структурированной совокупности, разделенной на группы по признаку х, дисперсия признака у может быть разложена на: дисперсию в каждой группе (внутригрупповую) и дисперсию между группами (межгрупповую). Общая дисперсия характеризует вариацию признака у в целом по совокупности, межгрупповая — вариацию групповых средних, а внутригрупповые — вариацию индивидуальных значений относительно групповых средних.

Межгрупповая дисперсия вычисляется по формуле

где и — соответственно средняя j-й группы и общая средняя варьирующего признака у; fj — частота j-й группы.

Внутригрупповая дисперсия рассчитывается отдельно для каждой j-й группы:

где у — значение признака у отдельных элементов совокупности.

Для всех групп в целом вычисляется средняя из внутригрупповых дисперсий, взвешенных на частоты соответствующих групп:

Взаимосвязь между тремя дисперсиями получил название правила сложения дисперсий, в соответствии с которым

Общую дисперсию можно определить и непосредственно по формуле

Отношение межгрупповой дисперсии к общей называется корреляционным отношением, 2.

Расчет указанных дисперсий показан в табл. 4.5 на примере вариации урожайности винограда.

Вариация урожайности отдельно для каждого сорта винограда определяется тремя внутригрупповыми дисперсиями. Для сорта винограда "Алиготе" внутригрупповая дисперсия составляет

где

Таблица 4.5

Сорт винограда

Количество кустов

Урожайность с одного куста, кг

y

fi

y

Алиготе

5

2,3; 2,2; 2,7; 2,6; 2,2

12

2,4

Фетяска

8

2,9; 3,3; 2,7; 2,8; 3,2;

3,4; 2,8; 2,9

24

3,0

Рислинг

7

3,6; 4,0; 4,1; 4,4; 3,8; 3,9; 4,2

28

4,0

В целом

20

X

64

3,2

Аналогично вычисленные внутригрупповые дисперсии для второй и третьей групп: = 0,06. Средняя из групповых дисперсий

Межгрупповая дисперсия составляет

Общую дисперсию урожайности определим по правилу разложения дисперсий как сумму межгрупповой и средней из групповых дисперсий:

2 = 0,4 + 0,056 = 0,456

Непосредственное вычисление общей дисперсий по упрощенной формуле

дает тот же результат.