Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
207
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

всегда мало! С другой стороны коэффициент локализации (коэффициент Джини), коэффициент Герфиндаля или коэффициент Лоренца охватывают всю совокупность, и всегда более точно отражают степень неравенства по всей совокупности. Например, если у нас возникла потребность выяснить значимо ли различаются между собой субъекты Российской Федерации по уровню преступности (по коэффициенту преступности на 100 тысяч народонаселения), то наиболее адекватный ответ будет получен с помощью коэффициентов концентрации.

Рассмотрим по порядку некоторые коэффициенты дифференциации и концентрации.

Децильный коэффициент (coefficient of deciles) (Kд) – частное от деления девятого дециля на первый дециль ранжированного вариационного ряда (дециль включает в себя 10 перцентилей):

Kд = ДД9 , где Д1 – первый дециль, Д9 – девятый дециль.

1

Для нахождения децилей в частотных рядах (интервальных рядах) используют специальные интерполяционные формулы. С использованием частот:

 

 

 

101 ×å fi - Fk−1

 

 

 

 

 

 

хk 1

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Д1 = xk −1 + Lk

×

 

 

 

i=1

 

 

, где

Д1

первый

дециль,

 

 

 

 

fk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нижняя граница интервала, содержащего первый дециль;

Lk

длина интервала, содержащего первый дециль (

 

− );

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xk

хk 1

 

 

 

f k – частота интервала, включающего первый дециль;

 

 

 

Fk −1 – накопленные частоты предшествующего интервала.

 

 

 

С использованием частостей:

 

 

 

 

 

хk 1

 

 

101 ×åwi -Wk−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Д1 = xk−1 + Lk ×

 

 

 

 

i=1

,

где

Д1

первый

дециль,

 

 

 

 

 

 

wk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нижняя граница интервала, содержащего первый дециль;

Lk

длина интервала, содержащего первый дециль (

 

− );

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xk

хk 1

 

 

 

wk – частость интервала, включающего первый дециль;

Wk −1 – накопленные частоcти предшествующего интервала. Величина Д1 – рассчитывается:

157

n

n

0,1×åfi – для частот; 0,1×åwi – для частостей.

i=1

i=1

Для распознания интервала, включающего первый дециль, соответственно накапливаем частоты или частости пока они не превзойдут полученное число.

Нахождение девятого дециля:

 

 

 

 

9 ×å fi

- Fk−1

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

;

Д9 = xk−1

+ Lk ×

10

i=1

 

 

 

 

fk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 ×åwi -Wk−1

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

.

Д9 = xk−1

+ Lk ×

 

 

10

i=1

 

 

 

 

 

wk

 

 

 

 

 

 

 

 

 

 

 

Величина Д9 – рассчитывается:

n

 

 

 

 

 

 

 

n

0,9 ×å fi

– для частот; 0,9×åwi – для частостей.

i=1

 

 

 

 

 

 

 

i=1

Для распознания интервала, включающего девятый дециль, соответственно накапливаем частоты или частости пока они не превзойдут полученное число.

Рассмотрим пример. Возьмем вариационный ряд коэффициентов преступности по субъектам России за 2010 год10.

 

 

Накопленная

 

Накопленная

Х=КП, шт.

Частота

частота

Частость,

частость

 

( fi )

( Fi )

( wi )

(Wi )

361-660

3

3

0,0365

0,0365

661-960

1

4

0,0122

0,0487

961-1260

9

13

0,1098

0,1585

1261-1560

13

26

0,159

0,3175

1561-1860

21

47

0,256

0,5735

1861-2160

12

59

0,146

0,7195

2161-2460

13

72

0,159

0,8785

2461-2787

10

82

0,122

1

ИТОГО

82

 

 

 

n

0,1×å fi = 0,1×82 = 8,2 – для частот;

i=1

n

0,1×åwi = 0,1×1 = 0,1– для частостей.

i=1

10 Полностью данный вариационный ряд, как в исходном, так и ранжированном виде приводится в главе посвященной вероятностным распределениям.

158

n

0,9×å fi = 0,9×82 = 73,8 – для частот;

i=1

n

0,1×åwi = 0,9×1 = 0,9 – для частостей.

i=1

Д1 = 961 +300 × 0,1×82 -4 =1101 , 9

Д9 = 2161 +300 × 0,9×82 -59 = 2223 ; 72

Kд =

Д9

=

2223

= 2,02 .

Д1

1101

 

 

 

Фондовый коэффициент (Кф) применительно к нашему примеру покажет во сколько раз средний коэффициент преступности у 10% субъектов РФ с самым высоким уровнем преступности выше среднего коэффициента преступности 10% регионов с самым низким уровнем преступности по

ранжированному ряду: Kф = ххв .

н

В нашем примере длина вариационного ряда составляет 82 наблюдения (единицы). 10%=8,2. Округлим до 8, а, следовательно, возьмем 8 значений, отсчитывая их от начала ранжированного ряда, и 8 значений, отсчитывая их от конца ранжированного ряда:

Верхни

еНижние

361 2787

373 2751

425 2719

920 2633

1003 2595

1020 2583

1031 2570

1034 2504

Итого:

6167 21142

хв =

21142

= 2642 ,75 ;

хн =

6167

= 770,875 ;

 

8

 

 

8

 

159

Kф =

 

хв

=

2642,75

= 3,43 .

 

 

 

 

770,875

 

 

 

 

хн

 

 

 

 

Коэффициент дифференциации (coefficient of differentiation)

вычисляется по формуле:

 

 

 

 

Q

Q

1− Q1

 

 

 

Kдиф

 

 

 

Q

, где Q1

– первый квартиль; Q3

– третий

= 3

1

=

 

3

 

Q

 

 

Q + Q

 

 

1

 

 

 

 

3

1

1+ Q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

квартиль. Знакомый нам коэффициент вариации (coefficient of variation):

Квар = σ ×100 ,

 

обычно

в

1,5

раза

больше

коэффициента

x

 

 

 

 

 

 

 

 

 

 

 

 

дифференциации:

Кдиф »

Kвар

 

,

а

коэффициент

вариации

 

 

 

 

 

 

 

1,5

 

 

 

 

 

 

соответственно:

 

 

 

 

 

 

 

 

 

Квар » Кдиф ×1,5

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Квар = σ ×100 =

550

×100 = 30,69% ,

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

1792

 

 

 

 

 

 

 

 

 

Формула для нахождения нижнего квартиля:

 

 

1+int[(1+n) / 2] ,

где

int

- означает

целое число

(дробная часть

2

 

 

 

 

 

 

 

 

 

 

 

 

игнорируется (отбрасывается):

1+int[(1+82) / 2] = 21 . Находим 21 по счету значение ранжированного

2

вариационного ряда коэффициентов преступности по субъектам РФ в 2010 году, которое в нашем случае равно 1426.

Формула для нахождения третьего квартиля:

é1+int[(1+ n) / 2]ù

 

(n +1) - ê

2

ú

 

ë

û .

 

é1+int[(1+82) / 2]ù

= 62 . Находим 62 по счету значение

(82 +1) - ê

2

ú

ë

û

 

ранжированного вариационного ряда коэффициентов преступности по субъектам РФ в 2010 году, которое в нашем случае равно 2177.

Kдиф =

Q3

Q1

= 2177

−1426

= 0,208 .

 

Q3

+ Q1

2177

+1426

 

Кдиф »

Kвар

=

0,3069

= 0,205 .

1,5

1,5

 

 

 

 

 

160

Показатели концентрации по своей сути близки к показателям дифференциации. К показателям концентрации (concentration) относят:

1)коэффициент концентрации Джини (коэффициент локализации) (Gini index);

2)коэффициент Герфиндаля (Herfindahl index);

3)коэффициент Лоренца (Lorenz curve).

Пример. Возьмем данные о распределении коэффициентов преступности по субъектам Российской Федерации за 2010 год:

Число зарегистрированных преступлений в расчете на 100 тыс. чел. населения, единица,

значение показателя за год

 

2010

Российская Федерация

1852

Центральный федеральный округ

1620

Белгородская область

1101

Брянская область

1817

Владимирская область

1794

Воронежская область

1215

Ивановская область

1767

Калужская область

1795

Костромская область

1440

Курская область

1595

Липецкая область

1405

Московская область

1695

Орловская область

1681

Рязанская область

920

Смоленская область

2164

Тамбовская область

1267

Тверская область

2198

Тульская область

1034

Ярославская область

1634

г.Москва

1760

Северо-Западный федеральный округ

1736

Республика Карелия

2009

Республика Коми

2072

Архангельская область

1984

Ненецкий авт.округ

2029

Вологодская область

2012

161

Калининградская область

1797

Ленинградская область

1742

Мурманская область

2012

Новгородская область

1828

Псковская область

1788

г.Санкт-Петербург

1399

Южный федеральный округ (с 2010

1495

года)

 

Республика Адыгея

1055

Республика Калмыкия

1431

Краснодарский край

1275

Астраханская область

2583

Волгоградская область

1745

Ростовская область

1403

Северо-Кавказский федеральный округ

810

Республика Дагестан

425

Республика Ингушетия

373

Кабардино-Балкарская Республика

1042

Карачаево-Черкесская Республика

1020

Республика Северная Осетия - Алания

1003

Чеченская Республика

361

Ставропольский край

1332

Приволжский федеральный округ

1839

Республика Башкортостан

1778

Республика Марий Эл

1780

Республика Мордовия

1031

Республика Татарстан

1555

Удмуртская Республика

2144

Чувашская Республика

1426

Пермский край

2719

Кировская область

1547

Нижегородская область

2427

Оренбургская область

1631

Пензенская область

1236

Самарская область

2138

Саратовская область

1494

Ульяновская область

1365

Уральский федеральный округ

2331

Курганская область

2470

Свердловская область

2195

162

Тюменская область

2396

Ханты-Мансийский авт.округ-Югра

2487

Ямало-Ненецкий авт.округ

6275

Челябинская область

2402

Сибирский федеральный округ

2340

Республика Алтай

2426

Республика Бурятия

2751

Республика Тыва

1890

Республика Хакасия

2177

Алтайский край

1928

Забайкальский край

2595

Красноярский край

2454

Иркутская область

2633

Кемеровская область

2330

Новосибирская область

2504

Омская область

1658

Томская область

2787

Дальневосточный федеральный округ

2230

Республика Саха (Якутия)

1810

Камчатский край

1591

Приморский край

2570

Хабаровский край

2308

Амурская область

2148

Магаданская область

2205

Сахалинская область

2126

Еврейская автономная область

2172

Чукотский авт.округ

1685

Требуется: 1) вычислить коэффициент концентрации Джини (коэффициент локализации) и дать его интерпретацию. Построить кривую Лоренца; 2) вычислить коэффициент Герфиндаля; 3) вычислить коэффициент Лоренца; 4) используя правило сложения дисперсий, рассчитать общую, внутригрупповую и межгрупповую дисперсию для данного ряда (поскольку данный ряд мы разобьем на несколько частей); 5) найти коэффициент детерминации и эмпирическое корреляционное отношение с целью выяснения степени влияния региона на уровень преступности.

Решение:

163

1)Из исходного ряда уберем коэффициенты преступности для России в целом и общие коэффициенты по округам, оставив только коэффициенты для каждого конкретного субъекта РФ.

2)Ранжируем вариационный ряд от минимума к максимуму. Всего имеем N=83; минимум=361 (Чеченская Республика); максимум=6275 (Ямало-Ненецкий автономный округ).

Р.S. Исключим из анализа «выброс» - значение для ЯмалоНенецкого округа, оставив 82 значения.

Таблица. Ранжированный ряд коэффициентов преступности по субъектам РФ с частотами.

№ п/п

Ранж.

Частота

1

361

 

2

373

 

3

425

3

4

920

1

5

1003

 

6

1020

 

7

1031

 

8

1034

 

9

1042

 

10

1055

 

11

1101

 

12

1215

 

13

1236

9

14

1267

 

15

1275

 

16

1332

 

17

1365

 

18

1399

 

19

1403

 

20

1405

 

21

1426

 

22

1431

 

23

1440

 

24

 

1494

 

25

1547

 

26

1555

13

27

1591

 

28

1595

 

29

1631

 

30

1634

 

31

1658

 

164

32

1681

 

33

1685

 

34

1695

 

35

1742

 

36

 

1745

 

37

1760

 

38

1767

 

39

1778

 

40

1780

 

41

1788

 

42

1794

 

43

 

1795

 

44

1797

 

45

1810

 

46

1817

 

47

1828

21

48

 

1890

 

49

1928

 

50

1984

 

51

2009

 

52

2012

 

53

2012

 

54

2029

 

55

2072

 

56

2126

 

57

2138

 

58

2144

 

59

2148

12

60

2164

 

61

2172

 

62

2177

 

63

2195

 

64

2198

 

65

2205

 

66

2308

 

67

2330

 

68

2396

 

69

2402

 

70

2426

 

71

2427

 

72

2454

13

73

2470

 

74

2487

 

75

2504

 

76

2570

 

77

2583

 

165

78

2595

 

79

2633

 

80

2719

 

81

2751

 

82

2787

10

3) Определим

длину интервала: L =

КП макс КП мин

, где L – длина

 

h

интервала, h

– число групп, а число

групп

(h) по формуле

Стерджесса: h=1+3,322×logN. Для нашего случая получим:

h=1+3,322×log(82)=7,36≈8; L =

2787 361

8 =303≈300. Примем число

интервалов равным 8, а длину интервала 300.

P.S. Существует несколько способов определения длины интервалов: 1) равные интервалы (как в вышеприведенном случае):

L = Rh , где R – размах.

2) Равнонаполненные интервалы: f = Nh , где N – число наблюдений (единиц совокупности), f – частота. Для нашего примера N=82. Следовательно, имеем: f = 828 =10 . В данном случае

мы всю совокупность будем разбивать на десятки. В графе «частота» напротив каждого интервала будет стоять число 10 (за исключением последнего, куда можно включить число 12). Начало и конец каждого интервала для нашего примера будет определяться десятками (берем по 10 субъектов), отсчитанными по ранжированному ряду. Например, длина первого интервала будет от 361 до 1055, длина второго от 1101 до 1405 и т.д.

3) Интервалы, меняющиеся по арифметической прогрессии:

L =

 

 

 

R

 

, где R – размах.

1+2 +...h

Для нашего примера: L =

 

 

 

2787 361

 

 

= 67,3 .

1

+ 2

+3 + 4 +5 +6

+ 7

+8

 

 

 

Существуют и другие способы определения длины интервала, и с очевидностью встает вопрос, а какой из способов наиболее эффективный? В теории статистики на него имеется ответ

– способ, который для данного конкретного случая дает максимальную межгрупповую дисперсию. То есть для нашего примера нужно провести группировки по всем трем способам,

166