Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика лекции ЭИ, ЭТ 2012.doc
Скачиваний:
247
Добавлен:
03.05.2015
Размер:
1.93 Mб
Скачать

4.6. Симметричные и асимметричные распределения. Показатели асимметрии и эксцесса для характеристики асимметричных рядов распределения.

При анализе вариационных рядов смещение от центра и крутизну распределения характеризуют специальные показатели. Эмпирические распределения, как правило, смещены от центра распределения вправо или влево, асимметричны. Нормальное распределение строго симметрично относительно средней арифметической, что обусловлено четностью функции.

Асимметрия распределения возникает вследствие того, что какие-либо факторы действуют в одном направлении сильнее, чем в другом, или процесс развития явления таков, что доминирует какая-то причина. Кроме того, природа некоторых явлений такова, что имеет место асимметричное распределение.

Наиболее простой мерой асимметрии является разность между средней арифметической, модой и медианой:

  • в симметричном ряду: = Мо = Ме;

  • при правосторонней асимметрии: Мо < Ме < ;

  • при левосторонней: Мо > Ме > .

Для определения направления и величины смещения (асимметрии) распределения рассчитывается коэффициент асимметрии, представляющий собой нормированный момент третьего порядка:

As=3/3, где 3 – центральный момент третьего порядка; 3 –среднее квадратическое отклонение в кубе. 3 = (m3 – 3m1 m2 + 2m13)k3.

При левосторонней асимметрии коэффициент асимметрии (As<0), при правосторонней (As>0) .

Если вершина распределения сдвинута влево и правая часть ветви оказывается длиннее левой, то такая асимметрия является правосторонней, в противоположном случае левосторонней .

Рис. Асимметрия распределения:

а – правосторонняя; б – левосторонняя

Рис. Характеристика распределений в соответствии с эксцессом:

1 – высоковершинное; 2 – нормальное; 3 – низковершинное

Соотношение между модой, медианой и средней арифметической в симметричном и асимметричном рядах позволяет в качестве меры асимметрии использовать более простой показатель коэффициента асимметрии Пирсона :

Кa = (–Мо)/. Если Кa>0, то асимметрия правосторонняя, если Кa<0, то асимметрия левосторонняя, при Кa=0 ряд считается симметричным.

Более точно асимметрию можно определить, используя центральный момент третьего порядка:

, где 3 = (m3 – 3m1 m2 + 2m13)k3.

Если > 0, то асимметрию можно считать значительной, если< 0,25 асимметрию можно считать не значительной.

Для характеристики степени отклонения симметричного распределения от нормального по ординате используется показатель островершинности, крутизны распределения, называемый эксцессом:

Ex = (4/4) – 3, где: 4 – центральный момент четвертого порядка.

Для нормального распределения Ех = 0, т.е. 4/4 = 3. 4 = (m4 – 4m3 m1 + 6m2 m21 – 3 m41)*k4.

У высоковершинных кривых эксцесс положительный, у низковершинных отрицательный (рис. Г.2).

Показатели эксцесса и асимметрии необходимы в статистическом анализе для определения неоднородности совокупности, асимметричности распределения и близости эмпирического распределения к нормальному закону. При значительных отклонениях показателей асимметрии и эксцесса от нуля нельзя признать совокупность однородной, а распределение близким к нормальному. Сопоставление фактических кривых с теоретическими позволяет математически обосновать полученные статистические результаты, установить тип и характер распределения социально-экономических явлений, прогнозировать вероятность появления изучаемых событий.

4.7. Обоснование близости эмпирического (фактического) распределения к теоретическому нормальному распределению. Нормальное распределение (закон Гаусса-Лапласа) и его характеристики. «Правило трех сигм». Критерии согласия (на примере критерия Пирсона или Колгомогорова).

Можно заметить определенную связь в изменении частот и значений варьирующего признака. Частоты с ростом значения признака сначала увеличиваются, а затем после достижения какой-то максимальной величины уменьшаются. Такие закономерные изменения частот в вариационных рядах называются закономерностями распределения.

Для выявления закономерности распределения необходимо, чтобы вариационный ряд содержал достаточно большое количество единиц, а сами ряды представляли собой качественно однородные совокупности.

Построенный по фактическим данным полигон распределения - это эмпирическая (фактическая) кривая распределения, отражающая не только объективные (общие), но и субъективные (случайные) условия распределения, не характерные для изучаемого явления.

В практической работе закон распределения находят путем сравнения эмпирического распределения с одним из теоретических и оценки степени различия или соответствия между ними. Теоретическая кривая распределения отражает в чистом виде, без учета влияния случайных факторов, общую закономерность распределения частот (плотности распределения) в зависимости от значений варьирующих признаков.

В статистике распространены различные виды теоретических распределений: нормальное, биномиальное, Пуассона и др. Каждое из теоретических распределений имеет свою специфику и область применения.

Закон нормального распределения характерен для распределения равновероятных событий, происходящих при взаимодействии множества случайных факторов. Закон нормального распределения лежит в основе статистических методов оценки параметров распределения, репрезентативности выборочных наблюдений, измерения взаимосвязи массовых явлений. Для проверки, насколько фактическое распределение соответствует нормальному, необходимо сравнить частоты фактического распределения с теоретическими частотами, характерными для нормального закона распределения. Эти частоты являются функцией нормированных отклонений. Поэтому по данным эмпирического ряда распределения вычисляют нормированные отклонения t. Затем определяют соответствующие им теоретические частоты. Таким образом, выравнивается эмпирическое распределение.

Нормальное распределение или закон Гаусса-Лапласа описывается уравнением , где yt – ордината кривой нормального распределения, или частость (вероятность) величины х нормального распределения; – математическое ожидание (среднее значение) индивидуальных значений х. Если значения (х – ) измерить (выразить) в величинах среднего квадратического отклонения , т.е. в стандартизованных (нормированных) отклонениях t = (x – )/, то формула примет вид: . Нормальное распределение социально-экономических явлений в чистом виде встречается редко, однако, если соблюдена однородность совокупности, часто фактические распределения близки к нормальному. Закономерность распределения изучаемых величин выявляют посредством проверки соответствия эмпирического распределения теоретически нормальному закону распределения. Для этого фактическое распределение выравнивается по кривой нормального и рассчитываются критерии согласия.

Нормальное распределение характеризуется двумя существенными параметрами, определяющими центр группирования индивидуальных значений и форму кривой: средней арифметической и средним квадратическим отклонением . Кривые нормального распределения различаются положением на оси абсцисс центра распределения и разбросом вариант около этого центра  (рис. 4.1 и 4.2). Особенностью кривой нормального распределения является ее симметричность относительно центра распределения – по обе стороны от ее середины образуются две равномерно убывающие ветви, асимптотически приближающиеся к оси абсцисс. Поэтому при нормальном распределении средняя, мода и медиана совпадают: = Мо = Ме.

x

Рис.4.1 Нормальное распределение

Рис. 4.2. Нормальное распределение

с различными дисперсиями (12 < 22)

Кривая нормального распределения имеет две точки перегиба (переход от выпуклости к вогнутости) при t = 1, т.е. при отклонении вариантов от средней (х – ), равном среднему квадратическому отклонению . В пределах  при нормальном распределении заключается 68,3%, в пределах 2 – 95,4%, в пределах 3 – 99,7% количества наблюдений или частот ряда распределения. На практике почти не встречаются отклонения, превышающие 3поэтому приведенное соотношение называется «правилом трех сигм».

Для расчета теоретических частот применяется формула:

.

Величина есть функция от t или плотность нормального распределения, которая определяется по специальной таблице, выдержки из которой приведены в табл. 4.2.

Значения плотности нормального распределения Таблица 4.2

t

(t)

t

(t)

t

(t)

t

(t)

0,0

0,2

0,4

0,6

0,8

0,3989

0,3910

0,3683

0,3332

0,2897

1,0

1,2

1,4

1,6

1,8

0,2420

0,1942

0,1497

0,1109

0,0790

2,0

2,2

2,4

2,6

2,8

0,0540

0,0355

0,0224

0,0136

0,0079

3,0

3,2

3,4

3,6

3,8

0,0044

0,0024

0,0012

0,0006

0,0003

График на рис. 4.3 наглядно демонстрирует близость эмпирического (2) и нормального (1) распределений.

Рис. 4.3. Распределения филиалов почтовой связи по численности

работников: 1 – нормальное; 2 – эмпирическое

Для математического обоснования близости эмпирического распределения закону нормального распределения рассчитываются критерии согласия.

Критерий Колмогорова - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному. А. Н. Колмогоров предложил для определения соответствия между эмпирическим и теоретическим нормальным распределениями использовать максимальную разность накопленных частот или частостей этих рядов. Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения рассчитывают критерий согласия = D/ , где D – максимальная разность между кумулятивными (накопленными) эмпирическими и теоретическими частотами, n – численность единиц совокупности. По специальной таблице определяют Р() – вероятность достижения , которая означает, что если вариационный признак распределен по нормальному закону, то из-за случайных причин максимальное расхождение между эмпирическими и теоретическими накопленными частотами будет не меньшим, чем фактически наблюденное. На основании значения Р() делают определенные выводы: если вероятность Р() достаточно велика, то гипотезу о соответствии фактического распределения нормальному закону можно считать подтвержденной; если вероятность Р() мала, то нулевая гипотеза отвергается, расхождения между фактическим и теоретическим распределениями признаются существенными.

Значения вероятностей для критерия согласия  Таблица 4.3

Р()

Р()

Р()

0,3

1,000

0,8

0,544

1,5

0,022

0,4

0,997

0,9

0,399

1,8

0,013

0,5

0,964

1,0

0,27

2,0

0,006

0,6

0,864

1,1

0,18

2,1

0,003

0,7

0,711

1,2

0,11

2,3

0,000

Критерии Пирсона 2 ("хи-квадрат") - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному: , где fi, f'i – частоты эмпирического и теоретического распределений в определенном интервале. Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше критерий 2. Чтобы отличить существенность различий частот эмпирического и теоретического распределений по критерию 2 от различий в результате случайностей выборки, рассчитанное значение критерия 2расч сравнивают с табличным 2табл при соответствующем числе степеней свободы и заданном уровне значимости. Уровень значимости выбирается так, что Р(2расч>2табл)=. Число степеней свободы равно hl, где h – число групп; l – число условий, которые должны выполняться при вычислении теоретических частот. Для расчета теоретических частот кривой нормального распределения по формуле необходимо знать три параметра , , f, поэтому число степеней свободы равно h–3. Если 2расч>2табл, т.е. 2 попадает в критическую область, то расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных. В этом случае нулевая гипотеза отвергается. Если 2расч2табл, т.е. рассчитанный критерий не превышает максимально возможное расхождение частот, которое может возникнуть в силу случайности, то в данном случае гипотеза о соответствии распределений принимается. Критерий Пирсона эффективен при значительном числе наблюдений (n50), причем частоты всех интервалов должны насчитывать не менее пяти единиц (при меньшем количестве интервалы объединяют), а число интервалов (групп) должно быть большим (h>5), поскольку оценка 2 зависит от числа степеней свободы.

Критерий Романовского - критерий согласия, позволяющий оценить степень близости эмпирического распределения к нормальному. В.И. Романовский предложил близость эмпирического распределения к кривой нормального распределения оценивать по отношению:

, где h – число групп.

Если отношение больше 3, то расхождение частот эмпирического и нормального распределений нельзя признать случайным и гипотезу о нормальном законе распределения следует отвергнуть. Если отношение меньше или равно 3, то можно принять гипотезу о нормальном характере распределения данных.