Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Диплом / suslov_ibragimov_ekonometrika

.pdf
Скачиваний:
46
Добавлен:
24.03.2015
Размер:
5.55 Mб
Скачать

72

Глава2.Описательная статистика

При вычислении дисперсии иногда удобнее пользоваться начальным моментом 2-го порядка.Связь с ним устанавл ивается следующим образом:

! ! !

s2 = αi (xi − xø)2 = αi x2i − 2øx αixi +øx2 =

←−−−→

!

= αi x2i − xø2 = m (2, 0) − m2 (1, 0) .

Корень квадратный из дисперсииÑ s или σ Ñявляется среднеквадратическим отклонением,иногда(главным образом,в англоязычной литературе)его называют стандартным отклонением.

Величины i "s называют центрированными и нормированными наблюдениями.Они измеряют значения признака в единицах среднеквадратического отклонения от среднего.Такая шкала измерения иногда называется стандартизованной

или стандартизированной.

Дисперсия(и среднеквадратическое отклонение)является мерой абсолютного рассеяния или разброса значений признака в совокупности.В принципе такой мерой мог бы служить 2-й момент относительно какого-то другого c,не равного xø, но лежащего в центральной области распределения признака.Однако используют именно дисперсию,поскольку ее величина однозначно определена и,в некотором смысле,не зависит от c.Дисперсия минимальна среди всех 2-х моментов относительно c.

Действительно,производная2-го момента по c

f (x)dx$ = −2 (E(x) − c)

0/

(x −dc

1 = −2 #- xf (x)dx − c -

 

d

c)2f (x)dx

 

 

 

равна 0 в точке c = E(x).Это точка минимума,поскольку2-я производная по c

вней равна 2,т.е.положительна.

Встатистике используются и другие показатели разброса.Примерами показателей абсолютного разброса являются:

max xi − min xi Ñ общий размах вариации,

2

x1−F − xF Ñ квантильный размах вариации,где F < 0.5 (достаточно

часто2используется квартильный размах вариации,то есть этот показатель при F = 0.25),

%αi |xöi | Ñ среднее линейное отклонение.

2.4.Моменты и другие характеристики распределения

73

Среднеелинейноеотклонениеимеетсмыслрассчитыватьнеотносительносреднего xø,а относительно медианы x0.5,поскольку именно в таком случае оно принимает минимально возможное значение.

Действительно,производная по

c среднего линейного отклонения относительно c

 

d

|

x

c f (x) dx

 

=

d

, c

(c − x) f (x) dx +

c(x − c) f (x) dx.

=

 

 

 

− |

 

 

/

 

/

 

 

0/

 

 

 

1

 

 

 

 

+

 

 

 

 

 

dc

 

 

 

dc

 

 

 

 

 

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

-

f (x) dx − -

f (x) dx

 

 

 

 

 

 

 

 

 

 

 

c

+∞

 

 

 

 

 

 

 

 

 

 

 

−∞

c

 

равна 0 при c = x0.5 (2-япроизводная в этой точке равна 2f (x0.5) и положительна по определению функции f ).

Для характеристики относительного разброса применяются различные формы коэффициента вариации.Например,он может рассчитываться как отношение среднего квадратичного отношения к среднему,общего или квантильного размаха вариации к медиане.Иногда его рассчитывают как отношения max xi к min xi или x1−F к xF (при F < 0.5).

Достаточно распространен еще один тип коэффициентов вариации,которые рассчитываются как отношения средней по верхней части совокупности к средней по нижней части совокупности.

Для того чтобы дать определение таким коэффициентам вариации,необходимо ввести понятие среднего по части совокупности.

Математическое ожидание можно представить в следующей форме:

E (x) = F F

-

xf (x) dx + (1 − F ) 1 − F x-

xf (x) dx =

1

xF

1

+∞

 

 

−∞

 

 

F

 

= F EF (x) + (1 − F ) E+F (x) .

Квантиль xF делит совокупность на две части, по каждой из которых определяется свое математическое ожидание:

EF (x) Ñпо нижней части,

E+F (x) Ñпо верхней части совокупности.

Приведенноетождествоопределяетсвязьмеждудвумяэтимиматематическимиожиданиями:

1

E+F (x) = 1 − F (E (x) − F EF (x)).

74

Глава2.Описательная статистика

По выборке аналогичные частичные средние рассчитываются следующим образом. Пусть xi , i = 1, . . . , N ряд наблюдений,упорядоченный по возрастанию.Тогда

Fi = Ni , i = 1, . . . , N Ñнакопленные относительные частоты,

 

1

 

i

 

 

 

 

 

 

i =

 

i!!

xi! Ñ i-я средняя по нижней части, i = 1, . . . , N

(øx0 = 0) ,

i

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

i!!

 

 

 

 

i+ =

 

 

1

xi! =

 

1

 

(øx − Fi i ) Ñ i-я средняя по верхней части,

N

i

1

 

Fi

 

 

 

 

=i+1

 

 

 

 

0N+ = 01.

 

 

 

 

 

 

 

 

i = 0, 1, . . . , N

Такой расчет не имеет необходимой иногда степени общности,поскольку позволяет найти частичные средние лишь для некоторых квантилей,которыми в данном случае являются сами наблюдения( xi = xFi ).Для квантилей xF при любых F частичные средние находятся по данным эмпирического распределения(предполагается, что l-й полуинтервал является квантильным):

 

1

l−1

 

1

 

 

 

 

 

!

 

 

 

 

 

F =

F

(l!=1 αl! l! + (F − Fl−1)

2

(zl−1 + xF ))

Ñсредняя по нижней части совокупности(здесь

1

(z

l−1

+ x ) Ñцентр последне-

 

 

 

2

 

 

F

го,неполного полуинтервала, F − Fl−1 Ñего вес).После подстановки выражения

для квантиля xF ,полученного в предыдущем пункте,эта формула приобретает следующий вид:

xø =

1

l−1

α xø + (F F ) z + F − Fl−1

.

 

 

!

 

 

 

 

l$.

F

F

,l!=1

l! l!

l−1

# l−1

i

При расчете средней по верхней части совокупности проще воспользоваться полученной выше формулой:

1

xø+F = 1 − F (øx − F xøF ).

Для расчета квантильного коэффициента вариации совокупность делится на3части:верхняя часть,объемом не более половины,нижняя часть такого же объема и средняя часть,не используемая в расчете.Данный коэффициент,называемый F × 100-процентным(например, 15-процентным),рассчитывается как отношение средних по верхней и нижней части совокупности:

 

 

 

1+−F =

xø − (1 − F ) xø1−F

,

 

 

F

 

 

F xøF

E1+−F (x)

= E (x)

 

(1 − F ) E1−F (x)

 

 

 

 

F EF (x)

EF (x)

 

 

 

,

.

, где F ! 0.5.

2.4.Моменты и другие характеристики распределения

75

Прииспользованиинепосредственноданныхвыборкиэтаформулаимеетдругойвид:

i

 

 

Fi i

!

< 2 =

N+ −i

=

 

(1

− Fi ) xøN −i

, где i

 

 

N

.

 

 

 

 

 

Такие коэффициенты вариации называют иногда,как и соответствующие квантили, медианными,если F = 0.5,квартильными,если F = 0.25,децильными,если F = 0.1,процентильными,если F = 0.01.Наиболее употребительны децильные коэффициенты вариации.

При расчете коэффициентов вариации в любой из приведенных форм предполагается,что характеризуемый признак может принимать только неотрицательные значения.

Существует еще одинÑграфическийÑ способ представления степени разброса значений признака в совокупности.Он используется для совокупностей объемных признаков,принимающих положительные значения. ЭтоÑкривая Лоренца или кривая концентрации.По абсциссе р асположены доли накопленной частоты,по ординатеÑдоли накопленного суммарного признака.Она имеет вид,изображенный на графике(рис. 2.10). Чем более выпукла кривая,тем сильнее дифференцирован признак.

Накопленные доли суммарного признака (%%)

Кривая Лоренца

Накопленные относительные частоты (%%)

Рис. 2.10

По оси абсцисс кривой Лоренца расположены значения величины F ×100%,по оси ординатÑв случае использования теоретического распределенияÑзначения величины:

xF

xf (x) dx

 

 

 

0

 

 

/

 

× 100%

+

 

 

/0

xf (x) dx

 

(предполагается,что x " 0),или,используя введенны е выше обозначения для частичных средних,

F EF (x) × 100%.

E (x)

При использовании данных эмпирического распределения по оси ординат расположены значения величины

F F × 100%.

76

 

Глава2.Описательная статистика

Припостроениикривойнепосредственноподаннымряданаблюденийсначаланагра-

фике проставляются точки

× 100%), i = 1, . . . , N,

(Fi × 100%, Fi

i

а затем они соединяются отрезками прямой линии.

В случае,еслизначение признака всовокупности не варьируется,средние по всемее частям одинаковы,и кривая Лоренца является отрезком прямой линии(пунктирная линия на рис. 2.10).Чем выше вариация значений признака,тем более выпукла кривая.Степень ее выпуклости или площадь выделенной на рисунке области может являться мерой относительного разброса.

Кривую Лоренца принято использовать для иллюстрации распределения дохода или имущества в совокупностях людей,представляющих собой население отдельных стран или регионов.Отсюда ее второе названиеÑкривая концентрации.Она выражает степень концентрации богатства в руках меньшинства.

В статистике центральные моменты q-го порядка обычно обозначаются через mq q Ñдля теоретических величин):

mq = m(q, xø) (µq = µ(q, E(x)).

Нормированный центральный момент3-го порядка

d3

= s3

#δ3

= σ3

$

 

 

m3

 

µ3

 

часто используется как мера асимметрии(скошенности)распределения.Если распределение симметрично,то этот показатель равен нулю.В случае его положительности считается,что распределен ие имеет правую асимметрию,при отрицательностиÑлевую асимметрию(см.ПриложениеA.3.1).

Следует иметь в виду,что такое определение левой и правой асимметрии может не соответствовать определению,данному в предыдущем пункте.Возможны такие ситуации,когда распределение имеет пр авую асимметрию,и среднее превышает медиану,но данный показательотрицателен.Инаоборот,среднее меньше медианы (левая асимметрия),но этот показатель положителен.

В этом можно убедиться,рассуждая следующим образом.

Пусть ϕ(x) Ñфункция плотности вероятности симметричного относительно нуля распределения с дисперсией σ2 ,т.е.

-

xϕ (x) dx = 0,

-

x2

ϕ (x) dx = σ2

,

- x3

ϕ (x) dx = 0,

+∞

 

+∞

 

 

+∞

 

−∞

-

−∞

 

 

 

−∞

 

 

ϕ (x) dx =

-

ϕ (x) dx = 0.5, ϕ(x) = ϕ(−x).

 

0

 

+∞

 

 

 

 

−∞ 0

2.4.Моменты и другие характеристики распределения

77

Δϕ

Ða

0

a

x

Рис. 2.11

Рассматривается случайная величина x,имеющая функцию плотности вероятности f (x) = ϕ(x) + γ ϕ(x).

Функция ϕ вносит асимметрию в распределение

x.Ее график имеет видÑ

сплошная линия на рисунке2.11,а свойства таковы:

 

-

 

ϕ(x) = − ϕ(−x), -

ϕ (x) dx = 0, -

ϕ (x) dx =

ϕ (x) dx = 0.

+∞

0

 

 

+∞

 

−∞

−∞

 

 

0

 

Параметр γ не должен быть слишком большим по абсолютной величине,чтобы сохранялась унимодальность распределения(и,конечно же,неотрицательность функции плотности).

Можно обозначить

-a -+∞

ϕ (x) dx = ϕ (a + x) dx = S > 0

00

иопределить величины a1 и a2 :

a

+∞

-0

x ϕ (x) dx = −a1S,

-0

x ϕ (a + x) dx = a2S.

Понятно,что a1

Ñматематическое ожидание случайной величины,заданной на от-

резке [0, a] и имеющей плотность распределения −S1 ϕ (x),поэтому 0 < a1 < a. Аналогично, a2 Ñматематическое ожидание случайной величины,заданной на отрезке [0, ∞] с плотностью вероятности S1 ϕ (a + x),поэтому 0 < a2.

78

 

Глава2.Описательная статистика

Теперь легко видеть,что(вводя дополнительное обозначение

a3)

 

-0 x ϕ(x) dx =-0 x ϕ(x) dx +

-a x ϕ(x) dx x== −a1S + a-0

ϕ(a + y) dy +

+∞

a

+∞

+∞

 

 

 

a+y

 

 

 

←−−−−−−−→1

 

←−−−−−−−−−−→

 

 

 

S

 

a S

 

 

-+∞

+y ϕ (a + y) dy = S (−a1 + a + a2) = a3 > 0.

0

←−−−−−−−−−−−−→

a2S

Аналогичным образом можно доказать,что

-+∞

x3 ϕ (x) dx = a4 > 0.

0

Прибавление γ ϕ к ϕ не меняет медиану,т.к.

-0 f (x) dx =

-0 ϕ (x) dx + γ-0

ϕ (x) dx = 0.5,

+∞

+∞

+∞

 

 

←−−−−−−→

←−−−−−−−→

 

0.5

 

0

но сдвигает среднее(из нуля):

E (x) =

-

xf (x) dx =

-

xϕ (x) dx + γ- x ϕ (x) dx =

 

 

 

+∞

+∞

 

 

+∞

 

 

 

 

−∞

 

−∞

 

 

 

−∞

 

 

 

 

 

 

←−−−−−−−→

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

= γ

0

x ϕ (x) dx +

+∞

= 2γa3.

 

 

 

 

 

-

x ϕ (x) dx

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

−∞

a

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

←−−−−−−−−−→3

←−−−−−−−−−→3

 

 

Таким образом,в соответствии с данным выше определением,если γ > 0,распределение имеет правую асимметрию(увеличивается плотность вероятности больших значений признака),и среднее,будучи положительным,выше медианы.Если γ < 0, распределение характеризуется левой асимметрией,и среднее ниже медианы.

2.4.Моменты и другие характеристики распределения

79

Теперь находится3-й центральный момент:

-+∞

µ3 = (x − E (x))3 f (x) dx =

−∞

-+∞

=x3f (x) dx − 3E (x)

- x2f (x) dx + 3E2(x)

- xf (x)dx − E3

(x) =

+∞

+∞

 

 

−∞

 

−∞

 

 

−∞

 

 

 

 

 

 

 

 

 

←−−−−−−−−−−−−−−−−−−−→

 

=

- x3

ϕ(x)dx +γ

- x3

ϕ(x)dx −3E(x)

2E3(x)

+

# - x2ϕ(x)dx +γ

- x2 ϕ(x)dx$

 

+∞

 

+∞

 

 

 

+∞

+∞

 

 

−∞

 

−∞

 

 

 

−∞

−∞

 

 

←−−−−−−−→

←−−−−−−−−−→

 

 

←−−−−−−−→

←−−−−−−−−−→

 

 

 

0

 

2a4

 

 

σ2

0

 

 

 

 

 

E(x)=2γa3

2γ(a4 − 3a3σ2 + 8γ2a33 =2γ (D + R),

 

 

 

+ 2E3(x)

=

где D = a4 − 3a3σ2, R = 8γ2a33.

Второе слагаемое в скобкахÑ R Ñвсегда положительно,и,если D (первое слагаемое)неотрицательно,товведенныйпоказатель асимметрииÇработаетÈправильно:если он положителен,то асимметрияÑправая,если отрицателен,тоÑлевая.

Однако D может быть отрицательным.Это легко показать.

 

 

a4

Пусть при заданном ϕ эта величина положительна(в этом случае

 

> 1).

3a3σ2

Сжатием графика этой функции к началу координат(пунктирная линия на рис. 2.11)

всегда можно добиться смены знака данной величины.

 

 

Преобразованная(сжатая)функция асимметрии

ϕ÷ связана с исходной функцией

следующим образом:

 

 

 

ϕ÷ (x) = ϕ (kx), где k > 1.

Свойстваэтойновойфункциитеже,чтоиисходной,ипоэтомувсепроведенныевыше

рассуждения для новой случайной величины с функцией плотности ϕ + γ ϕ÷ дадут

те же результаты.Новая величина

D ,обозначаемая теперь

÷

 

 

 

 

 

D ,связана с исходными

величинами следующим образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

D÷ = a÷4 − 3÷a3σ2 =

 

#

 

a4

− 3a3σ2$

 

 

 

 

 

 

 

 

k2

k2

 

 

 

 

 

(

+∞

kx=y, x= k1 y, dx= k1 dy

1

 

+∞

 

1

 

)

0

 

 

 

 

 

 

 

 

0

 

 

например, a÷3 = -

x ϕ (kx) dx

 

 

=

 

 

 

k2

-

y

ϕ (y) dy =

k2

a3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и при k > @

a4

> 1 она отрицательна.

 

 

 

 

 

 

 

 

 

 

 

 

3a3σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

80

 

 

 

 

Глава2.Описательная статистика

 

 

 

 

Таблица2.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

−3

−2

−1

0

1

2

3

 

 

ϕ

0.0625

0.125

0.1875

0.25

0.1875

0.125

0.0625

 

 

 

 

 

 

 

 

 

 

 

 

ϕ

0

−1

1

0

−1

1

0

 

 

ϕ÷

−0.2

−1

1

0

−1

1

0.2

 

В такой ситуации(если γ достаточно мал,и вслед за

÷

отрицательно и

÷ ÷

D

D + R)

3-й центральный момент оказывается отрицательным при правой асимметрии и положительным при левой асимметрии.

Можнопривестичисловойпримерсовокупностисправойасимметрией,3-й центральныймоменткоторойотрицателен.Исходныеданныеприведенывтаблице2.1.

При γ = 0.03 среднее равно 0.06 (превышает медиану,равную 0),а3-й центральный момент равен −0.187.Но стоит немного растянуть функцию асимметрии от начала координат(последняя строка таблицы),как ситуация приходит в норму. При том же γ среднее становится равным 0.108,а3-й центральный момент равен

+0.097.

Проведенныйанализобладаетдостаточнойстепеньюобщности,т.к.любуюфункцию плотности вероятности f можно представитькак сумму функций ϕ и ϕ с указанными выше свойствами(при этом γ = 1).Эти функции определяются следующим

образом(предполагается,что медиана для функции

f

равна0):

ϕ (x) =

1

(f (x) + f (−x)) , ϕ (x) =

1

 

(f (x) − f (−x)).

 

 

 

2

2

Таким образом,если асимметрияÇсосредоточенаÈвблизи от центра распределения (функция асимметрии ϕ достаточноÇподжатаÈк медиане),то3-й центральный момент не может играть роль показателя асимметрии.

o

Надежным показателем асимметрии является величина (øx − x) или,учитывая s

приведеннуювпредыдущемпунктеэмпирическуюзакономерностьврасположении

моды,медианы и среднего,

3 (øx − x0.5)

.

 

s

Достаточно употребителен также квартильный коэффициент асимметрии,рассчитываемый как отношение разности квартильных отклонений от медианы к их сумме:

(x0.75 x0.5) − (x0.5 x0.25)

=

x0.25 + x0.75 − 2x0.5 .

(x0.75 x0.5) + (x0.5 x0.25)

 

x0.75 x0.25

 

> KF ,

2.4.Моменты и другие характеристики распределения

81

Эти три коэффициента положительны при правой асимметрии и отрицательны при левой.Для симметричных распределений значения этих коэффициентов близки к нулю.Здесь требуется пояснить,что означаетÇблизки к нулюÈ.

Рассчитанные по выборке,значения этих коэффициентовÑпусть они обозначаются через K c (c Ñ calculated) Ñне могут в точности равняться нулю,даже если истинное распределение в генеральной совокупности симметрично.Как и исходные для их расчета выборочные данные,эти коэффициенты являются случайными величинами K с определенными законами распределения.Эти законы (в частности,функции плотности вероятности)известны в теории статистики,если справедлива нулевая гипотеза,в данном случаеÑесли истинное распределение симметрично.А раз известна функция плотности,то можно определить область, в которую с наибольшей вероятностью должно попасть расчетное значение коэффициента K c в случае справедливости нулевой гипотезы.Эта область,называемая доверительной,выделяется квантилем KF с достаточно большим F .Обычно принимают F = 0.95.В данном случае K могут быть как положительными,так и отрицательными,их теоретическое расп ределение(при нулевой гипотезе)симметрично относительно нуля,и использоваться должен двусторонний квантиль.

Если расчетное значение K c попадает в доверительную область,т.е.оно по абсолютной величине не превосходит KF ,то нет оснований считать,что истинное распределение не симметрично,и нулевая гипотеза не отвергается.На основании этого не следует делать вывод о симметричности истинного распределения. Установлено только то,что наблюдаемые факты не противоречат симметричности.Другими словами,если распределение симметрично,то расчетное значение попадает в доверительную область.Но обратное может быть не верным.

Если расчетное значение не попадает в доверительную область или,как говорят,попадает в критическую область,то маловероятно,что величина K имеет принятое(при нулевой гипотезе)распределение,и нулевая гипотеза отвергается с вероятностью ошибки(1-го рода) 1 − F (обычно 0.05).Причем если K c

то принимается гипотеза о правой асимметрии,если K c < −KF ,то принимается гипотеза о левой асимметрии.

Границы доверительной(критической )области зависят от числа наблюдений. Чем больше наблюдений,тем меньше KF ,при прочих равных условиях,т.е.тем у´ же доверительная областьÑобластьÇнуляÈ.Это означает,что чем больше использовано информации,тем точнее,при прочих равных условиях,сделанные утверждения.

Таким образом,фразаÇ K c близко к нулюÈозначает,что |K c | ! KF .

Приведенные здесь рассуждения используются в теории статистики при про-

верке статистических гипотез,или тестировании (по англоязычной терминоло-

гии),а также при построении доверительных интервалов (областей).

Соседние файлы в папке Диплом