Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Диплом / suslov_ibragimov_ekonometrika

.pdf
Скачиваний:
41
Добавлен:
24.03.2015
Размер:
5.55 Mб
Скачать

132

 

 

 

 

 

 

 

 

 

 

Глава4.Введение в анализ связей

то

!

 

 

 

 

! !

 

 

 

 

 

 

 

 

 

 

FI (J ) =

αI !(J ) =

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

αI !(J )+I (Jø)

 

 

 

 

 

 

 

 

I !(J )!I (J )

 

 

I !(J )!I (J ) Jø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

α

 

 

ø

= F

 

ø .

 

 

 

 

 

 

 

 

 

 

 

I !(J )!I (J )

I !(J )+I !(J )

I (J )+IK (J )

 

 

 

 

 

 

 

 

 

 

 

!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I !(Jø) !IK(Jø)

 

 

 

 

 

Кроме того,

 

 

 

 

 

 

!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

I (J )

=

f

 

ø

 

ø ,

 

 

 

 

 

(4.5)

 

 

 

 

 

 

 

 

I (J )+I (J ) I (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

т.к. I =

 

ø .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I (J ) I (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Действительно:

 

 

!

 

 

 

 

 

 

 

 

 

 

!

 

 

 

 

!

 

 

 

α

 

 

ø

 

 

1

 

 

 

 

 

 

f

ø

ø

=

 

 

 

I (J )+I (J )

ø =

 

 

 

α

ø

= f

 

.

 

 

 

 

 

 

 

 

 

 

 

I (J )

 

I (J )+I (J ) I (J )

 

 

 

I (J )

 

ø

I (J )

I (J )

I (J )+I (J )

 

 

ø

 

 

 

 

ø

 

 

 

 

ø

 

 

 

 

 

 

 

 

 

I (J )

 

 

 

 

 

 

J

 

 

 

J

 

 

 

 

 

 

 

 

 

 

J

 

 

 

 

Крайним случаем предельных распределений являются распределения частот отдельных признаков(см.п. 2.1),которые получаются,если множества J включают лишь один элемент(признак)из j = 1, . . . , n.Для таких распределений

I(J ) → ij (j).

Вчастном,но достаточно важном случае при n = 2 частоты распределения обычно представляют в таблице сопряженности,или корреляционной таблице:

 

1

ááá

i2

ááá

k2

Y

1

N11

ááá

N1i2

ááá

N1k2

N1(1)

.

.

 

 

.

 

 

.

.

.

. ..

 

. ..

 

.

.

.

.

 

. .

 

. .

.

i1

Ni11

ááá

Ni1i2

ááá

Ni1k2

Ni1(1)

.

.

 

 

.

 

 

.

.

.

. ..

 

. ..

 

.

.

.

.

 

. .

 

. .

.

k1

Nk11

ááá

Nk1i2

ááá Nk1k2

Nk1(1)

Y

N1(2)

ááá

Ni2(2)

ááá

Nk2(2)

N

4.1.Совместные распределения частот количественных признаков

133

В этом случае существует только два маргинальных распределения частотÑ отдельно для1-го признака(итоговый столбец таблицы сопряженности)и для2-го признака(итоговая строка).Для частот и д ругих параметров этих распределений удобнее и нагляднее1-й способ обозначения:вместо Ni1(1) и N12(2) используется,соответственно, Ni1 и N i2 .Этот способ обозначений удобен,если n мало, но описать общий случай,как это сделано в ыше,с его помощью весьма затруднительно.Формулы(4.3)в случае двух призн аков принимают вид(после запятой эти же формулы даются в обозначениях1-го способа):

Fi1(1) = Fi1k2 ,

Fi2(2) = Fk1i2 ,

Аналогично,для формул(4.5):

 

k2

 

fi1(1) =

i!2

i2(2),

fi1i2

 

=1

 

 

k1

 

fi2(2) =

i!1

i1(1),

fi1i2

 

=1

 

Fi1 = Fi1k2 ;

F i2 = Fk1i2 .

 

k2

 

fi1 =

i!2

i2 ;

fi1i2

 

=1

 

 

k1

 

f i2 = fi1i2

i1 .

 

=1

 

 

i!1

 

Если в таблице сопряженности разместить не частоты,а плотности относительных частот,и на каждой клетке таблицы построить параллелепипед высотой, равной соответствующему значению плотности,то получится трехмерный аналог гистограммы,который иногда называют стереограммой.Ее верхнюю поверхность называют поверхностью двухмерного распределения.

Если предположить,что N, k1, k2 → ∞,допуская при этом,что

z01, z02 → −∞,а zk11, zk22 → ∞,то f и F станутгладкимифункциями f (x1, x2) и F (x1, x2),соответственно,распределения плотности вероятности и распре-

деления вероятности.ЭтоÑтеоретические функции распределения.Формулы (4.1Ð4.3, 4.5)записываются для них следующим образом:

--

f (x1, x2) dx1dx2 = 1,

−∞ −∞

 

 

 

 

F (x1, x2) = -x1 -x2 f x1!

, x2!

dx1!

dx2! ,

−∞ −∞

0

 

1

 

F (x1) = F (x1, ∞), F (x2) = F (∞, x2),

--

f (x1) = f (x1, x2) dx2, f (x2) = f (x1, x2) dx1.

−∞ −∞

134

Глава4.Введение в анализ связей

Легко представить возможные обобщения таблицы сопряженности на случай n > 2.Ее аналогом является n-мерный прямоугольный параллелепипед,в итоговых гранях которого(в таблице сопряженности таких граней двеÑитоговые столбец и строка)даны все возможные маргинальные распределения частот.Итоговые граниÑкрайние,предельные,мар гинальные части параллелепипеда.Это дает еще одно объяснение используемому терминуÑ Çмаргинальные распределенияÈ.

Исходное распределение илюбоемаргинальное распределение частотстроятся по всей совокупности.Однако важное значение имеют и распределения,построенные по отдельным частям выборки.Так,на ряду с рассмотренным распределением частот признаков J по группам класса J ,можно говорить о распределении частот

признаков ø (всех оставшихся признаков)по конечным группам в каждой отдель-

J

ной группе класса J .ЭтоÑ условные распределения частот.Они показывают

распределения частот признаков ø при условии,что все остальные признаки

J J

зафиксированы на определенных уровнях I (J ).В таблице сопряженности таковыми являются распределения1-го приз нака в каждом отдельном столбце,если

J = 2,и распределения2-го признака

в каждой отдельной строке,если J = 1.

 

 

 

 

N

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

ø

=

 

 

I (J )+I (J )

Ñотносительные частоты условного распределения

 

 

 

 

I (J ) | I (J )

 

 

 

NI (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ø

по I

(J ).Если числитель и знаменатель правой части этой формулы

признаков J

поделить на N ,то получится

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

ø

 

 

 

 

=

 

I (J )+I (J )

 

или

 

 

 

 

 

 

 

 

 

 

 

| I (J )

 

 

 

αI (J )

 

 

 

 

 

 

 

 

 

 

 

I (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

ø

| I (J )

α

 

 

 

= α

 

 

ø .

 

 

 

(4.6)

 

 

 

 

 

 

 

I (J )

 

I (J )

I (J )+I (J )

 

 

 

 

 

 

 

 

α

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

ø

=

 

I (J ) | I (J )

Ñплотностиотносительныхчастотусловногораспре-

 

I (J ) | I (J )

 

 

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

деления.Если левую часть рав енства(4.6)разделить на

ø

I (J )

,а правуюÑ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I (J )

 

на I

(оба этих делителя,как отмечено выше,равны),т о получится аналогичное

(4.6)равенство для плотностей:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

ø

 

 

 

 

f

I (J )

= f

 

 

ø .

 

 

 

(4.7)

 

 

 

 

 

 

 

 

I (J ) | I (J )

 

 

I (J )+I (J )

 

 

 

 

В случае двух признаков и при использовании1-го способа индексации:

 

 

 

 

fi1 | i2 =

 

Ni1i2

 

 

1

 

, f i2 | i1 =

 

Ni1i2

 

1

,

 

 

 

 

 

 

N i2

i1

 

Ni1

 

i2

 

i1

 

и i2 Ñрезультат использования перв ого способа индексации для i1(1)

иi2(2);

fi1 | i2 f i2 = fi1i2 , f i2 | i1 fi1 = fi1i2 .

4.1.Совместные распределения частот количественных признаков

135

В результате объединения двух последних равенств и перехода к непрерывному случаю получаются известные формулы математической статистики об условных распределениях:

f (x1 | x2) f (x2) = f (x1, x2) = f (x2 | x1) f (x1),

из которых,в частности,следует тождество

теоремы Байеса:

f (x1 | x2) f (x2) = f (x2 | x1) f (x1).

Далее,по определению,

 

 

FI (Jø) | I (J ) =

 

αI !(Jø) | I (J )

 

I !(Jø)!I (Jø)

 

!

 

Ñнакопленные относительные частоты условного распределения.Правую часть этого равенства можно преобразовать:

F ø

=

!

NI (J )+I !(Jø) =

N

!

NI (J )+I !(Jø) = FI (J )+I (Jø) ,

I (J ) | I (J )

 

I !(Jø)!I (Jø)

NI (J )

 

NI (J )

I !(Jø)!I (Jø)

N

 

FI (J )

 

 

 

 

 

 

 

 

 

 

т.е.для накопленных относительных частот получается соотношение такое же, как и для плотностей относительных частот f :

F ø

F

= F

ø .

(4.8)

I (J ) | I (J )

I (J )

 

I (J )+I (J )

 

В непрерывном случае для двух признаков:

F (x1 | x2)F (x2) = F (x1, x2) = F (x2 | x1)F (x1),

F (x1 | x2)F (x2) = F (x2 | x1)F (x1).

Количество параметров относительной частоты(также как и плотности отно-

сительной частоты и накопленной относительной частоты) α ø

условного

ø

 

ø

 

03

1

I (J ) | I (J )

ø

ø

K

J

=

 

kj Ñчислу всех возмож-

распределения признаков J по I (J ) равно

 

ø

 

 

 

 

J

 

 

 

ных сочетаний уровней признаков J .Таких условных распределений признаков J

имеется K J Ñдля каждого возможного сочетания уровней факторов

J .Так,при

n = 2 в таблице сопряженности структура каждого столбца(результат деления элементов столбца на итоговыйÑсумму элементов)показывает относительные частоты условного распределения1-го признака по уровням2-го признака(если J = 2).Количество параметров относительной частоты каждого такого условного

136

Глава4.Введение в анализ связей

распределенияÑ k1,а число столбцовÑуслов ных распределенийÑ k2.АналогичноÑдля строк таблицы сопряженности(если J = 1).

Маргинальное распределение признаков ø может быть получено из этой со-

J

вокупности условных распределений(для плотностей относительных частот):

 

ø =

!

 

 

 

(4.9)

f

f

ø

α

I (J )

 

I (J )

 

I (J ) | I (J )

 

 

J

или

f

ø

 

I (J )

=

!

 

 

 

 

f

ø

f

I (J ) I (J )

.

 

J

I (J ) | I (J )

 

 

 

 

 

 

 

Действительно,в соответствии с(4.5)

 

ø =

!

 

 

 

f

f

ø

I (J )

,

 

I (J )

 

I (J )+I (J )

 

 

 

J

 

 

 

а,учитывая(4.7),

!

f

ø

 

I (J )+I (J )

J

 

=

!

 

 

I (J )

 

J

I (J ) | I (J )

I (J )

 

 

 

 

Соотношение,аналогичное(4.9),выполняется и для самих относительных частот:

 

 

=

!

 

 

 

(4.10)

α

ø

α

ø

α

 

 

I (J )

 

J

I (J ) | I (J ) I (J )

 

 

 

 

 

 

 

 

(оно получается умножением обеих частей соотношения(4.9)на

ø ),а вслед за

ним и для накопленных относительных частот:

 

 

I (J )

 

 

 

 

 

=

!

 

 

 

(4.11)

F

ø

F

ø

α

.

I (J )

 

I (J ) | I (J )

I (J )

 

 

J

Такая связь условных и маргинального распределений наглядно иллюстрируется таблицей сопряженности(для относительных частот).Очевидно,что средневзвешенный,по весам итоговой строки,вектор структур столбцов этой матрицы алгебраически есть вектор структуры итогового столбца.АналогичноÑдля строк этой матрицы(для условных и маргина льного распределений2-го признака).

В непрерывном случае при n = 2 соотношение(4.9)имеет вид:

f (x1) =

- f (x1 | x2) f (x2) dx2, f (x2) =

- f (x2 | x1) f (x1) dx1.

 

−∞

−∞

4.1.Совместные распределения частот количественных признаков

137

Если итоговые грани n-мерного прямоугольного параллелепипеда параметров распределения(обобщения таблицы сопряженности),как отмечалось выше,дают все возможные маргинальные распределения,то ортогональныеÇсрезыÈэтого параллелепипеда(как строки и столбцы таблицы сопряженности)представляют все возможные условные распределения.

Условные распределения,сопоставляющие в определенном смысле вариации

признаков двух разных групп ø и ,используются в анализе связей между этими

J J

двумя группами признаков.При этом чр езвычайно важно понимать следующее. Речь в данном случае не идет об анализе причинно-следственных связей,хотя фор-

ø

приусловии,чтопризнаки J

принимают

мальноизучаетсяповедениепризнаков J

разные значения,т.е.признаки J выступают как быÇпричинойÈ,апризнаки

ø

Ñ

J

ÇследствиемÈ.Направление влияния в таком анализе не может быть определено. ЭтоÑпредмет более тонких и сложных методов анализа.Более того,содержательно признаки этих групп могут быть не связаны,но,если они одновременно зависят от каких-то других общих факторов,то в таком анализе связь между ними может проявиться.Такие св язи в статистике называют ложными корреляциями (или ложными регрессиями).Поэтому все гда желательно,чтобы формальному анализу зависимостей предшествовал содержательный,в котором были бы сформулированы теоретические гипотезы и построены теоретические модели.А результаты формального анализа использовались бы для проверки этих гипотез.То естьиздвух задачстатистического анализасвязей,сформулированных впреамбуле к этому разделу,предпочтительней постановка второй задачи.

 

ø

не зависят друг от друга,то очевид-

 

Если признаки двух множеств J и J

но,что условные распре деления признаков

ø

J не должны меняться при изменении

уровней признаков J .Верно и обратное:если условные распределения признаков

ø

 

ø

J

одинаковы для всех уровней I (J ),то признаки двух множеств J и J не зависят

друг от друга.Таким образом,необходимым и достаточным условием независи-

мости признаков двух множеств ø и является неизменность совместных рас-

J J

пределений признаков øпри вариации уровней признаков .Это условие можно

J J

сформулировать и в симметричной форме:неизменность совместных распределе-

ний признаков J при вариации уровней признаков

ø

J .

Длятаблицысопряженностиэтоусловиеозначает,чтоструктурывсехеестолбцов одинаковы.Одинаков ы и структуры всех ее строк.

Итак,в случае независимости данных множеств признаков относительные ча-

стоты α ø

не зависят от I (J ) и их можно обозначить через α÷ ø .Тогда

I (J ) | I (J )

I (J )

из соотношения (4.10) следует,что относительные частоты этого распределения

совпадают с относительными частотами соответствующего маргинального распре-

деления: α÷ ø

= α

ø ,т.к.

%

α

 

= 1,и соотношения(4.6)приобретают вид:

I (J )

 

I (J )

J

I (J )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

ø α

I (J )

= α

ø .

(4.12)

 

 

 

 

I (J )

 

I (J )+I (J )

 

138

Глава4.Введение в анализ связей

В случае двух признаков при

использовании первого способа индексации:

αi1 α i2 = αi1i2 .

 

Не сложно убедиться в том,что аналогичные соотношения в случае независимости признаков выполняются и для f и F :

f

ø f

I (J )

= f

 

ø ,

(4.13)

 

I (J )

 

 

I (J )+I (J )

 

fi1 f i2 = fi1i2 ,а в непрерывном случае: f (x1)f (x2) = f (x1, x2),

 

F

ø

F

= F

ø .

(4.14)

 

I (J )

 

I (J )

 

 

I (J )+I (J )

 

Fi1 F i2 = Fi1i2 , F (x1)F (x2) = F (x1, x2).

Любоеизсоотношений(4.12),(4.13),(4.14)являетсянеобходимымидостаточ-

ным условием независимости признаков

ø

и J .Необходимость следует из самого

J

вывода этих соотношений.Достаточность легко показать,например,для(4.12). Так,если выполняется(4.12),то в соответствии с(4.4):

 

 

 

 

 

 

 

 

 

α

ø

 

 

 

 

 

 

α

ø

α

 

 

 

 

 

 

 

 

α

ø

 

=

 

 

I (J )+I (J )

=

 

I (J )

I (J )

= α

ø ,

 

 

 

 

 

 

 

 

 

αI (J )

 

 

 

 

 

 

 

 

 

 

 

 

I (J ) | I (J )

 

 

 

 

 

 

 

 

αI (J )

I (J )

 

 

т.е.условные распределения признаков

ø

не зависят от уровней,которые занима-

J

ют признаки J ,а это означает,что признаки

ø

 

 

 

 

 

 

 

 

J и J не зависят друг от друга.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ø

и J

следует взаимная

Можно доказать,что из н езависимости признаков J

независимость признаков любого подмножества

 

ø

 

 

 

 

 

J с признаками любого подмно-

жества J .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть J = J1 + J2,тогда соотношение(4.12)можно переписать в форме:

 

 

 

 

 

 

α

ø α

 

 

 

 

= α

 

 

 

ø

,

 

 

 

 

 

 

 

 

I (J )

I (J1)+I (J2)

 

 

 

I (J1)+I (J2)+I (J )

 

 

 

и,просуммировав обе части этого выражения по

J2 (т.е.,в соответствии с введен-

ной операцией

%2

, Ñпо всем уровням признаков

J2),получить следующее:

 

 

 

 

J

!2

 

 

 

 

 

 

 

 

 

!2

 

 

 

 

 

 

 

 

 

(4.4)

 

 

 

 

 

(4.12)

 

 

 

 

(4.4)

 

α ø

α

α

ø α

 

 

 

 

 

 

α

 

 

 

 

ø ,

 

=

I (J1)+I (J2)

=

 

 

 

 

 

 

 

ø

= α

I (J )

I (J1)

 

 

 

I (J )

 

 

 

 

 

I (J1)+I (J2)+I (J )

I (J1)+I (J )

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

 

т.е.

α

ø

α

 

 

= α

 

ø ,

 

 

 

(4.15)

 

 

 

 

 

 

 

 

 

I (J )

I (J1)

 

 

 

I (J1)+I (J )

 

 

 

 

что означает независимость признаков

ø

и J1 в рамках маргинального распреде-

J

ления признаков

ø

+ J1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть теперь

ø

ø

 

ø

.После проведения аналогичных операций с(4.15)

J

= J1

+ J2

(в частности

операции

суммирования

 

 

по

 

ø

 

 

 

соотношение

 

 

 

J2)получается

4.1.Совместные распределения частот количественных признаков

 

 

139

α

ø

α

= α

ø

 

ø

 

в рам-

,что означает независимость признаков J и J

1

 

I (J1)

I (J1)

I (J1)+I (J1)

 

1

 

ø

ках маргинального распределения

ø

 

 

J1 + J1.Что и требовалось доказать,т.к.

J1

и

 

 

 

 

ø

 

 

 

 

J1 Ñлюбые подмножества J и J .

 

 

 

 

Пока речь шла о независимости двух множеств признаков.Точно так же можно

говорить и о независимости трех множеств.

 

 

 

 

 

 

ø

+ J2,где J

= J1 + J2.Необходимым и достаточным усло-

 

Пусть G = J + J1

вием взаимной независимости этих трех множеств признаков является следующее равенство:

α ø α

α

= α

ø .

(4.16)

I (J )

I (J1) I (J2)

 

I (J1)+I (J2)+I (J )

 

Это соотношение получается,если в левой части(4.12)вместо

αI (J ) записать

αI (J1)αI (J2),т.к. αI (J1)αI (J2) = αI (J1)+I (J2) ≡ αI (J ) Ñизвестное условие незави- симости двух множеств признаков в рамкахмаргинального распределения призна-

ков J .

Необходимым и достаточным условием взаимной независимости всех признаков,входящих в множество J служит следующее соотношение:

αI =

4

(4.17)

αij (j ).

J

Это соотношениеÑрезультатзавершенияпроцессадробления множествпризнаков,который начат переходом от(4.12)к(4.16).

Соотношения(4.12Ð4.14, 4.16Ð4.17)являются теоретическими.Оцененные по выборочнойсовокупности параметры совместных распределений,дажееслисоответствующие множества признаков независимы друг от друга,не могут обеспечить точное выполнение этих соотношений,поскольку они(параметры эмпирических распределений)явля ются случайными величинами.Критерий независимости строится как определенный показатель( статистика),характеризующий степень нарушения равенств в указанных соотношениях.Использование этого критерия осуществляется как проверка статистической гипотезы(нулевая гипотеза:признаки данных групп не зависимы),логика которой описана в конце пункта2.4.Данный критерий входит в группу критериев согласия и называется критерием Пирсона, или χ2 (критерием хи-квадрат).

Показатели(статистики)этого критерияÑ χ2l c c È Ñ calculated, Çl È Ñколичество множеств признаков),Ñназываемые иногда выборочными среднеквад-

ратическими сопряженностями признаков,рассчитываются на основе(4.12), (4.16), (4.17)следующим образом:

()2

!

αI (J )+I (Jø) − αI (Jø)αI (J )

 

χ22c = N

 

,

ø

α ø

α

 

I (J )

I (J )

 

J,J

 

 

 

140

Глава4.Введение в анализ связей

χ23c = N

χ2nc = N

 

 

 

(αI (J1)+I (J2)+I (Jø) − αI (Jø)αI (J1)αI (J2))2

,

 

 

 

 

 

 

 

ø

 

 

α

 

ø α

α

 

 

 

 

 

 

I (J )

I (J1) I (J2)

 

,J ,J

 

 

 

 

 

 

J1!2

 

 

 

 

 

 

 

 

 

#αI

J

αij(j )$2

 

 

!

 

 

 

3

 

 

.

 

 

 

 

 

J

 

 

 

 

 

 

 

 

3

 

 

 

 

 

G

 

 

αij (j )

 

 

 

 

Если признаки не зависимы,то соответствующая статистика критерия имеет известное распределение,называемое χ2-распределением (см.Приложе-

ниеA.3.2).Данное распределение имеет один параметрÑ

 

число степеней сво-

боды df (degrees free),показывающее количество

независимых случайных ве-

личин,квадраты которых входят в сумму.Так,в статистику

 

 

χ22c входят квадраты

ø

 

 

 

 

 

 

 

 

 

K (K J K J )величин αI (J )+I (Jø) − αI (Jø)αI (J ),но не все они независимы,т.к.удовле-

творяют целому ряду линейных соотношений.

 

 

 

 

 

 

Действительно,например:

 

 

 

 

 

 

 

 

ø

I (J )+I (Jø) − αI (Jø)αI (J )) = 0K J ,

 

 

 

J

 

 

 

 

 

 

 

 

 

!

 

 

 

 

 

 

 

 

где 0 J Ñматричный нуль,имеющий размерность

K J

.То есть

K J величин

K

 

 

 

 

 

 

 

 

 

αI (J )+IK (Jø) −αIK(Jø)αI (J ) линейно выражаютсячерездругие величины.Пустьмно-

жество этих величин обозначается χI (J ).

 

 

 

 

 

 

Аналогично,исходные величины

αI (J )+I (Jø) − αI (Jø)αI (J )

можно суммировать

по J и установить,что

 

ø

 

 

 

 

 

 

 

K J величин αIK(J )+I (Jø) − αI (Jø)αIK (J ) линейно выража-

ются через остальные;их множество можно обозначить

χ

 

ø .

 

 

 

 

 

 

 

I (J )

 

Эти два множества χI (J ) и χI (Jø)

имеют один общий элемент:

αIK(J )+IK (Jø)

−αIK(Jø)αIK(J ).Такимобразом,количество степеней свободы

df2 (при l = 2)рав-

ø

 

ø

 

 

 

 

 

 

 

но K − K J − K J +ø1 = (K J − 1)(K J − 1).Аналогичнорассуждая,можноустано-

вить,что df3 = (K J − 1)(K J1 − 1)(K J2 − 1), dfL = J

(kj − 1).

 

 

 

 

 

3

 

 

 

 

 

Итак,чтобыответитьнавопрос,являют сялинезависимымиизучаемыемножества признаков,необходимо расчетное значение статистики χ2l c сравнить со значением 95-процентного квантиля χ2dfl -распределения(в п. 2.4отмечалось,что в статистике вполне приемлемым считается 95-процентный уровень доверия),который обозначается χ2dfl, 0.95 (этоÑодносторонний квантиль,так как плотность χ2-распределения расположена в положительной области значений случайной величины и не симметрична).Значения этих квантилей находят в соответствующих статистических таблицах и называют теоретическими,или табличными.Если расчетное значение не превышает табличное(т.е.является достаточно малым),то нулевая гипотеза не отвергается и данные множества признаков считаются незави-

4.2.Регрессионный анализ

141

симыми.Если расчетное значение больше табличного,то множества признаков определяются как зависимые между собой с уровнем ошибки 5%.

Современныепакетыприкладныхстатистическихпрограммизбавляютотнеобходимости пользоваться статистическими таблицами,т.к.расчет статистики критерия сопровождается оценкой уровня его значимости sl (significance level). Для некоторых критериев этот показатель называется значением вероятности pv (probability value).Уровень значимости sl Ñэто такое число,что

χ2c = χ2

.

l

dfl,1−sl

 

То есть нулевая гипотеза отвергается с вероятностью ошибки 0.05,если sl < 0.05.

В случае2-х признаков среднеквадратичная сопряженность имеет следующий вид(здесь и ниже используется1-й способ обозначений):

χ2c = N

(αi1i2 αi1 α i2 )2

,

2

αi1

 

α i2

i!1 2

 

 

 

,i

 

 

 

 

асоответствующее ей χ2-распределение имеет (k1 −1)(k2 −1) степеней свободы;

множество χi1 образовано величинами αi1k2 − αi1 α k2 , i1 = 1, . . . , k1,множество χ i2 Ñвеличинами αk1i2 −αk1 α i2 , i2 = 1, . . . , k2,общимдля них является элемент αk1k2 − αk1 α k2 .

Далее в этой главе рассматривается в основном случай двух признаков.

4.2.Регрессионный анализ

В качестве значений признаков xi1 и x i2 на полуинтервалах,как и прежде,принимаются середины этих полуинте рвалов.Средние и дисперсии признаков рассчитываются по известным формулам:

1 =

!

x

 

 

α

 

, xø2 =

!2

x

 

α

 

 

;

 

 

 

 

 

 

2

=

 

i1

i1

2

 

,

 

i2

 

i2

 

 

 

2)

2

α i2

или,более компактно,

s1

!

(xi1

 

 

1 ) αi1

 

s

 

=

 

 

(x

i2

 

2

=

2

 

2

 

 

 

2

2 !

 

 

 

 

 

 

 

s1

!i1 αi1 , s2

= !i2 α i2 .

 

 

 

 

 

 

Важной характеристикой совместного распределения двух признаков является ковариация Ñсовместный центральный момент2-го порядка:

m12 = !i1 i2 αi1i2 .

ДисперсияÑчастный случай ковариации (ковариация признака с самим собой),поэтому для обозначения дисперсии j -го признака часто используется mj j .

Соседние файлы в папке Диплом