Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

Рассчитаем т е о р е т и ч е с к и е ч а с т о т ы nij двумерного распре-

деления в предположении о независимости рассматриваемых случайных величин, т. е. о справедливости гипотезы H0 :

nij = ni n j .

n

Имеем м а р г и н а л ь н ы е ч а с т о т ы

n1 = 165, n2 = 55, n3 = 80, n 1 = 145, n 2 = 100, n 3 = 55, n = n = 300.

 

Так как число

 

степеней свободы

в нашем примере

равно

ν = (3 1)(3 1) = 4 , сделаем расчет лишь четырех независимых частот:

 

n

=

165×145

= 79,75, n

=

 

165×100

= 55,00, n =

55×145

= 26,58, n

=

55×100

= 18,3.

 

 

 

 

11

300

12

 

300

21

300

22

300

 

 

 

 

 

 

 

Оставшиеся частоты рассчитаем, используя равенства

r

r

 

nij

= nij

= n j,

i=1

i=1

 

s

s

 

nij

= nij

= ni :

j=1

j=1

 

n13 = 165 (79,75 + 55,00) = 30,25, n23 = 55 (28,58 + 18,30) = 10,10, n31 = 145 (79,75 + 26,58) = 38,70, n32 = 100 (18,30 + 55,00) = 26,7,; n33 = 80 (38,67 + 26,67) = 55 (30,25 + 10,08) = 14,67.

Расчеты удобно оформить в виде табл. 3.13.2, в которой теоретические частоты nij размещены в правых верхних углах соответствующих клеток.

Т а б л и ц а 3.13.2

 

 

 

 

 

 

Y

 

 

1

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

ni

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n11

= 120

 

 

79,8

n12 = 40

 

 

55,0

n13 =

5

 

 

30,3

n1 = 165

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

n21

= 10

 

 

26,6

n22 = 35

 

 

 

18,3

n23 =

10

 

 

 

10,1

 

n2

= 55

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

38,7

 

 

 

 

 

 

 

 

26,7

 

 

 

 

 

 

 

14,7

 

n3

= 80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n31

= 15

 

 

 

 

 

 

n32 = 25

 

 

 

 

 

n33 =

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n j

 

n 1 = 145

 

 

n 2 = 100

 

n 3

= 55

 

n = n =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 300

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Воспользуемся критерием χ2

для проверки гипотезы о независимости

признаков. Вычислим наблюдаемое числовое значение статистики χ2ν :

 

r s (nij

nij )2

(120 79,8)2

 

(40 55)2

 

(5 30,3)2

(10 26,6)2

 

∑∑

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

+

 

 

 

+

 

 

 

 

 

 

79,8

 

 

 

 

 

 

 

55

 

 

30,3

 

26,6

 

 

i=1 j=1

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

(35 18,3)2

+

(10 10,1)2

+

(15 38,7)2

 

+

(25 26,7)2

+

(40 14,7)2

=

129,326.

18,3

10,1

 

 

26,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

38,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14,7

 

 

 

111

Гипотеза H0 о независимости признаков отвергается на уровне значимости a, если наблюдаемое числовое значение статистики χ2ν окажется больше критической точки c2α; ν . В рассматриваемой задаче наблюдаемое значение статистики χ24 оказалось равным 129,326, а критическая точка

c20,05; 4 = 9,488, поэтому гипотезу H0 следует отвергнуть, т. е. на 5%-ном уров-

не значимости можно считать, что связь между планами продолжения образования и их фактической реализацией существует.

Теперь воспользуемся критерием χ2 -информационный для проверки гипотезы H0 о независимости планируемого и фактического распределения

учащихся по формам образования. Статистика этого критерия имеет вид

r s

n

 

 

r s

r

s

 

(инф.) χ2ν = 2∑∑nij ln

 

ij

º 2

∑∑nij ln nij

- ni ln ni - n j ln n j + n lnn .

 

 

i=1 j=1

nij

i=1 j=1

i=1

j=1

 

В данной задаче наблюдаемое числовое значение статистики (инф.) χ42

равно

 

 

 

 

 

 

 

2(120×ln120 + 40×ln40 + 5× ln5 +10×ln10 + 35× ln35 +10×ln10 +

 

+15×ln15 + 25×ln25 + 40×ln40 -165×ln165 - 55× ln55 - 80×ln80 -

 

-145×ln145 -100× ln100 - 55×ln55 + 300× ln300) =128,759,

 

и поскольку оно больше критической точки c0,05;2

4 = 9,488, гипотезу H0

сле-

дует отвергнуть на 5%-ном уровне значимости.

Для оценки с и л ы связи между планами продолжения образования и фактической их реализацией вычислим точечные оценки коэффициентов Чупрова, Крамера и Пирсона:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

χ2ν

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

129,326

 

 

 

 

 

 

C =

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

= 0,464,

 

 

 

 

 

 

 

 

 

300

 

 

 

 

 

 

n

 

(r -1)(s -1)

(3 -1)(3 -1)

 

 

 

 

 

χ2ν

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

129,326

 

 

 

 

 

K =

 

 

 

 

 

=

 

 

 

 

 

= 0,464,

 

nmin{r -1, s -1}

 

 

300min{(3 -1),(3 -1)}

 

 

 

 

 

 

χ2ν

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

=

 

 

 

 

 

129,326

= 0,549.

 

 

 

 

 

P

 

χ2ν + n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

129,326 + 300

 

 

Рассчитаем интервальные оценки коэффициентов Чупрова, Крамера и Пирсона с надежностью g = 0,95. Для этого сначала вычислим оценку дисперсии статистики χ2ν :

2

 

r

s

nij

 

 

2

 

2 2

 

 

 

 

 

- nij

2

 

ν )

 

 

Dχν

» 4 ∑∑

 

 

 

+ χν

-

 

 

=

 

 

 

 

 

 

 

 

nij

 

 

 

n

 

 

 

i=1

j=1

 

 

 

 

 

=4(5,589 +129,326 - 55,751) = 316,656,

азатем оценки дисперсий выборочных коэффициентов Чупрова, Крамера и Пирсона:

112

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

316,656

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

Dχν

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

= 0,00102 = 0,032 ,

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2

2

 

C

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4n

 

(r -1)(s -1)C

 

 

 

4×300 ×2×2×0,464

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

316,656

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

Dχν

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

ˆ

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

= 0,00102 = 0,032 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

2

 

K

 

 

4n

2

min

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

{r -1;s -1}K

 

 

 

4×300 ×2×2×

0,464

 

 

 

2

 

 

 

 

 

 

 

 

2 2

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

n

Dχν

 

 

 

 

 

 

 

 

300 ×316,656

 

 

 

 

 

ˆ

=

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 0,00070 = 0,026 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

4χ2ν (n + χ2ν )3

4

×129,326×(300 +129,326)3

 

 

P

 

 

 

 

 

 

Окончательно получаем 95%-ные доверительные интервалы для ко-

эффициента Чупрова:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

±ˆs Ф

1

(g) = 0,464 ± 0,032Ф

1

(0,95)

= 0,464

 

±1,96×0,032 = 0,464 ± 0,063,

C

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для коэффициента Крамера:

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

Ф

1

(g)

= 0,464

± 0,032Ф

1

(0,95) = 0,464 ±1,96×0,032 = 0,464 ± 0,063

K ± s

 

 

 

 

 

 

 

K

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и для коэффициента Пирсона:

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

Ф

1

(g) = 0,549

± 0,026Ф

1

(0,95)

= 0,549

 

±1,96×0,026 = 0,549 ± 0,051.

P ± s

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как нуль не попадает ни в один из доверительных интервалов, то

гипотезы

H0C : C = 0, H0K : K = 0 и

 

H0P : P = 0 следует отклонить на 5%-ном

уровне значимости, т. е. существование связи между планами на образование и фактической их реализацией отрицать нельзя. Более того, эта связь

немала, поскольку значения выборочных коэффициентов

 

и

 

были

C,

K

P

вычислены по выборке достаточно большого объема (n = 300)

и оказались

достаточно большими.

Рассчитаем точечные оценки коэффициентов нормированной информации RY/ X , RX/Y , R .

Найдем оценки энтропий величин X и Y:

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

ˆ

r

 

= -

 

ni lgni

+ lgn =

 

 

 

 

 

 

ˆ ˆ

 

i=1

 

 

 

 

 

 

H(X) = -pi lgpi

 

n

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

= -

165lg165 + 55lg55 + 80lg80

+ lg300 = 0,431,

ˆ

s

 

=

 

 

 

 

 

ˆ ˆ

 

 

300

 

H(Y) = -p j

lgp j

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n j lgn j

145lg145

+100lg100 + 55lg55

 

 

 

 

= -

j=1

 

+ lgn = -

+ lg300 = 0,447,

 

 

 

 

 

 

 

 

n

 

 

 

300

 

 

 

 

 

оценки полных условных энтропий величин X и Y:

113

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

s

 

 

 

 

 

 

 

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑n

 

 

lg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

r

s

 

 

 

 

 

 

 

 

 

ij

 

j

 

 

 

 

1

 

 

 

 

 

 

120

 

 

 

 

 

40

 

5

 

 

 

 

 

 

ij

 

 

 

 

 

i 1

j

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆp

 

 

 

 

 

=

=

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H(X | Y) = −

∑∑ ij

 

 

 

 

 

= −

 

 

 

 

 

 

 

 

 

 

 

= −

 

 

 

 

 

 

 

 

+ 40lg

 

 

+ 5lg

 

+

 

 

 

 

ˆp

lg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

300

120lg

145

100

55

 

 

 

=

=

 

 

ˆp

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

j

1

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+10lg

10

 

+ 35lg

35

+ 10lg

10

 

+ 15lg

15

 

 

+ 25lg

25

 

+ 40lg

40

 

= 0,338,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

145

 

 

 

 

100

 

 

 

 

55

 

 

 

 

 

 

145

 

 

 

 

 

100

 

 

 

 

55

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

s

 

 

 

 

 

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑n

 

 

lg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

r

 

s

 

ˆ

 

 

 

 

 

ij

ni

 

 

 

 

1

 

 

 

 

 

120

 

 

 

 

 

10

 

 

15

 

 

∑∑ ij

 

pij

 

 

 

 

 

i=1

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H(Y | X) = −

 

 

 

 

ˆp

lg

 

 

 

 

= −

 

 

 

 

 

 

 

 

 

 

 

= −

300

120lg

165

+ 10lg

55

+ 15lg

80

+

 

 

 

=

=

 

 

ˆp

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

j

1

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+40lg

40

+ 35lg

35

+ 25lg

25

 

+ 5lg

 

5

 

 

+ 10lg

10

+

40lg

40

 

= 0,354.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

165

 

 

 

 

55

 

 

 

 

 

80

 

 

 

 

165

 

 

 

 

 

55

 

 

 

 

80

 

 

 

 

 

 

 

Тогда оценки направленных коэффициентов нормированной информации

ˆ

 

ˆ ˆ

 

0,447 0,354

 

 

=

 

H(Y) H(Y | X)

=

= 0,208

RY|X

 

 

 

 

ˆ

0,447

 

 

 

H(Y)

 

 

 

такова оценка относительного уменьшения неопределенности величины Y при известном значении x величины X по сравнению с неопределенностью величины Y без знания значения x,

ˆ

 

 

ˆ

ˆ

| Y)

 

0,4310,338

 

 

 

 

=

 

H(X) H(X

=

= 0,216,

 

RX|Y

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

0,431

 

 

 

 

 

 

 

H(X)

 

 

 

 

 

 

 

 

а симметризованный коэффициент

 

 

 

 

 

 

 

 

ˆ 0,5

ˆ

ˆ

 

 

 

ˆ

ˆ

 

 

H(X) + H(Y) 0,5

H(X | Y) + H(Y | X)

 

R =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

0,5

ˆ

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

H(X) + H(Y)

 

 

 

 

0,5[0,431+ 0,447] 0,5[0,338 + 0,354] = [ ] = 0,212, —

0,5 0,431+ 0,447

такова оценка силы связи между величинами X и Y.

Для вычисления точечных оценок коэффициентов λɵY|X , λɵX|Y , λɵ восполь-

зуемся табл. 3.13.3, в предпоследнем столбце которой содержатся максимальные элементы по каждой строке комбинационной таблицы, а в предпоследней строке — максимальные элементы по каждому из столбцов.

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3.13.3

 

Y

1

2

3

ni, max

= max nij

 

 

n

 

 

 

 

 

 

 

 

X

 

 

 

 

 

j=1,2,…,s

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

120

40

5

 

120

 

 

165

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

10

35

10

 

35

 

 

55

 

 

 

3

15

25

40

 

40

 

 

80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nmax,j

= max nij

120

40

40

 

 

n

max

= max n

= 165

 

 

i=1,2,…,r

 

 

 

 

 

 

i

 

 

114

n j

145

100

55

nmax = maxn j = 145

 

Получаем:

 

r

 

 

 

 

 

 

 

 

 

ni,max - nmax

 

195

-145

 

50

 

=

 

 

 

 

lɵY|X =

i 1

 

=

 

 

=

 

 

= 0,322 —

 

n - nmax

300

-145

155

такова оценка относительного уменьшения вероятности ошибочного предсказания значения y величины Y при известном значении x величины X по сравнению с вероятностью ошибочного предсказания y без знания значения x,

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ɵ

nmax,j - n max

200

-

165

35

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

lX|Y =

 

 

=

 

 

 

=

 

= 0,259 ,

 

 

 

 

n - n max

 

300

-

165

135

 

 

 

r

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ɵ

ni,max - nmax + nmax,j - n max

 

195 -145 + 200 -165

 

50

+ 35

 

i=1

j=1

 

 

 

 

l =

 

 

=

 

 

=

 

 

 

= 0,293 —

 

2n - nmax - n max

2×300

-145 -165

155

+135

такова оценка силы связи между величинами X и Y.

Построим 95%-ную интервальную оценку коэффициента lɵY|X :

·рассчитаем оценку ˆσ2ɵ дисперсии выборочного коэффициента λɵY|X :

λY|X

 

 

 

 

 

r

 

r

 

+ max n j

r

 

 

 

 

 

 

n - max nij

max nij

- 2max nij

 

 

2

=

 

i=1 j=1,2,…,s

i=1

j=1,2,…,s

j=1,2,…,s

i=1 j=1,2,…,s

 

 

 

ˆ

 

 

 

 

 

 

 

 

,

 

sλɵY|X

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

(n - max n j )

 

 

 

 

 

 

 

 

 

 

 

j=1,2,…,s

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

 

где max n

ij

 

— сумма максимальных элементов только тех строк, в ко-

i=1

j=1,2,…,s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

торых максимальные элементы попадают в столбец с наибольшей маргинальной частотой;

2

=

(30 - (120 + 35 + 40))((120 + 35 + 40) +145 - 2×120)

= 0,0028;

ˆsɵ

3

λY|X

 

 

 

 

(300 -145)

 

·найдем границы 95%-ной интервальной оценки коэффициента λY|X :

lɵY|X ±ˆs | F1(g) = 0,322 ± 0,053×1,95

Y X

или, окончательно,

(0,218; 0,426) .

Так как нуль не попадает в интервал (0,218;0,426) , гипотезу H0: λY|X = 0 отклоняем; зависимость Y от X существует, выборочный коэффициент lɵY|X = 0,322 статистически значим.

Студенту предлагается самостоятельно написать формулу оценки дисперсии выборочного коэффициента lɵX|Y и проверить его значимость.

115

Рассчитаем точечные оценки коэффициентов τY|X , τX|Y , τ:

 

 

∑∑ (nnij - ni n j )

2

 

 

 

r

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

i=1

j=1

ni

 

 

 

tY|X

=

 

 

 

 

 

 

=

 

 

 

s

 

 

 

 

 

n

n2

- n2j

 

 

 

 

 

 

 

j=1

 

 

 

 

(300×120 -165×145)2

 

+

(300×40 -165×100)2

+

(300×5 -165×55)2

 

 

=

 

165

 

 

 

165

 

 

 

 

165

 

 

+

 

 

 

 

300×(3002 -1452 -1002 - 552)

 

 

 

 

 

 

 

(300×10 - 55×145)2

 

+

(300×35 - 55

×100)2

+

 

(300×10 - 55×55)2

 

 

 

+

55

 

 

 

55

 

 

 

 

55

 

+

 

 

 

 

 

300×(3002 -1452 -

1002 - 552)

 

 

 

 

(300×15 - 80×145)2

+

(300×25 - 80×100)2

+

(300×40 - 55×80)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

80

 

 

 

80

 

 

 

 

80

= 0,2153 —

 

 

300×(3002 -1452 -1002 - 552)

 

 

 

 

 

 

 

 

 

 

 

 

 

такова оценка относительного уменьшения ожидаемой в среднем доли ошибочного предсказания значения y величины Y при известном значении x величины X по сравнению с ожидаемой в среднем долей ошибочного предсказания y без знания x.

Аналогично вычисляем оценку коэффициента τX|Y :

 

 

r

s

2

 

 

 

- ni n j )

 

 

 

∑∑

(nnij

 

 

 

n j

 

ˆt

=

i=1

j=1

= 0,2426 ,

 

 

 

r

X|Y

 

 

 

 

 

 

 

 

n(n2 - ni2 )

 

j=1

а затем оценку коэффициента τ :

 

∑∑(nn - n n )2 1 + 1

 

r

s

 

 

 

 

 

 

 

 

 

 

 

ij i* *j

 

 

 

 

 

 

 

 

 

n

n

=

=

 

 

 

 

ˆt =

i 1

j 1

 

i*

*j

= 0,2344 —

 

 

r

s

 

 

 

 

 

n(2n2 - ni2 - n2j )

 

 

 

 

 

 

 

i=1

j=1

 

 

 

 

такова оценка силы связи между величинами X и Y.

3.14. П р и м е р

о ц е н к и

с в я з и

 

м е ж д у т р е м я

к а т е г о р и з о в а н н ы м и с л у ч а й н ы м и в е л и ч и н а м и с п о м о щ ь ю л о г а р и ф м и ч е с к и л и н е й н ы х м о д е л е й

В результате проведенного опроса студентов дневной и вечерней форм обучения (мужчин и женщин) относительно их удовлетворенности избранной специальностью получена трехмерная комбинационная таблица, представленная в табл. 3.14.1.

Т а б л и ц а 3.14.1

116

Пол (X)

Форма обучения

Удовлетворенность избранной специальностью

i = 1,2

(Y), j = 1,2

 

(Z), k = 1,2

 

 

1. Да (z1)

 

2. Нет (z2)

1. Мужской (x1)

1. Дневная (y1)

100

 

60

 

2. Вечерняя (y2)

70

 

30

 

 

 

 

 

2. Женский (x2)

1. Дневная (y1)

80

 

40

 

2. Вечерняя (y2)

50

 

70

 

 

 

 

 

Требуется оценить относительную важность эффектов влияния категоризованных случайных признаков X, Y, Z и их взаимодействий на кле-

точные частоты.

Введем следующие обозначения для ч а с т н ы х (м а р г и н а л ь - н ы х) т а б л и ц:

260 x

 

 

280 y

 

 

 

300 z

n(X) = ni =

1 ,

n(Y) = n j =

1 , n(Z) = n k =

 

1 ,

240

x2

 

 

220 y2

 

 

 

200

z2

 

y1

y2

 

 

 

 

z1

z2

 

 

 

160

100 x

n(XZ) = ni k

 

170

90 x

 

n(XY) = nij =

 

1 ,

=

 

 

1 ,

 

 

120

120 x2

 

 

 

130

110 x2

 

 

 

 

 

z1

z2

 

 

 

 

 

 

n(YZ) = n jk

 

180

100 y

 

 

 

 

 

=

120

 

1 .

 

 

 

 

 

 

 

 

100 y2

 

 

 

 

В случае трех случайных величин (признаков), можно сформулировать восемь вариантов гипотез об их взаимосвязях. В зависимости от формулируемой гипотезы теоретические частоты будут рассчитываться на ос-

нове соответствующего набора маргинальных таблиц.

 

 

1.

Проверим гипотезу H0(1) о

н е з а в и с и м о с т и

п р и з н а к о в в

с о в о к у п н о с т и:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n* j*

 

 

 

 

 

 

 

 

 

 

H0(1)

: i, j, k nijk* =

i**

 

 

n**k .

 

 

 

 

 

 

 

 

n***

 

n***

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теоретические частоты для данной и рассмотренных ниже гипотез

приведены в табл. 3.14.2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3.14.2

 

 

Теоретические частоты

 

Значение (инф.) χ2ν

2

 

 

Параметры

Гипоте-

 

x1

 

 

x2

 

ν

 

 

 

χкрит

 

логлинейной модели

за

 

 

y1

y2

 

y1

 

y2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H (1)

 

z

87,4

68,6

 

80,6

63,4

 

30,1

 

 

 

9,49

 

u0 =4,11, u1x =0,04

 

1

58,2

45,8

 

53,7

42,2

 

ν = 4

 

 

 

 

uy

=0,12, uz =0,20

0

 

z2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

=4,1, ux =0,02

 

 

z1

96,0

60,0

 

72,0

72,0

 

23,4

 

 

 

 

 

0

1

H ( 2)

 

 

 

 

 

 

7,81

 

uy

=0,12, uz =0,20

0

 

z2

64,0

40,0

 

48,0

48,0

 

ν = 3

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uxy =0,12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u = 4,101, ua = 0,02

 

 

z1

95,2

74,8

 

72,8

57,2

 

23,6

 

 

 

 

 

0

1

H (3)

 

 

 

 

 

 

7,81

 

ub = 0,121, uc = 0,201

0

 

z2

50,4

39,6

 

61,6

48,4

 

ν = 3

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uac = 0,117

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

117

 

 

 

 

 

 

 

 

 

u = 4,104,

ux = 0,040

 

z1

93,6

62,4

86,4

57,6

25,2

 

0

 

 

1

H ( 4)

7,81

uy

= 0,101,

uz = 0,193

0

z2

52,0

52,0

48,0

48,0

ν = 3

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uyz = 0,101

 

 

 

 

 

 

 

 

 

 

 

11

 

 

 

 

 

 

 

 

16,9

 

u

= 4,07,

ux = 0,018

 

z1

104,6

55,4

65,0

65,0

 

0

 

 

1

H (5)

ν = 2

5,99

uy

= 0,138,

uz = 0,180

0

z2

55,4

34,6

55,0

55,0

 

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uxy

= 0,138,

uxz = 0,097

 

 

 

 

 

 

 

 

 

11

 

 

11

 

 

 

 

 

 

 

 

 

u

= 4,09,

ux = 0,027

 

z1

102,9

54,6

77,1

65,5

18,5

 

0

 

 

1

H (6)

5,99

uy

= 0,098,

uz = 0,193

0

z2

57,1

45,5

42,9

54,5

нν = 2

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uxy

= –0,117, uyz = 0,10

 

 

 

 

 

 

 

 

 

11

 

 

11

 

 

 

 

 

 

 

 

 

u

0

= 4,1, ux = 0,017

 

z1

102,0

68,0

78,0

52,0

18,1

 

 

 

1

H (7)

5,99

uy

= 0,101,

uz = 0,191

0

z2

45,0

45,0

55,0

55,0

ν = 2

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uxz = –0,117, uyz = 1,01

 

 

 

 

 

 

 

 

 

11

 

 

11

 

 

 

 

 

 

 

 

 

u

= 4,09,

ux = 0,006

 

 

 

 

 

 

 

 

 

0

 

 

1

H (8)

z

1

109,7

60,3

70,3

59,7

13,1

3,84

u1y

= 0,192,

u1z = 0,101

 

50,3

39,7

49,7

60,3

ν = 1

uxy

= 0,108,

uxz = 0,108

0

z2

 

 

 

 

 

 

 

 

 

 

11

 

 

11

 

 

 

 

 

 

 

 

 

 

 

uyz = 0,09

 

 

 

 

 

 

 

 

 

 

 

11

 

 

 

 

 

 

 

 

 

 

u = 4,073,

ux = 0,015

насы-

 

 

 

 

 

 

 

 

0

 

 

1

z

 

100

70

80

50

0

0

u1y

= 0,214,

u1z = 0,120

щенная

 

1

60

30

40

70

ν = 0

 

 

 

 

 

 

 

 

 

 

 

модель

z2

 

uxy

= 0,125,

uxz = 0,142

 

 

 

 

 

 

 

 

11

 

 

11

 

 

 

 

 

 

 

 

 

uyz

= 0,09, uxyz = –0,17

 

 

 

 

 

 

 

 

 

11

 

 

111

При справедливости гипотезы H (1)

для теоретических частот должны

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выполняться равенства

n(X) = n* (X), n(Y) = n* (Y),

 

n(Z) = n* (Z).

Параметры

логлинейной модели могут быть найдены по формулам

 

 

 

 

 

 

 

 

 

 

 

1

 

r

s

 

t

 

 

*

 

 

 

 

 

 

x

 

x

1 n*

n*

n*

n*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

111 112

 

121

122

 

 

 

 

u0

=

 

∑∑∑ln nijk = 4,11,

u1

= −u2 =

8

ln

*

*

 

*

 

*

 

 

= 0,04,

 

 

8 i=1 j=1 k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n211n212n221n222

 

 

 

 

 

 

1

 

n* n*

 

n*

n*

 

 

 

 

 

 

1

 

n*

 

n*

n*

 

n*

uy = −uy

=

 

 

ln

 

111

112

 

 

211

212

= 0,12,

uz = −uz =

 

 

ln

111

121 211

 

221

= 0,20.

8

n* n*

 

n*

 

 

 

8

 

 

n*

 

 

 

 

1

2

 

 

 

n*

 

 

 

1

2

 

 

n*

 

n*

 

 

n*

 

 

 

 

 

 

 

121

122

 

 

221

222

 

 

 

 

 

 

 

 

 

 

112

 

122

212

 

222

 

Наблюдаемое числовое значение статистики критерия χ2 -

информационный, используемого для проверки гипотезы

H(1) , оказалось

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

равным 30,1, и оно превосходит критическую точку χ2

 

= 9,488, поэтому

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,05; 4

 

 

 

 

 

 

есть основания на 5%-ном уровне значимости отвергнуть гипотезу H(1) ) о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

независимости признаков в совокупности.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь проверим три гипотезы о б

о д н о й

 

 

п а р н о й

с в я з и.

 

 

 

 

 

 

 

 

 

 

 

n

ij*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. H(2)

: i, j, k

n*

=

 

 

 

n

 

— присутствует только связь признаков

 

 

0

 

 

 

 

 

 

ijk

 

 

 

n***

 

**k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X и Y (независимость (X и Y) и Z).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni*k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. H(3)

: i, j, k

n*

=

n

 

- присутствует только связь признаков X

0

 

 

 

 

 

 

ijk

 

 

 

n***

 

*j*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и Z (независимость (X и Z) и Y).

118

4. H(4)

:

i, j, k

n*

=

n*jk

n

 

— присутствует только связь признаков

 

i**

0

 

 

ijk

 

n***

 

 

 

 

 

 

 

 

Y и Z (независимость (Y и Z) и X).

Для H0(2) выполняется равенство n(XY) = n*(XY), для H0(3) равенство n(XZ) = n*(XZ), для H0(4) равенство n (YZ)=n*(YZ). Для всех трех гипотез

выполняются равенства n(X) = n*(X), n(Y) =n*(Y), n(Z) = n*(Z), имеющие место при гипотезе H0(1).

Параметры логлинейных моделей с одной парной связью для гипотез Н0(2), Н0(3), Н0(4) вычисляются по формулам, имеющим место для гипотезы Н0(1),

и по следующим формулам:

uxy

= −uxy = −uxy = uxy =

1

 

 

 

n*

n*

n*

n*

 

 

 

 

 

ln

 

111

112

221

222

 

,

8

 

n*

n*

n*

n*

 

11

12

21

22

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

121

122

211

212

 

 

uxz = −uxz = −uxz = uxz =

1

 

 

 

n*

n* n*

n*

 

 

 

 

 

ln

111

121

212

 

222

 

,

8

 

n*

n* n*

n*

11

12

21

22

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

211

221

112

 

122

 

 

 

uyz = −uyz = −uyz = uyz

=

1

ln

n111* n211* n122*

n222*

.

8

 

 

11

12

21

22

 

 

 

 

n*

n* n*

n*

 

 

 

 

 

 

 

 

 

 

 

 

112

 

212

121

 

221

 

 

 

Наблюдаемые значения статистики критерия χ2 -информационный приведены в табл. 3.14.2 в столбце (инф.) χ2ν . Число степеней свободы равно ν = 8 – 5 = 3. Так как критическая точка χ20,05;3 = 7,81 меньше всех трех значений (инф.) χ2ν , есть основания отвергнуть на 5%-ном уровне значимости все

три гипотезы H(2), H(3)

и H(4) .

 

 

 

 

 

 

0

0

 

 

0

 

 

 

 

 

Далее проверим три гипотезы о д в у х п а р н ы х с в я з я х.

 

 

 

 

 

 

n

n

 

 

5.

H0(5)

: i, j, k

nijk*

=

 

ij*

i*k

 

— присутствует связь (X и Y), (X и Z) (неза-

ni**

 

 

 

 

 

 

 

 

висимость Y и Z при фиксированном значении X).

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

6.

H0(6)

: i, j, k

nijk*

=

 

ij*

* jk

 

— присутствует связь (X и Y), (Y и Z) (неза-

 

 

 

 

 

 

 

 

 

n* j*

 

 

 

висимость X и Z при фиксированном значении Y).

 

 

 

 

 

 

n

n

 

 

 

 

7.

H0(7 )

: i, j, k

nijk*

=

 

i*k * jk

 

— присутствует связь (X и Z), (Y и Z) (неза-

 

 

 

 

 

 

 

 

n**k

 

 

 

 

висимость X и Y при фиксированном значении Z).

При этом, например, для

H0(5) должны, наряду с равенствами n(X) =

= n*(X), n(Y) = n*(Y), n(Z) = n*(Z), выполняться равенства n(XY) = n*(XY), n(XZ) = n*(XZ).

Формулы параметров логлинейных моделей с двумя парными связями аналогичны приведенным ранее.

Наконец, проверим гипотезу о т р е х п а р н ы х с в я з я х (X и Y), (X и Z), (Y и Z).

119

 

*

* * *

 

8. H(8)

:

n111n122n212n221

= 1 .

 

0

n112*

n121* n211* n222*

 

Аналитического выражения для теоретических частот этой модели не существует. Воспользуемся для нахождения неизвестного x = n111* следую-

щим приемом. Заменим в равенстве

n111* n122* n212* n221* = n112* n121* n211* n222*

теоретические частоты на их выражения через x = n111* :

 

n*

= n

 

n*

 

= n

x = 160 x, n*

= n

 

n*

 

 

= n

x = 170

x,

 

112

 

11*

 

111

 

11*

 

 

 

121

1*1

111

 

1*1

 

 

 

 

 

n*

= n

n*

= n

x = 180 x,

n*

= n

 

n*

= −70 + x,

 

 

 

 

211

 

 

*11

 

111

*11

 

 

 

122

 

12*

 

 

121

 

 

 

n*

= n

 

n*

 

= −60 + x,

n*

 

= n

n* = −50 + x,

n*

= n

n* = 170 x.

212

*12

 

112

 

 

 

 

221

*21

121

 

 

 

 

 

222

 

*22

122

 

Получим уравнение четвертой степени относительно х:

F(x) = x(x 70)(x 60)(x 50) (160 x)(170 x)(180 x)(170 x) = 0 .

Для определения искомого х применим метод половинного деления интервала, которому принадлежит корень уравнения. Так как х и все выра-

жения в скобках (теоретические клеточные частоты) по смыслу задачи неотрицательны, то должны выполняться соотношения x max{0, 50,70, 50} и

x min{160,170,180,170}. Возьмем в качестве границ интервала х1 = 70 и х2 = 160. Так как на концах этого интервала функция F(x) имеет значения

F(70) = –99 000 000 < 0, F(160) = 158 400 000 > 0,

разные по знаку, то корень уравнения принадлежит интервалу (70, 160). Найдем середину интервала: x3 = (x1 + x2)/2 = 115. Если F(х3) > 0, то корень находится на интервале (х1, х3). Если F(х3) < 0, то корень находится на ин-

тервале (х3, х2).

Процесс деления продолжаем до тех пор пока длина интервала станет меньше заранее выбранной величины: 1 или 0,1 (см. табл. 3.14.3).

Т а б л и ц а 3.14.3

№ п. п.

x1

x2

x3

F(x1)

F(x2)

F(x3)

1

70

160

115

–99000000

158400000

9652500

2

70

115

92,5

–99000000

9652500

–32599688

3

92,5

115

103,75

–32599688

9652500

–10590820

4

103,75

115

109,37

–10590820

9652500

–515434

5

109,375

115

112,18

–515435

9652500

4523593

6

109,375

112,18

110,78

–515435

4523593

1997016

7

109,375

110,78

110,07

–515435

1997016

739546

8

109,375

110,07

109,72

–515435

739546

111809

Таким образом, искомая частота x = n111* = 109,7. Остальные теоретиче-

ские частоты можно получить, используя приведенные выше равенства. При этом наряду с равенствами n(X) = n*(X), n(Y) = n*(Y), n(Z) = n*(Z)

выполняются равенства n(XY) = n*(XY), n(XZ) = n*(XZ), n(YZ) = n*(YZ).

120