Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2003_-_Gmurman__TV_i_MS

.pdf
Скачиваний:
19
Добавлен:
27.03.2015
Размер:
16.8 Mб
Скачать

Пример. Найти асимметрию и 9ксцесс 9мпирическоro распреде­

леиия:

вариаита

частота

10,2

10,4

10,6

10,8

11,0

11,2

11,4

11,6

11,8

12,0

2

3

8

13

25

20

12

10

6

1

Ре w е и и е. Воспользуемся методом произведений, для чего со­

ставим расчетную табл. 10. Поскольку в § 4 указано, как заполня­

ются столбцы 1-5 таблицы, ограничимся краткими пояснеииями: для

заполнения столбца 6 удобно перемножать числа каждой строки

столбцов 3 и 5; для заполиения столбца 7 удобно перемножать числа

каждой строки столбцов 3 и 6. Столбец 8 служит для коитроля

вычнслений по тождеству:

~n, (щ+ 1)4= ~ niut+4 ~niuf+6~nlu:+4~n(щ+n.

Контроль: ~ n, (щ+ 1)6= 9141;

~n{ut+ 4 ~ntUr +6 ~1U;+ 4 ~njщ+n =

=4079+ 4·609+6·3&3+ 4·57 + 100= 9141.

Таблица 10

1 I 2

I з I

Х,

"{

1",

I

 

10,21

2

1-41

10,41

3

1-з1

10,61

8

1-21

10,81

13

1-11

11,0 I25

I 01

1],2120

I

1 1

ll,41

12

1

21

11,61

10

1

з1

I1 ,81

6

I 41

12,01

1

1

51

I

 

I

I

4

I 5

I 6

7

"j"{

I "1"1I

I ,,{"'

I ".·"1

- 8

1

32

1

-128

I

512

 

 

 

 

I

 

-9

1

27

I -81

243

-16

I

32

I -64

I

128

-13

1

13

1

-13

I

]3

-46

1

 

1-286

1

 

 

 

 

 

 

 

20

1

20

I

20

1

20

24

I

48

1

96

I

192

30

 

90

1

270

I

810

24

I

96

1

384

I

1536

5

25

1

125

I

625

103

I

 

1

895

1

 

I

8

 

I"j (".'+1).

I

162

I

48

 

I

8

 

I

-

I

25

 

1

320

 

1

972

 

1

2560

 

I

3750

I

1296

1

 

n=

~njuj= ~n{и:= ~njul= ~njut=

~ni (щ +

=]00

=57

=383

=609

=4079

+1)·=9141

251

Совпадение СУММ свидетельствует о том, что ВЫЧИCJIения проиэведены

правильио.

Впримере § 4 для рассматриваемого распределеиия быJЮ най-

деио: М;=0.57; М;=3,83; DB =O,14. следовательно. ав= 110,14.

Найдем условные моменты третьего и четвертого порядка:

Найдем центральные 9мпирические моменты третьего и четвер­

того порядка:

mll= [

-

- -

+2

(-)11]

h

ll

=

 

M s

-3M1 M 2

M 1

 

= {6.09-3.0,57 .3.83+2. (0,57)11] ·0.23 = -0.0007: m.=[M:-4М;М;+6 (М;)2 М;-3 (M~)'] h4 =

= [40.79 -4.0.57.6,09 +6 (0.57)2.3.83- 3. (0,57)'] ·0,2' = 0,054.

Найдем асимметрию и 9ксцесс:

a~=m8/a:=(-O.OOO7)/( YO.14)8= -0,01; ek= m';a~- 3= (0.054/( УО,(4)4_3= -0,24.

3 а м е ч а н и е. В случае малых выборок к оценкам асимметрии

и9ксцесса следует отиоситься с осторожностью И определить точ­

ность этих оценок

(см.: С м и р н о в Н. В. и Д у н и н - Б а р к о в­

С К И А И. В. Курс

теории вероятностей и математической статистики.

М., «Наука., 1965,

с. 277).

За.цачн

в задачах ) - 2 даны выборочиые варианты и их частоты. Нанти,

пользуясь методом произведений, выборочные среднюю и дисперсию.

Х/

В;

1.

10,3

10,5

10,7

]0,9 1] , ]

11,3

1] ,5

1] ,7

11,9

12,1

4

7

8

10

25

15

12

10

4

5

Omв. xB =ll,19.

 

DB =0.19.

 

 

 

 

 

 

2.

83

85

87

89

91

93

95

97

99

JOl

Х;

6

7

 

12

15

зо

10

8

6

4

2

I

 

 

 

 

 

 

 

 

 

 

 

Оms. хв=90.72,

 

DB =

17,20.

 

 

 

 

 

 

3. НаАтн

асимметрию

и 9ксцесс 9мпирического распреJl.еления

Х/

]0,6

10,8

11,0

11,2

11.4

 

11.6

11.8

n'

5

 

 

10

17

 

зо

20

 

12

6

Omв. а"= - 0.0006,

г" =0,00004.

 

 

 

 

252

Глава восемналдатая

ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ

§t. Функциональная, статистическая

Икорреляционная зависимости

Во многих задачах требуется установить и оце­

нить зависимость изучаемой случайной величины У от

одной или нескольких других величин. Рассмотрим сначала зависимость У от одной случайной (или неслучайной)

величины Х, а затем от нескольких величин (см. § 15).

Две случайные величины могут быть связаны либо

функциональной зависимостью (см. гл. XII, § 10), либо

зависимостью другого рода, называемой 'статистической, либо быть независимыми.

Строгая функциональная зависимость реализуется ред­

ко, так как обе величины или одна из них подвержены еще

действию случайных факторов, причем среди них могут

быть и общие для обеих величин (под «общими» здесь

подразумеваются такие факторы, которые воздействуют и на У и на Х). В этом случае возникает статистическая

зависимость.

Например, если У зависит от случайных факторов ZlO

Zs, V l' V8' а Х зависит от случайных факторов Zl> Z., иl'

1'0 между У и Х имеется статистическая зависимость,

так как среди случайных факторов есть общие, а имен­

но: Zl и Zs.

Статистической называют зависимость, при которой

изменение одной из величин влечет изменение распреде­ ления другой. В частности, статистическая зависимость

проявляется в том, что при изменении одной из величин

изменяется среднее значение другой; в этом случае ста­

тистическую зависимость называют корреляционной.

Приведем пример случайной величины У, которая не

связана с величиной Х функционально, а связана кор­

реляционно. Пусть У-урожай зерна, Х-количество

удобрений. С одинаковых по площади участков зеМJ1И

при равных количествах внесенных удобрений снимают различный урожай, т. е. У не является функцией от Х.

это объясняется влиянием случайных факторов (осадки,

температура воздуха и др.). Вместе с тем, как показы­

Вает опыт, средний урожай является функцией от JЮличе­

ства удобрений, т. е. У связан с Х корреляционной зависи­

Мостью.

253

§2. Условные ере_нне

вкачестве оценок условных математических

ожиданий (см. гл. XIV. § 15) принимают условные сред­

ние, которые находят по данным наблюдений (по выборке).

Jlсловны.м, средним Ух называют среднее арифметиче­

ское наблюдавшихея значений У, соответствующих Х = х.

Например, если при Х1= 2 величина У приняла з~аче-

ния Yl = 5, У2 = б, Уа = 10, то условное среднее Ух. =

= (5+6+ 10)/3=1.

Аналогично определяется условное среднее ХУ'

Jlсловным средним Ху называют среднее арифметическое наблюдавшихея значений Х, соответствующих У = У.

§3. Выборочные уравнения регрессии

вгл. XIV, § 15 были введены уравнения регрес­

сии У на Х и Х на У:

мI х) = f (х), м (Х I У) = (j) (У).

Условное математическое ожидание М (У Iх) является

функцией от х, следовательно, его оценка, т. е. услов-

ное среднее Ух, также функция от х; обозначив эту функ­

цию через (х), получим уравнение

Ух= f* (х).

Это уравнение называют выборочны.м, уравнением регрес­ сии У на Х; функцию (х) называют выборочной регрес­

сией У на Х, а ее график-выборочной линией регрес­

сии У на Х. Аналогично уравнение

Xl/ = q>* (У)

называют вbl60рочныJIt уравнением регрессии Х на У; функ­

цию '11. (У) называют 8fJI6oрочной регрессией Х на У, а

ее график -8bIбQрочной линией регрессии Х на У.

Как найти по данным наблюдений параметры функ­

ций (х) и q>. (У), еCJIИ вид их известен? Как оценить

силу (тесноту) связи между величинами Х и У и устано­ вить. коррелированы ли эти величины? OrвeTЫ на эти

вопросы изложены ниже.

2Б4

§ 4. Отыскание параметров выборочного уравнения

прямой линии среднеквадратичной регрессии

по несгруппированным даиным

Пусть изучается система количественных приз­

наков (Х, У). В результате n независимых опытов полу­

чены n пар чисел (x1 , Yl)' (x s У.), ... , n' Уn)'

Найдем по данным наблюдений выборочное уравнение прямой линии среднеквадратичной регрессии (см. гл. XIV, § 20). Для определенности будем искать уравнение

Yx=kx+b

регрессии у на Х.

Поскольку различные значения Х признака Х и соот­ ветствующие им значения у признака У наблюдались

по одному разу, то группировать данные нет необходи­

мости. Также нет надобности использовать понятие услов­

ной средней, поэтому искомое уравнение можно записать

так:

y=kx+b.

Угловой коэффициент прямой линии регрессии У на Х

называют вbl.борочнbl.М, коэффициенто'м регрессии У на Х

и обозначают через Р"х; он является оценкой коэффици­

ента регрессии р (см. гл. XIV, § 20).

Итак, будем искать выборочное уравнение прямой линии регрессии У на Х вида

У =

PI/xx +b

(*)

Подберем параметры

Рух И Ь так,

чтобы точки

(xl ; У.) (x s; y.J, "', n; Уn)' построенные по данным наб­

людений, на плоскости хОу лежали как можно ближе

к прямой (*). Уточним смысл этого требования. Назовем

отклонением разность

Yi-Yi (i= 1, 2, ... , n),

rде Уj-вычисленная по уравнению (*) ордината, соответ­ ствующая наблюдаемому значению Xj; у•. -наблюдаемая

ордината, соответствующая xi

Подберем параметры Рух И Ь так, чтобы сумма квад­

ратов отклонений была минимальной (в этом состоит

сущиость метода наименьших квадратов). Так как каж­

дое отклонение зависит от отыскиваемых параметров, то

и сумма квадратов отклонении есть функция F 9ТИХ

255

параметров (временно вместо Рух будем писать Р):

fI

F (р, Ь) = ~ (Yj-Yi)2.

l= 1

или

n

F (Р. Ь) = ~ (pXj +b-Yi)7..

i= I

Для отыскания минимума приравняем нулю соответству­

ющие частные ПРОИЗВОДные:

дР

fI

др=2 ~ (pxj+b-у/)хj=О;

 

1=1

дР

n

дЬ =2

~ (pxi+b-Уj)=О.

 

1= 1

Выполнив элементарные преобразования. получим си-

~

u

стему двух линеиных

уравнении относительно р

(~X2) р+ (~x) Ь= ~xy; (~x)p+nb = ~y.

Решив эту систему. найдем искомые параметры:

Рух= (n ~xy-~. ~y)/(n ~x2_(~x)2);

Ь = (~x7.. ~Y-~X' ~xy)/(n ~X2_(~X)I). (***)

Аналогично можно найти выборочное уравнение пря­

мой линии регрессии Х на У:

Ху = РхуХ+С.

где Рхувыборочный коэф!Jициент регрессии Х на У.

Пример. Найти выборочное уравнеиие прямой линии регрессии

у на Х по даниым n = 5 наблюдеиий:

х

у

1,00

1,50

3,00

4,50

5,00

1,25

1,40

1,50

1,75

2,25

Реш е н и е. Составим расчетную табл. 11.

Найдем искомые параметры, для чего подставим вычисленные по

таблице суммы в соотношения (* ...*):

Рху= (5·26,975-15·8,15)/f5· 57 ,5-152) = 0,202; Ь = (57,5·8,15-15·26,975)/62,5= 1,024.

n

.) Для простоты записи вместо ~ условимся пиеать ~

1=1

2б6

%i

I

yj

1,00

 

1,25

1,50

 

1,40

3,00

 

1,50

4,50

 

1,75

5,00

 

2,25

~Xi=15

 

~Yi=8,15

I

 

I

Таблица Il

ха

xjY{

 

i

 

 

1,00

 

1,250

 

2,25

 

2,100

 

9,00

 

4,500

 

20,25

 

7,87!)

 

25,00

 

11,250

I

~2

\ ~XiYi =26,975

Xi. =57,50

Напишем искомое уравиение регрессин:

У = О,202х+ 1,024.

Для того чтобы получить представление, насколько хорошо вы­

~ислеиные по этому уравнению зиачения У; согласуются с наблюдаем

мыми значениями Yi, наАдем отклонения

Yi-Y;' Результаты вычис­

лений приведены в табл.

12.

 

 

 

 

 

 

 

 

Таблица 12

Х/

I

У.

I

11;

Угll;

J

1,00

1,226

 

1,25

-0,024

1,50

1,327

 

1,40

-0,073

3,00

1,630

 

1,50

О,IЗО

4,50

1,933

 

1,75

0,183

5,00

2,034

 

2,25

-0,216

Как видно из таблицы, не все отклонения достаточно малы, ~o

объясняется Ma.'JblM числом наблюдений.

§ 5. Корреляционная таблица

При большом числе наблюдений одно и то же

значение х может встретиться nх раз, одно и то же зна­

чение Y-nIJ раз, одна и та же пара чисел (х, у) может

наблюдаться nХIJ раз, Поэтому данные наблюдений груПм

пируют, т. е. подсчитывают частоты nхnJl' nхи' Все

сгруппированные данные записывают в виде таблицы.

которую называют корреляционной.

17 ~ 2730

257

Поясним устройство корреляционной таблицы на при­

мере табл. 13.

 

 

 

 

 

 

 

 

Таблица 13

 

 

 

 

I

х

I

 

 

у

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

30

 

40

nу

0,4

5

 

-

 

7

 

14

26

0,6

-

 

2

 

6

 

4

12

0,8

3

I

19

 

-

 

-

22

nх

8

21

 

 

18

n=60

 

 

 

в первой строке таблицы указаны наблюдаемые зна­ чения (10; 20; 30; 40) признака Х, а в первом столбце­ наблюдаемые значения (0,4; 0,6; 0,8) признака У. На пе­

ресечении строк и столбцов находятся частоты nХII наблю­

даемых пар значений ПРl1знаков. Например, частота 5

указывает, что пара чисел (10; 0,4) иаблюдалась 5 раз.

Все частоты помещены в прямоугольнике, стороны кото­

рого проведены жирными отрезками. Черточка означает, что соответственная пара чисел, например (20; 0,4), не

наблюдалась.

В последнем столбце записаны суммы частот строк.

Например,

сумма частот первой строки «жирного» прямо­

угольника

равна nll = 5 +7

+.14 == 26;

это

число указы­

вает, что значение призиака У,

равиое

0,4

(в сочетании

с

различными

значениями

призиака

Х),

наблюдалось

26

раз.

 

 

 

 

 

 

 

 

 

В последней строке записаны

суммы частот столбцов.

Например,

число 8 указывает,

что значение ПрИЗJlака Х.

равное

10

(в сочетании с различными

значениями

при­

знака

У). наблюдалось 8 раз.

 

 

 

 

 

 

В

клетке,

расположенной

в

нижнем

правом

углу

таблицы, помещена сумма всех частот (общее число всех

наблюдений n). Очевидно, ~ nх= ~ nl/ = n. В нашем при­

мере

~nx=8+21 + 13+ 18=60 и ~nll=26+ 12+22=60.

258

§ 6. Отыскание параметров выборочного

уравнения прямой линии регрессии

по СГРУIlПИРОванным данным

в § 4 для определения параметров уравнения

прямой линии регрессии У на Х была получена система

уравнений

(~xll) РlIх+ (~x) Ь -= ~ху, } (~x) Рllх+ nЬ = ~y.

Предполагалось, что значения Х и соответствующие и1о' значения У наблюдались по одному разу. Теперь же

допустим, что получено большое число данных (практи­

чески для удовлетворительной оценки искомых парамет­

ров должно быть хотя бы 50 наблюдений), среди них есть

повторяющиеся, и они сгруппированы в виде корреля­

ционной таблицы. Запишем систему (*) так, чтобы она

отражала данные корреляционной таблицы. Восполь­

зуемся тождествами:

~X= nх (следствие из Х= ~x/n);

~ У == nу (следствие из У = ~у/n);

~x2=nx2 (следствие из X2=~xll/n)t

~xy = ~ nху ху (учтено, что пара чисел (х, у) наблюда­

лась nху раз).

Подставив правые части тождеств в систему (*) и со­

кратив обе части второго уравнения на n, получим

(nxll ) PII~+ (nх) Ь = ~nХIIХУ, }

(Х)РlIх+ Ь =У.

Решив 9ТУ систему. найдем параметры РlIх И Ь и, следо­

вательно, искомое уравнение

Ух=РllхХ + Ь.

Однако более целесообразно, введя новую величину -

выборочный КОэффИl1иент корреляции, написать уравне­

ние регрессии в ином виде. Сделаем это. Найдем Ь из второго уравнения (**):

17*

259

Подставив правую часть этого равенства в уравненне

Ух= рllхх+Ь, получим

 

 

 

Ух-У = РIlХ (х-х).

(***)

Найдем *) из снстемы (*)

ко3ффициент регрессии, учи­

тывая, что XI _(X)2 = a~ (см.

гл. XVI, § 10):

 

 

 

 

~ nхиХУ-nХУ

 

~ nхиХУ-nХУ

 

Р

11

х=

n[х2_(х)l]

=

-.

 

 

 

па"

 

Умножим обе части равенства на дробь С1х/С1f1!

ОХ ~ nxyXY-nХУ-

Рух':;- =

- -

ау

naxOf/

 

Обозначим правую часть равенства через r в и назовем ее выборочным коэффициентом корреляции (см. замечание 3):

",LJ nхуХУ - n--ху

nа"а1l

Подставим 'в В (****):

Orсюда

Подставив правую часть 9ТОГО равенства в (***) , оконча­

тельно получим выборочное уравнение прямой линии

регрессии У на Х вида

- -

Yx-У=Гв

-

0'11 -

:;-(х-х).

ах

3 а м е ч а н н е 1. АнаollОГИЧНО

находит выборочное уравнение

пря.моЙ

линии регрессии Х

на У

вида

 

-

-

с-/х

-

 

ХII-Х=ГВ

::-

(}j-II).

-

-

 

 

С/1/

 

 

 

 

 

где ГВО'Х/О'I/=РХIl'

 

 

 

 

.) в этойглаве выборочное среднее квадратическое отклонение

обозначено через а; например. ах-выборочное среднее квадратиче­

ское отклонение Х.

260