![](/user_photo/2706_HbeT2.jpg)
2003_-_Gmurman__TV_i_MS
.pdf![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG251x1.jpg)
Пример. Найти асимметрию и 9ксцесс 9мпирическоro распреде
леиия:
вариаита
частота
10,2 |
10,4 |
10,6 |
10,8 |
11,0 |
11,2 |
11,4 |
11,6 |
11,8 |
12,0 |
2 |
3 |
8 |
13 |
25 |
20 |
12 |
10 |
6 |
1 |
Ре w е и и е. Воспользуемся методом произведений, для чего со
ставим расчетную табл. 10. Поскольку в § 4 указано, как заполня
ются столбцы 1-5 таблицы, ограничимся краткими пояснеииями: для
заполнения столбца 6 удобно перемножать числа каждой строки
столбцов 3 и 5; для заполиения столбца 7 удобно перемножать числа
каждой строки столбцов 3 и 6. Столбец 8 служит для коитроля
вычнслений по тождеству:
~n, (щ+ 1)4= ~ niut+4 ~niuf+6~nlu:+4~n(щ+n.
Контроль: ~ n, (щ+ 1)6= 9141;
~n{ut+ 4 ~ntUr +6 ~1U;+ 4 ~njщ+n =
=4079+ 4·609+6·3&3+ 4·57 + 100= 9141.
Таблица 10
1 I 2 |
I з I |
||
Х, |
"{ |
1", |
I |
|
|||
10,21 |
2 |
1-41 |
|
10,41 |
3 |
1-з1 |
|
10,61 |
8 |
1-21 |
|
10,81 |
13 |
1-11 |
|
11,0 I25 |
I 01 |
||
1],2120 |
I |
1 1 |
|
ll,41 |
12 |
1 |
21 |
11,61 |
10 |
1 |
з1 |
I1 ,81 |
6 |
I 41 |
|
12,01 |
1 |
1 |
51 |
I |
|
I |
I |
4 |
I 5 |
I 6 |
7 |
"j"{ |
I "1"1I |
I ,,{"' |
I ".·"1 |
- 8 |
1 |
32 |
1 |
-128 |
I |
512 |
|
||||||
|
|
|
I |
|
||
-9 |
1 |
27 |
I -81 |
243 |
||
-16 |
I |
32 |
I -64 |
I |
128 |
|
-13 |
1 |
13 |
1 |
-13 |
I |
]3 |
-46 |
1 |
|
1-286 |
1 |
|
|
|
|
|
|
|
|
|
20 |
1 |
20 |
I |
20 |
1 |
20 |
24 |
I |
48 |
1 |
96 |
I |
192 |
30 |
|
90 |
1 |
270 |
I |
810 |
24 |
I |
96 |
1 |
384 |
I |
1536 |
5 |
25 |
1 |
125 |
I |
625 |
|
103 |
I |
|
1 |
895 |
1 |
|
I |
8 |
|
|
I"j (".'+1). |
|
I |
162 |
I |
48 |
|
|
I |
8 |
|
|
I |
- |
I |
25 |
|
|
1 |
320 |
|
|
1 |
972 |
|
|
1 |
2560 |
|
|
I |
3750 |
I |
1296 |
1 |
|
n= |
~njuj= ~n{и:= ~njul= ~njut= |
~ni (щ + |
|||
=]00 |
=57 |
=383 |
=609 |
=4079 |
+1)·=9141 |
251
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG252x1.jpg)
Совпадение СУММ свидетельствует о том, что ВЫЧИCJIения проиэведены
правильио.
Впримере § 4 для рассматриваемого распределеиия быJЮ най-
деио: М;=0.57; М;=3,83; DB =O,14. следовательно. ав= 110,14.
Найдем условные моменты третьего и четвертого порядка:
Найдем центральные 9мпирические моменты третьего и четвер
того порядка:
mll= [ |
- |
- - |
+2 |
(-)11] |
h |
ll |
= |
|
M s |
-3M1 M 2 |
M 1 |
|
= {6.09-3.0,57 .3.83+2. (0,57)11] ·0.23 = -0.0007: m.=[M:-4М;М;+6 (М;)2 М;-3 (M~)'] h4 =
= [40.79 -4.0.57.6,09 +6 (0.57)2.3.83- 3. (0,57)'] ·0,2' = 0,054.
Найдем асимметрию и 9ксцесс:
a~=m8/a:=(-O.OOO7)/( YO.14)8= -0,01; ek= m';a~- 3= (0.054/( УО,(4)4_3= -0,24.
3 а м е ч а н и е. В случае малых выборок к оценкам асимметрии
и9ксцесса следует отиоситься с осторожностью И определить точ
ность этих оценок |
(см.: С м и р н о в Н. В. и Д у н и н - Б а р к о в |
С К И А И. В. Курс |
теории вероятностей и математической статистики. |
М., «Наука., 1965, |
с. 277). |
За.цачн
в задачах ) - 2 даны выборочиые варианты и их частоты. Нанти,
пользуясь методом произведений, выборочные среднюю и дисперсию.
Х/
В;
1.
10,3 |
10,5 |
10,7 |
]0,9 1] , ] |
11,3 |
1] ,5 |
1] ,7 |
11,9 |
12,1 |
|
4 |
7 |
8 |
10 |
25 |
15 |
12 |
10 |
4 |
5 |
Omв. xB =ll,19. |
|
DB =0.19. |
|
|
|
|
|
|
|||
2. |
83 |
85 |
87 |
89 |
91 |
93 |
95 |
97 |
99 |
JOl |
|
Х; |
|||||||||||
n· |
6 |
7 |
|
12 |
15 |
зо |
10 |
8 |
6 |
4 |
2 |
I |
|
|
|
|
|
|
|
|
|
|
|
Оms. хв=90.72, |
|
DB = |
17,20. |
|
|
|
|
|
|
||
3. НаАтн |
асимметрию |
и 9ксцесс 9мпирического распреJl.еления |
|||||||||
Х/ |
]0,6 |
10,8 |
11,0 |
11,2 |
11.4 |
|
11.6 |
11.8 |
|||
n' |
5 |
|
|
10 |
17 |
|
зо |
20 |
|
12 |
6 |
Omв. а"= - 0.0006, |
г" =0,00004. |
|
|
|
|
252
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG253x1.jpg)
Глава восемналдатая
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ
§t. Функциональная, статистическая
Икорреляционная зависимости
Во многих задачах требуется установить и оце
нить зависимость изучаемой случайной величины У от
одной или нескольких других величин. Рассмотрим сначала зависимость У от одной случайной (или неслучайной)
величины Х, а затем от нескольких величин (см. § 15).
Две случайные величины могут быть связаны либо
функциональной зависимостью (см. гл. XII, § 10), либо
зависимостью другого рода, называемой 'статистической, либо быть независимыми.
Строгая функциональная зависимость реализуется ред
ко, так как обе величины или одна из них подвержены еще
действию случайных факторов, причем среди них могут
быть и общие для обеих величин (под «общими» здесь
подразумеваются такие факторы, которые воздействуют и на У и на Х). В этом случае возникает статистическая
зависимость.
Например, если У зависит от случайных факторов ZlO
Zs, V l' V8' а Х зависит от случайных факторов Zl> Z., иl'
1'0 между У и Х имеется статистическая зависимость,
так как среди случайных факторов есть общие, а имен
но: Zl и Zs.
Статистической называют зависимость, при которой
изменение одной из величин влечет изменение распреде ления другой. В частности, статистическая зависимость
проявляется в том, что при изменении одной из величин
изменяется среднее значение другой; в этом случае ста
тистическую зависимость называют корреляционной.
Приведем пример случайной величины У, которая не
связана с величиной Х функционально, а связана кор
реляционно. Пусть У-урожай зерна, Х-количество
удобрений. С одинаковых по площади участков зеМJ1И
при равных количествах внесенных удобрений снимают различный урожай, т. е. У не является функцией от Х.
это объясняется влиянием случайных факторов (осадки,
температура воздуха и др.). Вместе с тем, как показы
Вает опыт, средний урожай является функцией от JЮличе
ства удобрений, т. е. У связан с Х корреляционной зависи
Мостью.
253
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG254x1.jpg)
§2. Условные ере_нне
вкачестве оценок условных математических
ожиданий (см. гл. XIV. § 15) принимают условные сред
ние, которые находят по данным наблюдений (по выборке).
Jlсловны.м, средним Ух называют среднее арифметиче
ское наблюдавшихея значений У, соответствующих Х = х.
Например, если при Х1= 2 величина У приняла з~аче-
ния Yl = 5, У2 = б, Уа = 10, то условное среднее Ух. =
= (5+6+ 10)/3=1.
Аналогично определяется условное среднее ХУ'
Jlсловным средним Ху называют среднее арифметическое наблюдавшихея значений Х, соответствующих У = У.
§3. Выборочные уравнения регрессии
вгл. XIV, § 15 были введены уравнения регрес
сии У на Х и Х на У:
м(У I х) = f (х), м (Х I У) = (j) (У).
Условное математическое ожидание М (У Iх) является
функцией от х, следовательно, его оценка, т. е. услов-
ное среднее Ух, также функция от х; обозначив эту функ
цию через f· (х), получим уравнение
Ух= f* (х).
Это уравнение называют выборочны.м, уравнением регрес сии У на Х; функцию f· (х) называют выборочной регрес
сией У на Х, а ее график-выборочной линией регрес
сии У на Х. Аналогично уравнение
Xl/ = q>* (У)
называют вbl60рочныJIt уравнением регрессии Х на У; функ
цию '11. (У) называют 8fJI6oрочной регрессией Х на У, а
ее график -8bIбQрочной линией регрессии Х на У.
Как найти по данным наблюдений параметры функ
ций f· (х) и q>. (У), еCJIИ вид их известен? Как оценить
силу (тесноту) связи между величинами Х и У и устано вить. коррелированы ли эти величины? OrвeTЫ на эти
вопросы изложены ниже.
2Б4
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG255x1.jpg)
§ 4. Отыскание параметров выборочного уравнения
прямой линии среднеквадратичной регрессии
по несгруппированным даиным
Пусть изучается система количественных приз
наков (Х, У). В результате n независимых опытов полу
чены n пар чисел (x1 , Yl)' (x s У.), ... , (Хn' Уn)'
Найдем по данным наблюдений выборочное уравнение прямой линии среднеквадратичной регрессии (см. гл. XIV, § 20). Для определенности будем искать уравнение
Yx=kx+b
регрессии у на Х.
Поскольку различные значения Х признака Х и соот ветствующие им значения у признака У наблюдались
по одному разу, то группировать данные нет необходи
мости. Также нет надобности использовать понятие услов
ной средней, поэтому искомое уравнение можно записать
так:
y=kx+b.
Угловой коэффициент прямой линии регрессии У на Х
называют вbl.борочнbl.М, коэффициенто'м регрессии У на Х
и обозначают через Р"х; он является оценкой коэффици
ента регрессии р (см. гл. XIV, § 20).
Итак, будем искать выборочное уравнение прямой линии регрессии У на Х вида
У = |
PI/xx +b• |
(*) |
Подберем параметры |
Рух И Ь так, |
чтобы точки |
(xl ; У.) (x s; y.J, "', (хn; Уn)' построенные по данным наб
людений, на плоскости хОу лежали как можно ближе
к прямой (*). Уточним смысл этого требования. Назовем
отклонением разность
Yi-Yi (i= 1, 2, ... , n),
rде Уj-вычисленная по уравнению (*) ордината, соответ ствующая наблюдаемому значению Xj; у•. -наблюдаемая
ордината, соответствующая xi •
Подберем параметры Рух И Ь так, чтобы сумма квад
ратов отклонений была минимальной (в этом состоит
сущиость метода наименьших квадратов). Так как каж
дое отклонение зависит от отыскиваемых параметров, то
и сумма квадратов отклонении есть функция F 9ТИХ
255
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG256x1.jpg)
параметров (временно вместо Рух будем писать Р):
fI
F (р, Ь) = ~ (Yj-Yi)2.
l= 1
или
n
F (Р. Ь) = ~ (pXj +b-Yi)7..
i= I
Для отыскания минимума приравняем нулю соответству
ющие частные ПРОИЗВОДные:
дР |
fI |
др=2 ~ (pxj+b-у/)хj=О; |
|
|
1=1 |
дР |
n |
дЬ =2 |
~ (pxi+b-Уj)=О. |
|
1= 1 |
Выполнив элементарные преобразования. получим си-
~ |
u |
стему двух линеиных |
уравнении относительно р |
(~X2) р+ (~x) Ь= ~xy; (~x)p+nb = ~y.
Решив эту систему. найдем искомые параметры:
Рух= (n ~xy-~. ~y)/(n ~x2_(~x)2);
Ь = (~x7.. ~Y-~X' ~xy)/(n ~X2_(~X)I). (***)
Аналогично можно найти выборочное уравнение пря
мой линии регрессии Х на У:
Ху = РхуХ+С.
где Рхувыборочный коэф!Jициент регрессии Х на У.
Пример. Найти выборочное уравнеиие прямой линии регрессии
у на Х по даниым n = 5 наблюдеиий:
х
у
1,00 |
1,50 |
3,00 |
4,50 |
5,00 |
1,25 |
1,40 |
1,50 |
1,75 |
2,25 |
Реш е н и е. Составим расчетную табл. 11.
Найдем искомые параметры, для чего подставим вычисленные по
таблице суммы в соотношения (* ...*):
Рху= (5·26,975-15·8,15)/f5· 57 ,5-152) = 0,202; Ь = (57,5·8,15-15·26,975)/62,5= 1,024.
n
.) Для простоты записи вместо ~ условимся пиеать ~ •
1=1
2б6
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG257x1.jpg)
%i |
I |
yj |
1,00 |
|
1,25 |
1,50 |
|
1,40 |
3,00 |
|
1,50 |
4,50 |
|
1,75 |
5,00 |
|
2,25 |
~Xi=15 |
|
~Yi=8,15 |
I |
|
I |
Таблица Il |
ха |
xjY{ |
||
|
i |
|
|
|
1,00 |
|
1,250 |
|
2,25 |
|
2,100 |
|
9,00 |
|
4,500 |
|
20,25 |
|
7,87!) |
|
25,00 |
|
11,250 |
I |
~2 |
\ ~XiYi =26,975 |
|
Xi. =57,50 |
Напишем искомое уравиение регрессин:
У = О,202х+ 1,024.
Для того чтобы получить представление, насколько хорошо вы
~ислеиные по этому уравнению зиачения У; согласуются с наблюдаем
мыми значениями Yi, наАдем отклонения |
Yi-Y;' Результаты вычис |
||||
лений приведены в табл. |
12. |
|
|
|
|
|
|
|
|
|
Таблица 12 |
Х/ |
I |
У. |
I |
11; |
Угll; |
J |
|||||
1,00 |
1,226 |
|
1,25 |
-0,024 |
|
1,50 |
1,327 |
|
1,40 |
-0,073 |
|
3,00 |
1,630 |
|
1,50 |
О,IЗО |
|
4,50 |
1,933 |
|
1,75 |
0,183 |
|
5,00 |
2,034 |
|
2,25 |
-0,216 |
Как видно из таблицы, не все отклонения достаточно малы, ~o
объясняется Ma.'JblM числом наблюдений.
§ 5. Корреляционная таблица
При большом числе наблюдений одно и то же
значение х может встретиться nх раз, одно и то же зна
чение Y-nIJ раз, одна и та же пара чисел (х, у) может
наблюдаться nХIJ раз, Поэтому данные наблюдений груПм
пируют, т. е. подсчитывают частоты nх• nJl' nхи' Все
сгруппированные данные записывают в виде таблицы.
которую называют корреляционной.
17 ~ 2730 |
257 |
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG258x1.jpg)
Поясним устройство корреляционной таблицы на при
мере табл. 13.
|
|
|
|
|
|
|
|
Таблица 13 |
|
|
|
|
I |
х |
I |
|
|
у |
10 |
|
|
|
|
|
||
|
|
|
|
|
|
|
||
|
|
20 |
|
30 |
|
40 |
nу |
|
0,4 |
5 |
|
- |
|
7 |
|
14 |
26 |
0,6 |
- |
|
2 |
|
6 |
|
4 |
12 |
0,8 |
3 |
I |
19 |
|
- |
|
- |
22 |
nх |
8 |
21 |
|
lЗ |
|
18 |
n=60 |
|
|
|
|
в первой строке таблицы указаны наблюдаемые зна чения (10; 20; 30; 40) признака Х, а в первом столбце наблюдаемые значения (0,4; 0,6; 0,8) признака У. На пе
ресечении строк и столбцов находятся частоты nХII наблю
даемых пар значений ПРl1знаков. Например, частота 5
указывает, что пара чисел (10; 0,4) иаблюдалась 5 раз.
Все частоты помещены в прямоугольнике, стороны кото
рого проведены жирными отрезками. Черточка означает, что соответственная пара чисел, например (20; 0,4), не
наблюдалась.
В последнем столбце записаны суммы частот строк.
Например, |
сумма частот первой строки «жирного» прямо |
|||||||||
угольника |
равна nll = 5 +7 |
+.14 == 26; |
это |
число указы |
||||||
вает, что значение призиака У, |
равиое |
0,4 |
(в сочетании |
|||||||
с |
различными |
значениями |
призиака |
Х), |
наблюдалось |
|||||
26 |
раз. |
|
|
|
|
|
|
|
|
|
|
В последней строке записаны |
суммы частот столбцов. |
||||||||
Например, |
число 8 указывает, |
что значение ПрИЗJlака Х. |
||||||||
равное |
10 |
(в сочетании с различными |
значениями |
при |
||||||
знака |
У). наблюдалось 8 раз. |
|
|
|
|
|
||||
|
В |
клетке, |
расположенной |
в |
нижнем |
правом |
углу |
таблицы, помещена сумма всех частот (общее число всех
наблюдений n). Очевидно, ~ nх= ~ nl/ = n. В нашем при
мере
~nx=8+21 + 13+ 18=60 и ~nll=26+ 12+22=60.
258
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG259x1.jpg)
§ 6. Отыскание параметров выборочного
уравнения прямой линии регрессии
по СГРУIlПИРОванным данным
в § 4 для определения параметров уравнения
прямой линии регрессии У на Х была получена система
уравнений
(~xll) РlIх+ (~x) Ь -= ~ху, } (~x) Рllх+ nЬ = ~y.
Предполагалось, что значения Х и соответствующие и1о' значения У наблюдались по одному разу. Теперь же
допустим, что получено большое число данных (практи
чески для удовлетворительной оценки искомых парамет
ров должно быть хотя бы 50 наблюдений), среди них есть
повторяющиеся, и они сгруппированы в виде корреля
ционной таблицы. Запишем систему (*) так, чтобы она
отражала данные корреляционной таблицы. Восполь
зуемся тождествами:
~X= nх (следствие из Х= ~x/n);
~ У == nу (следствие из У = ~у/n);
~x2=nx2 (следствие из X2=~xll/n)t
~xy = ~ nху ху (учтено, что пара чисел (х, у) наблюда
лась nху раз).
Подставив правые части тождеств в систему (*) и со
кратив обе части второго уравнения на n, получим
(nxll ) PII~+ (nх) Ь = ~nХIIХУ, }
(Х)РlIх+ Ь =У.
Решив 9ТУ систему. найдем параметры РlIх И Ь и, следо
вательно, искомое уравнение
Ух=РllхХ + Ь.
Однако более целесообразно, введя новую величину -
выборочный КОэффИl1иент корреляции, написать уравне
ние регрессии в ином виде. Сделаем это. Найдем Ь из второго уравнения (**):
17* |
259 |
![](/html/2706/177/html_BsYoFfp39t.Debv/htmlconvd-4svkEG260x1.jpg)
Подставив правую часть этого равенства в уравненне
Ух= рllхх+Ь, получим
|
|
|
Ух-У = РIlХ (х-х). |
(***) |
||
Найдем *) из снстемы (*) |
ко3ффициент регрессии, учи |
|||||
тывая, что XI _(X)2 = a~ (см. |
гл. XVI, § 10): |
|
||||
|
|
|
~ nхиХУ-nХУ |
|
~ nхиХУ-nХУ |
|
Р |
11 |
х= |
n[х2_(х)l] |
= |
-. |
• |
|
|
|
па" |
|
Умножим обе части равенства на дробь С1х/С1f1!
ОХ ~ nxyXY-nХУ-
Рух':;- = |
- - |
• |
ау |
naxOf/ |
|
Обозначим правую часть равенства через r в и назовем ее выборочным коэффициентом корреляции (см. замечание 3):
",LJ nхуХУ - n--ху
•
nа"а1l
Подставим 'в В (****):
Orсюда
Подставив правую часть 9ТОГО равенства в (***) , оконча
тельно получим выборочное уравнение прямой линии
регрессии У на Х вида
- -
Yx-У=Гв
-
0'11 -
:;-(х-х).
ах
3 а м е ч а н н е 1. АнаollОГИЧНО |
находит выборочное уравнение |
||||
пря.моЙ |
линии регрессии Х |
на У |
вида |
||
|
- |
- |
с-/х |
- |
|
|
ХII-Х=ГВ |
::- |
(}j-II). |
||
- |
- |
|
|
С/1/ |
|
|
|
|
|
||
где ГВО'Х/О'I/=РХIl' |
|
|
|
|
.) в этойглаве выборочное среднее квадратическое отклонение
обозначено через а; например. ах-выборочное среднее квадратиче
ское отклонение Х.
260