3. Функции и линии регрессии.
Пусть и - две случайные непрерывные величины, находящиеся в корреляционной зависимости. Это значит, что каждому значениюx случайной величины соответствует вполне определенное распределение вероятностей величины . Плотность распределения величины при условии, что , называется условной плотностью распределения случайной величины . Вычислим для данного случая так называемое условное математическое ожидание величины при условии, что .Согласно определению математического ожидания непрерывной случайной величины, имеем
[см. формулу (40)]. Каждому возможному значению x случайной величины соответствует определенное значение условного математического ожидания . Таким образом, мы получаем функцию переменной x. Эта функция y=f(x)называется функцией регрессии величины на , а ее график - линией регрессии на . Аналогично определяется условное математическое ожидание величины при условии, что :
где - условная плотность вероятности случайной величины при условии, что . Функция x=g(y) называется функцией регрессии величины на , а ее график - линией регрессии на . Cледует иметь в виду, что функции y=f(x) и x=g(y) не являются обратными по отношению друг к другу. Если обе функции и линейны, то линиями регрессии являются прямые. В этом случае говорят, что случайные величины и связаны линейной корреляционной зависимостью. Можно показать, что уравнение прямой регрессии на имеет следующий вид:
(74) |
где - условное математическое ожидание случайной величины при . Аналогично записывается уравнение прямой регрессии на :
(75) |
где - условное математическое ожидание случайной величины при . Величины
(76) |
называются коэффициентами регрессии соответственно на и на . Из формул (76) следует, что
(77) |
Равенство (77) показывает, что оба коэффициента регрессии имеют одинаковые знаки. Если они положительны (отрицательны), то с возрастанием аргумента возрастают (убывают) соответствующие условные математические ожидания. Если , то, как следует из уравнений (74) и (75), и , т.е. в этом случае условные математические ожидания постоянны и равны соответствующим математическим ожиданиям случайных величин и . Замечание. Можно доказать, что если система двух случайных величин имеет нормальное распределение, то эти величины находятся в линейной корреляционной зависимости.
4. Анализ линейной корреляции по опытным данным.
Одной из задач математической статистики является исследование корреляционной зависимости между случайными величинами. Пусть проведено n опытов, в результате которых получены следующие значения системы величин :
(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn).
За приближенные значения , , и принимают их выборочные значения , , и [см. формулы (66) и (67)]:
(78) |
(79) |
Выборочными коэффициентами корреляции называют число , определяемое соотношением:
(80) |
Можно показать, что сходится по вероятности к коэффициенту корреляции . Заменяя в соотношениях (76) величины , и их выборочными значениями , и [см. формулы (79) и (80)], получим приближенные значения коэффициентов регрессии:
(81) |
Подставляя в уравнения (74) и (75) приближенные значения коэффициентов регрессии и используя соотношения (78) и (81), получим уравнения эмпирических прямых регрессий:
на :
(82) |
на :
(83) |
При большом числе опытов для упрощения подсчета значений , , , и коэффициента корреляции поступим следующим образом (см. § 9, п. 2, замечание). Диапазоны изменения наблюдаемых значений случайных величин и разобьем соответственно на интервалы
]X0, X1[, ]X1, X2[, ..., ]Xi-1, Xi[, ..., ]Xk-1, Xk[
и
]Y0, Y1[, ]Y1, Y2[, ..., ]Yj-1, Yj[, ..., ]Ys-1, Ys[
Каждое из наблюдаемых значений , попавших в i-й (j-й) интервал, считаем приближенно равным середине этого интервала ci (dj). Пусть () - число значений , попавших в в i-й (j-й) интервал, а x0 и y0 - произвольные числа, близкие к серединам диапазонов изменения значений и . Полагая ui=ci-x0 и vj=dj-y0 и используя формулы (70) и (71), получим:
(84) |
где
Для подсчета выборочного коэффициента корреляции по формуле (80) сначала запишем выражение в новых переменных ui=ci-x0 и vj=dj-y0. Обозначим через mij число наблюдаемых значений пар , у которых значения попали в i-й интервал] Xi-1,Xi [, а значения - в j-й интервал ] Yj-1,Yj [. Каждое из этих значений и заменим соответствующими серединами ci и djинтервалов ] Xi-1,Xi [ и ] Yj-1,Yj [. Тогда
где сумма в правой части равенства распространена на все возможные пары чисел (i,j), причем i пробегает значения от 1 до k, а j - от 1до s. После преобразований в результате получим
Итак, окончательная расчетная формула для выборочного коэффициента корреляции имеет вид
Пример. Для выяснения зависимости между диаметром ствола () сосны и ее высотой () было исследовано 26 сосен. Наблюдаемые значения высоты сосен колеблются в границах от 22,5 до 28,5 м, диаметр ствола - от 20 до 48 см. Разбивая диапазон изменения высоты сосны на интервалы длиной 1 м, а диапазон изменения диаметра ствола на интервалы длиной 4 см, получим таблицу, приведенную вразделе 9.1. Эта таблица называется корреляционной. В каждой ее клетке стоит число сосен, диаметр ствола и высота которых находится в указанных границах (числа mij). При подсчете статистических характеристик примем высоту всех сосен, попавших в данный интервал, равной середине сi этого интервала, а диаметр ствола - равным середине dj cоответствующего интервала. Подсчет выборочных средних, дисперсий и коэффициента корреляции производим по формулам (84) и (85). Для подсчета , , и составляем две вспомогательные таблицы, принимая x0=25 и y0=34, т.е. ui=ci-25 и vj=dj-34.
|
|
Из первой таблицы для высоты сосны получаем
Из второй таблицы для диаметра ствола сосны находим
Для подсчета составляем новую таблицу. В каждой ее клетке (справа) указано число mij сосен, имеющих одни и те же значения ui а vj, а слева указано произведение mijuivj. Последний столбец состоит из суммы всех mijuivj при постоянном j. Как видно из таблицы
|
ui |
| |||||
vj |
-2 |
-1 |
0 |
1 |
2 |
3 | |
-12 |
48 \ 2 |
|
|
|
|
|
48 |
-8 |
|
16 \ 2 |
0 \ 1 |
-16 \ 2 |
|
|
0 |
-4 |
|
8 \ 2 |
0 \ 2 |
|
-8 \ 1 |
|
0 |
0 |
|
|
0 \ 2 |
0 \ 1 |
|
|
0 |
4 |
|
|
0 \ 1 |
4 \ 1 |
16 \ 2 |
|
20 |
8 |
|
|
|
16 \ 2 |
|
72 \ 3 |
88 |
12 |
|
|
|
|
48 \ 2 |
|
48 |
|
|
|
|
|
|
|
204 |
Используя формулу (85), найдем выборочный коэффициент корреляции:
По формулам (81) находим приближенные значения коэффициентов регрессии:
По формулам (82) и (83) найдем эмпирические уравнения прямых регрессий. Уравнение прямой регрессии на имеет вид
y-33,85=3,81(x-25,65), или y=3,81x-63,88
Это уравнение дает зависимость среднего значения диаметра ствола от его длины. Уравнение прямой регрессии на имеет вид
x-25,65=0,15(y-33,85), или x=0,15y+21,57
Последнее уравнение дает зависимость среднего значения длины ствола от его диаметра.