Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Гмурман.doc
Скачиваний:
6
Добавлен:
01.03.2025
Размер:
4.92 Mб
Скачать

§ 20. Линейная регрессия. Прямые линии среднеквадратической регрессии

Рассмотрим двумерную случайную величину (X, Y), где X и Y— зависимые случайные величины. Пред. ставим одну из величин как функцию другой. Ограни­чимся приближенным представлением (точное приближе­ние, вообще говоря, невозможно) величины У в виде линейной функции величины X:

где а и р — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употре­бительный из них—метод наименьших квадратов.

Функцию g(X) = aX + $ называют «наилучшим при­ближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

где тя = М(Х), my = () х Щ), y V() r = \Lxy/(pxoy)коэффициент корреляции величин X и Y. Доказательство. Введем в рассмотрение функцию двух независимых аргументов аир:

F (а, $) = М [Y—а—р*]». (*)

Учитывая, что М {X— тх)=М (Y—ту) = 0, М[(Х—тхX(Yту)\ = \ixy = гахоу, и выполнив выкладки, получим

F (а, Р) = о« + рЧ£—2гожо„р + у—а—^тх)\

Исследуем функцию F (а, Р) на экстремум, для чего приравняем нулю частные производные:

182

Отсюда

Легко убедиться, что при этих значениях а и Р рассмат­риваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия У и X имеет вид

или

Коэффициент р = г — называют коэффициентом ре­грессии Y на X, а прямую

у т ==г^_/х т \ (**)

называют прямой среднеквадратической регрессии Y на X.

Подставив найденные значения а и р в соотношение (*), получим минимальное значение функции F (а, Р), равное аЦХ—г2). Величину сг^(1—г2) называют остаточной дис­персией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, кото­рую допускают при замене У линейной функцией g(X) = =а + рХ. При г = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффи­циента корреляции не возникает ошибки при представ­лении Y в виде линейной функции от X.

Итак, если коэффициент корреляции г = ±1, то У и X связаны линейной функциональной зависимостью.

Аналогично можно получить прямую среднеквадрати­ческой регрессии X на У:

т ) {* **}

—коэффициент регрессии X на У) и остаточную дисперсию а2(1—г2) величины X относительно У.

Если г = ±1, то обе прямые регрессии, как видно 3 (**) и (***), совпадают.

р Из уравнений (**) и (***) следует, что обе прямые

JJ гРессии проходят через точку х; ту), которую назьь

Ют центром совместного распределения величин X и У.

183

§ 21. Линейная корреляция. Нормальная корреляция

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии Y на X и X на у линейны (см. § 15), то говорят, что X и Y связаны ли­нейной корреляционной зависимостью. Очевидно, что гра­фики линейных функций регрессии — прямые линии, причем можно доказать, что они совпадают с прямыми средне-квадратической регрессии (см. § 20). Имеет место следу­ющая важная теорема.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.

Доказательство. Двумерная плотность вероят­ности (см. § 19)

t (х у\__ * р-(ц'+р»-2гцр)/(а (1-л«)) /*\

2пах ОуУ 1 — г2

где

u = (x—a,)/^, v = {y—as)/oy. (**)

Плотность вероятности составляющей X (см. § 19, замечание)

Н айдем функцию регрессии М (Y \ х), для чего сначала найдем условный закон распределения величины Y при Х=х [см. § 14, формула (**)]:

Подставив (*) и (**) в правую часть этой формулы выполнив выкладки, имеем

З аменив и и v по формулам (**), окончательно получив

184

Полученное условное распределение нормально с ма­гматическим ожиданием (функцией регрессии Y на X)

„ дисперсией а*(1—г2).

Аналогично можно получить функцию регрессии X

на

Так как обе функции регрессии линейны, то корре­ляция между величинами X и Y линейная, что и требо­валось доказать.

Принимая во внимание вероятностный смысл пара­метров двумерного нормального распределения (см. § 19), заключаем, что уравнения прямых регрессии

совпадают с уравнениями прямых среднеквадратической регрессии (см. § 20).

Задачи