
Лекции / 23
.docВопрос 23.
Линейная регрессия. Корреляционное поле. Теоретические уравнения регрессии. Эмпирические уравнения регрессии. Коэффициэнты регрессии. Оценка корреляционной связи между СВ.Проверка гипотезы о согласованности линейного уравнения регрессии с экспериментальными данными.
Предположим, что
произведён эксперимент, в результате
которого получено n
значений СВ X
и
Y,
т. е. получен набор точек
,
i
= от 1 до n.
Нанесём эти точки на плоскость и получим
точечную диаграмму, которая наз.
корреляционным
полем. Если
точки на плоскости группируются около
прямой линии, то уравнение регрессии Y
на X
принимает вид:
.
Это уравненіе наз. теоретическим
уравнением регрессии.
Требуется найти
коэффициэнты
этого уравнения так, чтобы функция
т.е. принимала наименьшее значение. Эта
задача решается методом наименьших
квадратов. В результате его применения
для нахождения коэффициэнтов
получаем систему:
Введём обозначения:
,
,
,
.
Система принимает вид:
.
Коэффициэнт
наз. коэффициэнтом
регрессии Y
на
X.
Аналогично выводится
теоретическое уравнение регрессии
X
на Y:
,
в котором коэффициэнт
наз. коэффициэнтом
регрессии X
наY.
Уравнение регрессии можно записать в виде:
- коэффициэнты
регрессии Y
на X
и X
наY.
Тесноту корреляционной
связи между СВ X
и
Y
определяют с помощью корреляционного
отношения
и
.
ции
енками явл. эмпирический ции эффициэнтов
м ниуравнение регрессии
.
Свойства:
-
Если СВ X и Y связаны линейной зависимостью (коэффициэнты регрессии
), то коэффициэнт корреляции = 1, если
, то
.
-
При отсутствии лин. зависимости между X и Y линия регрессии параллельна коорд. осям, а коэфф. корреляции =0.
-
Во всех остальных случаях
.
Т. о. чем ближе
коэф. корреляции по модулю к 1, тем теснее
лин. зависимость между X
и
Y.
Чем ближе он к нулю, тем эта зависимость
слабее. Однако может оказаться, что при
,
между X
и
Y
существует не линейная связь.
проверка гипотезы о согласованности линейного уравнения регрессии с экспериментальными данными.
Коэф.
явл. точечными оценками теоретического
или модельного ур-я регрессии :
Для того чтобы выяснить хорошо ли найдены эти точечные оценки поступают след. образом:
-
Вычисляют остатки
-
Вычисляют средние квадр. отклонения остатков характеризующих рассеяние эксперимент. точек относ. эмпир. линии регрессии
, n-количество точек
-
Вычисляют среднее квадр. отклонение коэффициентов регрессии
,
-
Находят интервальные оценки коэф-тов
модельного ур-я регрессии
,
,
где
-
коэфф-ты Стьюдента.
-
Находят эмпирический коэф-т корреляции
. Квадрат эмпирич. коэф. корреляции
наз. коэф-том детерминации
Коэ-т детерминации
показывает процентное рассеяние точек
объясняемое лин. регрессией Y
на X
(или X
на Y)
Если
=1,
то между СВ X,
Y
сущ. функциональная лин.связь.
Если напр.,
=0,6,
то 60% рассеяния объясняется лин.
регрессией, а 40% остаются необъяснимыми.
-
Окончательное решение об адекватности лин. регрессии экспериментальным данным принимается на основании критерия Стьюдента
,
-
уровень значимости
Если
,
то лин. регрессия модельной ф-ции
выбрано удачно, т.е. согласуется с
экспериментальными данными;
Если
,
то модельная ф-я подобрана плохо, т.е.
не согласуется с данными эксперимента.
Замечание:
доказано, что если точки
(
возможные значения СВ (X,Y))
расположены вдоль прямой, то СВ (X,Y)
распределена нормально.