
- •Лабораторная работа №5. Корреляционно-регрессионный анализ
- •1. Общие понятия и определения
- •2. Оценка силы корреляционной связи
- •3.Оценка коэффициента корреляции по данным выборки
- •4. Оценка значимости коэффициента корреляции
- •Примеры решения задач
- •Варианты заданий
- •5. Парная линейная регрессия.
- •6. Расчет теоретической линии прямой регрессии
- •7. Обратная регрессия
- •Алгоритм расчета оптимальной формы связи
- •Примеры решения задач
- •Варианты заданий
6. Расчет теоретической линии прямой регрессии
В его основе лежит
метод наименьших квадратов, приводящий
к оптимальным приближенным оценкам
неизвестных параметров линейных
уравнений регрессии
или приведенных к ним
.
Заметим, что метод наименьших квадратов
является частным случаем (только, если
опытные данные имеют гауссовское
распределение) наиболее общего подхода
к оценке неизвестных параметров –
метода максимального правдоподобия.
Остановимся на построении уравнения
прямой регрессии.
Коэффициенты a0 и a1 определяются из условия, что функция
(7)
обращается в минимум. Последнее имеет место, если частные производные от нее по неизвестным параметрам a0 и a1 приравнять к нулю:
(8)
Откуда получают систему нормальных уравнений
(9)
решением которой будут оценки a0=A/D, a1=B/D,
где D – главный определитель системы
. (10)
Определитель А получается из определителя системы D заменой элементов первого столбца свободными членами,
, (11)
а определитель В получается из D заменой элементов второго столбца свободными членами, стоящими в правых частях уравнений (9).
(12)
С учетом найденных
a0
и a1
уравнение линейной парной регрессии
имеет вид
=a0+a1x.
Коэффициенты a, b, c для квадратичной формы определяются из решения системы линейных алгебраических уравнений (СЛАУ)
(13)
а в случае кубической регрессии приведенная СЛАУ по аналогии для определения уже a, b, c, d дополняется уравнением
.
В полученном ранее уравнении прямой параметр a0 экономического смысла не имеет. Параметр a1 показывает изменение результативного признака при изменении факторного признака на единицу. Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности. Коэффициент эластичности определяется по формуле
,
(14)
в
котором
-
первая производная уравнения регрессии.
Средний коэффициент эластичности определяется для уравнения прямой по формуле
(15)
и показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Для оценки параметров, входящих в уравнение регрессии, можно на практике ограничится построением доверительных интервалов. Задаваясь уровнем значимости (или доверительной вероятностью =1-) при известном числе степеней свободы v=2, доверительные границы для a0 и a1 определяют из соотношений
(16)
где
– теоретическое значение критерия
Стьюдента (выбирается из табл. 1 Приложения
при заданиях уровня значимости
и числа степеней свободы )
,
-
среднеквадратическая ошибка оценки
a0,
-
случайная ошибка оценки a1.
Последние находятся по формулам
(17)
(18)
где
- остаточная дисперсия, получаемая из
.
(19)
Если фактическое (расчетное) значение критерия Стьюдента
(20)
будет
меньше или равно теоретическому
,
то коэффициенты a0
и a1
статистически
незначимы.
Определение
доверительных границ уравнения регрессии
связано с тем, что для каждого значения
независимой переменной Х
определяется ширина доверительного
интервала результативного признака Y.
Наименьшее значение ширины доверительного
интервала теоретической линии регрессии
представляют собой гиперболу и имеет
вид
.
(21)
Доверительные границы линии регрессии описываются формулой
,
где
,
.
(22)
Оценка значимости уравнения регрессии выполняется с использованием F-критерия Фишера, где общую дисперсию DY сравнивают с остаточной дисперсией DYост, последняя представляет собой показатель ошибки предсказания уравнением регрессии результатов эксперимента. Для этого вычисляют
после
чего проверяют соотношение
,
в котором
табличное значение распределения Фишера
при %
уровне
значимости. Оценка линейной регрессии
выполняется в том случае, если общее
число значений Y
больше, чем число n
значений Х,
т.е. каждому значению Xi
соответствует
Ki
значений
Y,
что часто имеет место на практике. Если
расчетная статистика Фишера
,
т.е.
сумма отклонений групповых средних от
прямой регрессии, деленной на сумму
отклонений значения Y
от групповых средних со степенями
свободы v1=k-2
и v2=n-k,
достигает или превосходит теоретическую
границу
значимости, то гипотеза о линейности
отвергается.