- •Лекция №2. Парный регрессионный анализ
- •2.1. Нахождение эмпирических коэффициентов регрессии методом наименьших квадратов
- •2.2. Предпосылки мнк. Теорема Гаусса-Маркова
- •2.3. Стандартные ошибки мнк-оценок коэффициентов регрессии
- •2.1. Нахождение эмпирических коэффициентов регрессии методом наименьших квадратов
- •2.2. Предпосылки мнк. Теорема Гаусса-Маркова
- •2.3. Стандартные ошибки мнк-оценок коэффициентов регрессии
Лекция №2. Парный регрессионный анализ
ПЛАН
2.1. Нахождение эмпирических коэффициентов регрессии методом наименьших квадратов
2.2. Предпосылки мнк. Теорема Гаусса-Маркова
2.3. Стандартные ошибки мнк-оценок коэффициентов регрессии
2.1. Нахождение эмпирических коэффициентов регрессии методом наименьших квадратов
Рассмотрим
случай, когда результативный признак
связан с факторным признаком
линейной
зависимостью:
. (2.1)
Результативный
признак
рассматривается здесь как зависимая
или объясняемая
переменная; факторный признак
– как независимая
или объясняющая
переменная.
Величина
называется ошибкой
или случайной
компонентой;
параметры уравнения
и
– теоретическими
(истинными) коэффициентами регрессии.
Замечание. В действительности парная регрессия часто является большим упрощением. На признак может влиять не только фактор ; существуют и другие факторы, оказывающие влияние на . Поэтому случайная компонента определяется всеми другими факторами, которые в явном виде не входят в уравнение (2.1), но оказывают влияние на величину . Кроме того, величина может нести в себе и результаты случайных ошибок измерений факторов и . Поскольку случайная величина является результатом взаимодействия большого числа факторов, и ни один из них не является превалирующим, то в силу центральной предельной теоремы можно считать, что случайная компонента имеет нормальное распределение.
Коэффициент
показывает, на сколько в среднем изменится
результативный признак
при увеличении факторного признака
на единицу своего измерения. Свободный
член
показывает, чему в среднем равен
признак-результат, если факторный
признак обращается в 0. Однако, если
,
а признак
не может принимать отрицательные
значения, то такая трактовка
не будет иметь экономического содержания.
Теоретические коэффициенты регрессии,
как правило, неизвестны. Однако их можно
оценить (приближенно определить).
Для этого произведем выборку значений
переменных
и
из генеральной совокупности. Пары
значений
,
попавшие в выборку, отобразим точками
корреляционного поля (рис. 2.1). Каждая
точка соответствует единице наблюдения.
Число единиц наблюдения равно
– объему выборки. Положение каждой
точки корреляционного поля полностью
определено двумя координатами: абсциссой
и ординатой
– значениями факторного и результативного
признаков в
-ом
наблюдении
.
Замечание.
В простейшем случае объясняющая
переменная
рассматривается как величина неслучайная.
Это означает, что значения переменной
не меняются от выборки к выборке, т.е.
предполагается, что набору из
фиксированных
значений объясняющей переменной
отвечает набор случайных
значений объясняемой переменной
,
меняющихся от выборки к выборке. Таким
образом, величина
состоит из двух компонент: неслучайной
компоненты
и случайной составляющей
.
При этом предполагается, что решающий
вклад в изменение переменной
вносит переменная
,
хотя на величину
оказывает влияние и случайная компонента
.
Предположим, что взаимное расположение
точек
корреляционного поля таково, что они
визуально близки к некоторой прямой
линии, описываемой уравнением
. (2.2)
Коэффициенты
и
следует подобрать таким образом, чтобы
уравнение
«наилучшим» образом описывало истинную
зависимость
от
.
Существуют различные методы определения
этих коэффициентов. Самым распространенным
и теоретически обоснованным является
метод наименьших квадратов (МНК).
Рис.
2.1. Корреляционное поле. Истинная
зависимость
от
.
МНК-прямая
Суть МНК состоит в следующем:
следует найти такие коэффициенты
уравнения (2.2), чтобы сумма квадратов
отклонений эмпирических значений
результативного признака от расчетных
была бы минимальной, т.е.
,
где
– эмпирическое (наблюдаемое по
выборке) значение результативного
признака в
-ом
наблюдении;
– расчетное значение результативного
признака в
-ом
наблюдении, вычисляемое по уравнению
(2.2),
.
Значения
и
нам известны, так как они представляют
собой данные наблюдений. Поэтому
переменными функции
могут быть только коэффициенты
и
.
Запишем необходимое условие существования экстремума функции двух переменных:
(2.3)
Легко убедиться, что решение полученной системы линейных алгебраических уравнений имеет вид:
(2.4)
Замечание. При известном
выборочном коэффициенте корреляции
величина
может быть вычислена и по формуле:
.
Можно показать, что функция
достигает
минимума в точке с координатами (
;
),
вычисляемыми по формулам (2.4). Это
означает, что найденная по МНК прямая
«наилучшим» образом подогнана к точкам
корреляционного поля, но, вообще говоря,
не совпадает с истинной прямой
(см. рис. 2.1). Поэтому величины
и
не равны истинным коэффициентам регрессии
и
.
Коэффициенты
и
являются лишь оценками параметров
и
соответственно. Легко показать, что
соотношения (2.4) можно представить в
виде:
(2.4')
Из (2.4') следует, что оценки и являются случайными величинами, свойства которых зависят от свойств случайной компоненты . Будем называть оценки и эмпирическими коэффициентами регрессии, а уравнение (2.2) – эмпирическим уравнением регрессии.
Пример 2.1. Используя выборочные данные примера 1.1 о количестве внесенных удобрений ( , кг/га) и урожайности пшеницы ( , ц/га) по десяти фермерским хозяйствам:
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
19 |
16 |
19 |
14 |
23 |
22 |
27 |
33 |
28 |
29 |
и считая форму связи между признаками
и
линейной, найти по МНК эмпирические
коэффициенты регрессии
и
.
Построить корреляционное поле и
эмпирическую линию регрессии. Вычислить
значение функции
.
Решение. Найдем коэффициенты
и
по формулам (2.4). Величины
,
,
,
вычислены в примере 1.1:
;
;
Тогда
;
.
Таким
образом, эмпирическое уравнение регрессии
имеет вид:
.
На рис. 2.6 приведены корреляционное
облако наблюдаемых точек и эмпирическая
линия регрессии.
Если учесть, что коэффициент
является приближением теоретического
коэффициента
,
то можно принять, что увеличение
количества вносимых удобрений на 1 кг/га
приводит к повышению урожайности в
среднем на
ц/га. Величина параметра
в этой задаче также имеет экономическую
интерпретацию:
(ц/га) – урожайность пшеницы, которую в
среднем можно ожидать без внесения
удобрений, т.е. при x
= 0.
Вычислим
значение функции
в точке
.
Для этого найдем расчетные значения
признака-результата в i-ом
наблюдении по формуле
,
.
Результаты представим в табл. 2.1.
Таблица 2.1
Наблюдаемые по выборке и расчетные значения признака-результата
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
19 |
16 |
19 |
14 |
23 |
22 |
27 |
33 |
28 |
29 |
|
15,31 |
17,02 |
18,73 |
20,44 |
22,15 |
23,85 |
25,56 |
27,27 |
28,98 |
30,69 |
|
13,62 |
1,04 |
0,07 |
41,43 |
0,73 |
3,44 |
2,07 |
32,80 |
0,96 |
2,86 |
Добавим
в табл. 2.1 дополнительную строку,
содержащую квадраты отклонений
наблюдаемых значений
от расчетных
.
Тогда
Таким образом, функция имеет минимальное значение, равное 99,02, в точке .
Рис. 2.6. Корреляционное поле и эмпирическая линия регрессии
