- •99 Лекция 4
- •Основные задачи регрессионного анализа
- •Модель простой линейной регрессии
- •Метод наименьших квадратов
- •Условия Гаусса-Маркова. Классическая линейная регрессионная модель
- •Свойства мнк-оценок. Теорема Гаусса-Маркова
- •Дополнение 1. Метод наименьших квадратов в матричном виде
- •Дополнение 2. Оценка параметров регрессии методом максимального правдоподобия
- •Глава 5. Парная линейная регрессионная модель 81
- •§5.1. Модель парной линейной регрессии 81
Метод наименьших квадратов
Пусть по выборке (xi, yi) требуется определить оценки коэффициентов b0 и b1 эмпирического уравнения регрессии (5.8). В случае использования МНК минимизируется следующая функция потерь:
.
(5.10)
Нетрудно заметить, что функция Q является квадратичной функцией двух параметров b0 и b1, поскольку xi и yi – известные данные наблюдений. Поскольку функция Q непрерывна, выпукла и ограничена снизу (Q0), то она имеет минимум.
Необходимым условием существования минимума функции двух переменных (5.10) является равенство нулю ее частных производных по неизвестным параметрам b0 и b1:
(5.11)
После преобразований получим систему нормальных уравнений (систему линейных алгебраических уравнений) для определения параметров простой линейной регрессии:
(5.12)
Разделив оба уравнения на n, получим:
(5.13)
Здесь
,
,
,
.
Таким образом, оценки параметров простой
линейной регрессии по МНК определяются
по формулам (5.13).
Нетрудно заметить, что b1 можно вычислить по формуле
,
(5.14)
где
rxy
– выборочный коэффициент корреляции,
и
– средние квадратичные отклонения.
Таким образом, коэффициент регрессии
b1
пропорционален коэффициенту корреляции.
Следовательно, если коэффициент
корреляции rxy
уже рассчитан, то легко может быть найден
коэффициент регрессии b1
по формуле (5.14).
Отметим,
что кроме уравнения регрессии Y
на X:
,
для тех же эмпирических данных может
быть найдено уравнение регрессии X
на Y:
.
Коэффициенты регрессии bx
и by
в этом случае будут связаны равенством:
.
(5.15)
Подставляя значения b0 и b1, вычисленные по формулам (5.13), в (5.8), получим уравнение линейной регрессии Y на X:
.
(5.16)
Аналогично можно получить уравнение линейной регрессии X на Y:
.
(5.17)
Можно
заметить, что обе прямые регрессии
пересекаются в точке
.
Причем, чем больше коэффициент корреляции,
тем меньше угол
между прямыми (рис. 5.2). В частности, если
r=1,
то обе прямые регрессии совпадут. Если
коэффициент корреляции равен нулю, то
линии регрессии будут параллельны
координатным осям.
Рис. 5.2
Полученные формулы для коэффициентов регрессии позволяют сделать ряд выводов:
1.
Эмпирическая прямая регрессии обязательно
проходит через точку
.
2.
Эмпирическое уравнение регрессии
построено таким образом, что сумма
отклонений
,
а также среднее значение отклонений
равны нулю.
Действительно,
из формулы
в соотношении (5.11) следует, что
.
3. Случайные отклонения ei не коррелированы с наблюдаемыми значениями yi зависимой переменной Y.
Для обоснования данного утверждения покажем, что ковариация между Y и e равна нулю. Действительно,
.
Покажем,
что
.
Просуммировав по i
все соотношения (5.9), получим:
,
т.к.
.
Разделив последнее соотношение на n,
получим
.
Вычитая из (5.9) полученное соотношение,
приходим к следующей формуле:
.
(5.18)
Тогда
.
Следовательно,
.
4. Случайные отклонения ei не коррелированы с наблюдаемыми значениями xi независимой переменной X.
Действительно,
в силу второй формулы системы (5.11).
Для иллюстрации МНК рассмотрим следующий пример,
Пример 5.1. Для анализа зависимости объема потребления домохозяйства Y (у.е) от располагаемого дохода X (у.е) отобрана выборка объема n=12 (помесячно в течение месяца, результаты которой приведены в таблице 5.1. Необходимо определить вид зависимости; по МНК оценить параметры уравнения регрессии Y на X; оценить силу линейной зависимости между Y на X; спрогнозировать потребление при доходе X=160.
Табл. 5.1
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
xi |
107 |
109 |
110 |
113 |
120 |
122 |
123 |
128 |
136 |
140 |
145 |
150 |
yi |
102 |
105 |
108 |
110 |
115 |
117 |
119 |
125 |
132 |
130 |
141 |
144 |
Решение.
Для определения вида регрессионной
зависимости построим корреляционное
поле (рис.5.3). По расположению точек на
корреляционном поле полагаем, что
зависимость между X
и Y линейная:
.
Для расчетов по МНК составим расчетную
таблицу (табл. 5.2):
Табл. 5.2
i |
xi |
yi |
|
|
|
|
|
|
1 |
107 |
102 |
11449 |
10914 |
10404 |
103,5832 |
-1,5832 |
2,5065 |
2 |
109 |
105 |
11881 |
11445 |
11025 |
105,4554 |
-0,4554 |
0,2074 |
3 |
110 |
108 |
12100 |
11880 |
11664 |
106,3914 |
1,6086 |
2,5875 |
4 |
113 |
110 |
12769 |
12430 |
12100 |
109,1997 |
0,8003 |
0,6405 |
5 |
120 |
115 |
14400 |
13800 |
13225 |
115,7522 |
-0,7522 |
0,5659 |
6 |
122 |
117 |
14884 |
14274 |
13689 |
117,6244 |
-0,6244 |
0,3899 |
7 |
123 |
119 |
15129 |
14637 |
14161 |
118,5605 |
0,4395 |
0,1932 |
8 |
128 |
125 |
16384 |
16000 |
15625 |
123,2409 |
1,7591 |
3,0945 |
9 |
136 |
132 |
18496 |
17952 |
17424 |
130,7295 |
1,2705 |
1,6141 |
10 |
140 |
130 |
19600 |
18200 |
16900 |
134,4739 |
-4,4739 |
20,0153 |
11 |
145 |
141 |
21025 |
20445 |
19881 |
139,1543 |
1,8457 |
3,4068 |
12 |
150 |
144 |
22500 |
21600 |
20736 |
143,8347 |
0,1653 |
0,0273 |
Сумма |
1503 |
1448 |
190617 |
183577 |
176834 |
- |
0,0000 |
35,2488 |
Среднее |
125,25 |
120,6667 |
15884,75 |
15298,08 |
14736,17 |
- |
- |
- |
Согласно МНК, по формулам (5.13) вычисляем
;
.
Таким образом, уравнение парной линейной регрессии имеет вид:
.
Изобразим
данную прямую регрессии на корреляционном
поле (рис.5.3). По этому уравнению рассчитаем
,
а также
.
Для анализа силы линейной зависимости вычислим коэффициент корреляции. Для этого предварительно найдем средние квадратичные отклонения:
Т
огда
.
Данное значение коэффициента корреляции позволяет сделать вывод об очень сильной (близкой к функциональной) линейной зависимости между рассматриваемыми переменными X и Y. Это также подтверждается расположением точек на корреляционном поле.
Прогнозируемое
потребление при располагаемом доходе
x=160
для данной модели составит
.
Построенное уравнение регрессии в любом случае требует определенной интерпретации и анализа. Интерпретация требует словесного описания полученных результатов с трактовкой найденных коэффициентов, с тем чтобы построенная зависимость стала понятной человеку, не являющимся специалистом в эконометрическом анализе. Коэффициент b1 показывает, на какую величину изменится Y, если X возрастет на одну единицу. В случае примера 5.1 он может трактоваться как предельная склонность к потреблению, т.е. он показывает, что объем потребления изменится на 0,9361, если располагаемый доход возрастает на одну единицу.
Свободный член b0 уравнения регрессии определяет прогнозируемое значение Y при величине X, равной нулю. Однако здесь необходима определенная осторожность. Очень важно, насколько далеко данные наблюдений за объясняющей переменной отстоят на оси ординат (зависимой переменной), т.к. даже при удачном подборе уравнения регрессии для интервала наблюдений нет гарантии, что оно останется таковым и вдали от выборки. В случае примера 5.1 значение b0=3,4226 говорит о том, что при нулевом располагаемом доходе расходы на потребление составят в среднем 3,4226 у.е. Этот факт можно объяснить для отдельного домохозяйства (оно может тратить накопленные или одолженные средства), но для совокупности домохозяйств он теряет смысл. В любом случае значение коэффициента b0 определяет точку пересечения прямой регрессии с осью ординат и характеризует сдвиг линии регрессии вдоль оси Y.
Следует помнить, что эмпирические коэффициенты регрессии b0 и b1 являются лишь оценками теоретических коэффициентов 0 и 1, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения переменных могут отклоняться от модельных значений. В нашем примере эти отклонения выражены через значения ei, которые являются оценками отклонений i для генеральной совокупности. Однако при определенных условиях уравнение регрессии служит незаменимым и очень качественным инструментом. Обсуждение этих условий будет проведено в дальнейшем.
