Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1 Лекция КЛММР для тестирования 5-ЭФЭн.docx
Скачиваний:
64
Добавлен:
27.03.2016
Размер:
58.96 Кб
Скачать

Лекция 2. Множественный регрессионный анализ

2.1 Классическая нормальная линейная модель множественной регрессии

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих переменных х1, … , хk. Эта задача решается с помощью множественного регрессионного анализа.

Имеется n наблюдений. Обозначим i наблюдение зависимой переменной yi, а объясняющих переменных xi1, xi2,… xik. Тогда модель множественной линейной регрессии можно представить в виде:

(1)

где i = 1, 2, … , n число наблюдений.

εi – регрессионные ошибки случайного характера.

Основные гипотезы

Гипотезы, лежащие в основе модели множественной регрессии, являются естественным обобщением модели парной регрессии:

  1. , i = 1, …, n – спецификация модели.

  2. xi1, xi2,… xik – детерминированные (неслучайные) величины. Векторы xs =(x1s, …, xns)Т s = 1, …, k линейно независимы в Rn.

  3. a. М(εt) = 0, т.е. математическое ожидание ошибки равно нулю. М(– не зависит от номера наблюденияi. Означает неизменность дисперсий регрессионной ошибки. (Это свойство наз. гомоскедастичностью регрессионной ошибки).

  1. b. М(εi,εj)=0 при ij – статистическая независимость (некоррелированность друг с другом) ошибок для разных наблюдений. Некоррелированность ошибок означает, что результат наблюдений одного объекта не может повлиять на результат наблюдений другого.

  1. c. Ошибки εi, i=1,…,n имеют совместное нормальное распределение εi~N(0,σ2).

В этом случае модель называется классической нормальной линейной регрессионной.

Гипотезы, лежащие в основе множественной регрессии удобно записать в матричной форме, которая будет использоваться в дальнейшем.

Пусть:

Y обозначает матрицу (вектор-столбец) (y1,…, yn)Т (Т вверху означает транспонирование),

В = (β0, β1, …, βк)Твектор-столбец коэффициентов (неизвестных значений параметров модели),

Е = (ε1, ε2, …, εn)Твектор-столбец ошибок,

- матрицу объясняющих переменных, которая соответствует набору векторов-столбцов объясняющих переменных, а также вектору-столбцу из единиц, отвечающему за константу в уравнении модели. Матрица должна быть матрицей полного ранга.

- единичная матрица размерности;

- ковариационная матрица размерности вектора ошибки.

Условия 1-3 в матричной записи выглядят следующим образом:

  1. Y=XВ+Е – спецификация модели;

  2. X – детерминированная матрица, имеет максимальный ранг k+1;

  3. a,b. М(ε)=0; V(ε)=М(εεT)=σ2In;

дополнительное условие:

  1. с. Е~N(02In), т.е. Е – нормально распределенный случайный вектор со средним и матрицей ковариаций σ2In (нормальная линейная регрессионная модель).

Оценкой этой модели по выборке является уравнение:

Y=X+Е,

Где – вектор-столбец оценок неизвестных параметров модели;

E = (e1, e2, …, en)Т – вектор –столбец регрессионных остатков.

2.2. Оценка параметров классической регрессионной модели методом наименьших квадратов.

Данные, используемые в корреляционно-регрессионном анализе, рассматриваются как выборочные, неполные. Поэтому количественные характеристики связи между показателями, полученные на основе этих данных, также являются выборочными, т. е. содержащими некую ошибку, отличающимися от объективно существующих, но неизвестных «подлинных» характеристик.

Параметры уравнения регрессии, найденные на основе имеющихся у исследователя данных, называют оценками параметров, подчеркивая то, что они рассчитаны по выборочным данным. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как случайные величины.

Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Считается, что оценками параметров можно пользоваться для дальнейшего анализа и прогноза, если эти оценки являются несмещенными, эффективными и состоятельными.

Оценка параметра является несмещенной, если её математическое ожидание равно оцениваемому параметру или математическое ожидание остатков равно нулю.

Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок данного параметра по выборкам одного и того же объема.

Оценка параметра является состоятельной, если с увеличением числа наблюдений оценка параметра стремится к его значению в генеральной совокупности, т.е. точность оценок выборки увеличивается с увеличением объема выборки.

Наиболее простым методом, применяющимся для оценки параметров множественной регрессии, является метод наименьших, квадратов (МНК).

Для оценки вектора неизвестных параметров применим метод наименьших квадратов. Как и в случае регрессионного уравнения с одной переменной целью метода является выбор вектора оценок, минимизирующего сумму квадратов остатковEi (т.е. квадрат длины вектора остатков E):

Выразим черезX и :

(2)

Необходимые условия минимума ESS получаются дифференцированием (2) по вектору :

(3)

Откуда, учитывая обратимость матрицы

находим оценку метода наименьших квадратов:

(4)

Покажем, что, как и в случае одного регрессора, (3) означает, что вектор остатков e ортогонален всем независимым переменным (столбцам матрицыX). Условие эквивалентно равенству. Действительно,

Получим полезную в дальнейшем формулу для суммы квадратов остатков

=

Геометрическая интерпретация в основном совпадает с геометрической интерпретацией регрессионного уравнения с одной независимой переменной.

Представим как векторы в n-мерном евклидовом пространстве . Векторы порождают k-мерное подпространство π.

Вектор есть ортогональная проекция вектора y на гиперплоскость π.

Вектор остатков ортогонален подпространствуπ.

Как и в случае регрессионного уравнения с одной независимой переменной , можно показать, что оценка метода наименьших квадратов является оптимальной.

Теорема Гаусса-Маркова.

Предположим, что:

  1. Y=XB+E;

  2. Xдетерминированная матрица, имеет максимальный ранг k+1

  3. М(ε)=0; V(ε)=М(εεT)=σ2In.

Тогда оценка метода наименьших квадратов является наиболее эффективной (в смысле наименьшей дисперсии) оценкой в классе линейных (по y) несмещенных оценок.