Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА.doc
Скачиваний:
17
Добавлен:
30.04.2019
Размер:
3.68 Mб
Скачать

3.1. Определение параметров модели методом наименьших квадратов

Как уже отмечалось, в рамках выборки ограниченного объема n можно получить лишь оценки (более или менее точные) параметров  модели. Линейное уравнение k-мерной модели имеет вид

Y* = BX, (3.6)

где В = (b1, b2 , b3 ,…, bk) – вектор оценок параметров модели (3.3).

Вектор остатков регрессии определяется как разность векторов

. (3.7)

Определение оценки В методом наименьших квадратов (МНК) осуществляется минимизацией по  функционала ошибок

F= EE = (Y*Y)( Y* Y) = (XY)(XY) =

= XX YX – XY + YY  = XX  –2XY + YY.

В этом выражении мы полагаем Y* = X, где  – вектор варьируемых параметров, которые могут меняться с целью получения оптимальных оценок. Штрихом в дальнейшем обозначены транспонированные матрицы (или векторы). Дифференцируя функционал F по  и приравнивая производную 0, получим уравнение для оценки

. (3.8)

Последнее равенство в (3.8) получено после транспонирования уравнения. Решение (3.8) относительно  дает оптимальную (согласно критерию наименьших квадратов) оценку В параметров многомерной МЛР

. (3.9)

Это выражение совпадает с оценкой (2.17) для двухмерной модели, выраженной в матричной форме. Запись []–1 означает обращение квадратной матрицы (т.е. обратную матрицу). Напомним, что в (3.9) Y – вектор-строка (3.1) размерности n, X – матрица факторов (3.4) размерности kn и В – вектор-строка оценок параметров размерности k. Решение (3.9) существует лишь тогда, когда матрица XX невырождена, т.е. её определитель не равен 0. Вектор оценок МНК параметров модели для ограниченной выборки объема n

В = (b1, b2, …, bk)

отличается от вектора  = (1, 2, 3,…, k) истинных значений параметров (для генеральной совокупности) некоторой погрешностью, тем меньшей, чем больше отношение объемов n/N.

Вычисленные в соответствии с формулой (3.9) оценки позволяют записать линейное уравнение модели как уравнение гиперплоскости

y* = b1 + b2x2 + b3x3 +…+ bk xk (3.10)

с независимыми переменными x2, x3,…, xk и зависимой переменной у*. Здесь коэффициент b1 называется постоянной составляющей модели, а b2, b3 и т.д. – коэффициенты регрессии при соответствующих факторных переменных. По аналогии с парной регрессией

.

Иначе говоря, частный коэффициент регрессии bi имеет смысл в виде приращения показателя y* при увеличении фактора хi на 1.

С учетом (3.7) равенство (3.8) можно переписать как

ЕХ = 0.

Таким образом, вектор ошибок минимальной длины (что задает МНК) ортогонален всем строкам матрицы Х. В развернутом виде последнюю систему уравнений можно выразить как

, (3.11)

. (3.12)

Эти равенства могут использоваться для проверки правильного построения модели. Суммарная ошибка моделирования (сумма остатков регрессии) всегда должна быть равна 0.

Разность (nk)  0 обычно называют числом степеней свободы модели. Для предельно малой выборки объемом n = k число параметров модели совпадает с числом точек, через которые проходит аппроксимирующая функция, при этом все остатки регрессии ei = 0. Действительно, через 2 точки проходит одна прямая, через 3 точки, не лежащие на одной прямой, – единственная плоскость и т.д. Этот вырожденный случай с нулевыми ошибками соответствует отсутствию степеней свободы в задаче аппроксимации (приближения) выборочных точек известной функцией. Ошибки аппроксимации возникают при n > k, что и определяет разность (nk) как число степеней свободы.

Для простоты рассмотрим пример построения трехмерной модели (k = 3) малой выборки объема n = 5. Разумеется, этот пример носит чисто учебный характер, так как столь малые выборки не репрезентативны.

Пример 3.1. Пусть зарплата работников 5 предприятий yi (в у.е.) в зависимости от доходности предприятия x2i (оценивается по 10-балльной шкале) и их квалификации x3i (тарифного разряда) описываются выборочными данными таблицы 3.1.

Таблица 3.1

Номер предприятия i

1

2

3

4

5

yi (зарплата, у.е.)

3

6

7

6

8

x2i (доходность, баллы)

4

3

5

9

9

x3i (тарифный разряд)

3

5

5

6

6

Необходимо по этим данным построить МЛР, т.е определить оценки МНК параметров модели и записать её уравнение.

Оценки параметров модели определяем согласно (3.9). Произведение XX равно

.

Определитель этой матрицы  = 460. Обратная матрица [XX]-1 равна

.

Определяем вектор YX

.

Тогда вектор оценок параметров модели согласно (3.9)

.

Таким образом, параметры трехмерной МЛР равны: b1 = – 1,022, b2 = – 0,152, b3 = 1,587. Модель описывается уравнением плоскости

у* = – 1,022 – 0,152х2 + 1,587х3.

Здесь один коэффициент регрессии отрицателен (b2), другой – положителен (b3), т.е. с ростом квалификации работников имеется сильная положительная регрессия, а с ростом доходности предприятий – невысокая отрицательная регрессия. Например, значение b3 = 1,587 означает, что при прочих неизменных условиях повышение тарифного разряда работника на 1 обеспечивает ему прирост зарплаты на 1,587 у.е. Заметим, что в какой-то другой выборке результаты могут оказаться существенно отличными от полученных.

Все операции с матрицами можно выполнять в EXCEL (или с помощью какого-либо математического пакета, например, Mathcad). Для этого имеется широкий набор встроенных функций в категориях «Математические» и «Ссылки и массивы»:

  • «МУМНОЖ» (умножение матриц),

  • «МОБР» (определение обратной матрицы),

  • «ТРАНСП» (транспонирование матрицы).

Параметры модели можно определить сразу, воспользовавшись функцией «ЛИНЕЙН» в категории «Статистические», как описано в п.2.4.4. В отличие от модели парной регрессии, в окне «Известные значения х» помечается не вектор, а матрица [(k – 1)  n] выборочных значений факторов (в нашем примере – двух факторов). Функция «ЛИНЕЙН» возвращает значения оценок параметров

1,587

– 0,152

– 1,022

Они записаны, как ранее отмечалось, в обратном порядке (постоянная составляющая – в правой ячейке).

В приведенном примере вычисление обратной матрицы и все операции производились в EXCEL (их можно также выполнить в пакете Mathcad-2000 или Mathcad-2001), и конечные результаты даны с округлением до 3-х десятичных знаков после запятой. Это округление вносит дополнительные ошибки при расчетах характеристик модели.