- •Эконометрика
- •Введение
- •1. Модели статистической взаимосвязи
- •1.1. Типы взаимосвязи между явлениями
- •1.2. Типы данных
- •1.3. Типы моделей
- •Контрольные вопросы
- •2. Двухмерная модель линейной регрессии
- •2.1. Определение параметров млр. Метод наименьших квадратов
- •2.2. Матричная форма записи при определении параметров млр
- •2.3. Корреляционный анализ млр
- •2.4. Оценка ошибок моделирования
- •2.4.1. Основные условия (гипотезы) анализа ошибок
- •2.4.2. Ошибки оценок параметров модели
- •2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
- •2.4.4. Оценка прогноза показателя и ошибок прогнозирования
- •2.5. Установление существенности связи на основе теории статистической проверки гипотез
- •2.5.1. Распределения случайных величин Нормальное распределение (Гаусса)
- •Распределение Пирсона (2-распределение)
- •Распределение Фишера
- •Распределение Стьюдента (t-распределение)
- •Статистическая проверка гипотез
- •Контрольные вопросы
- •3. Многомерная модель линейной регрессии
- •3.1. Определение параметров модели методом наименьших квадратов
- •3.2. Определение оценок параметров млр через отклонения (уменьшение числа уравнений системы до k – 1)
- •3.3. Статистические свойства оценок параметров млр
- •3.3.1. Условия анализа
- •3.3.2. Среднеквадратичные ошибки оценок параметров млр
- •3.3.3. Ошибки прогнозирования
- •3.4. Коэффициент детерминации многомерной млр
- •3.5. Определение существенности статистической связи между факторами и показателем
- •Контрольные вопросы
- •4. Мультиколлинеарность
- •4.1. Выражение для оценки параметров млр в стандартизованной форме
- •4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
- •4.2.1. Проверка на общую мультиколлинеарность
- •4.2.2. Проверка мультиколлинеарности между парами факторов
- •Контрольные вопросы
- •5. Автокорреляция
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Авторегрессионый процесс первого порядка
- •5.3. Тест Дарбина-Уотсона на автокорреляцию
- •Контрольные вопросы
- •6. Двухмерная модель нелинейной регрессии
- •6.1. Трехпараметрическая парабола
- •6.2. Двухпараметрическая парабола
- •6.3. Обзор двухпараметрических нелинейных моделей парной регрессии
- •Экспоненциальная модель
- •Логарифмическая модель
- •Гиперболическая модель
- •Контрольные вопросы
- •Литература
- •Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5
3.1. Определение параметров модели методом наименьших квадратов
Как уже отмечалось, в рамках выборки ограниченного объема n можно получить лишь оценки (более или менее точные) параметров модели. Линейное уравнение k-мерной модели имеет вид
Y* = BX, (3.6)
где В = (b1, b2 , b3 ,…, bk) – вектор оценок параметров модели (3.3).
Вектор остатков регрессии определяется как разность векторов
. (3.7)
Определение оценки В методом наименьших квадратов (МНК) осуществляется минимизацией по функционала ошибок
F= EE = (Y*– Y)( Y* –Y) = (X–Y)(X–Y) =
= XX – YX – XY + YY = XX –2XY + YY.
В этом выражении мы полагаем Y* = X, где – вектор варьируемых параметров, которые могут меняться с целью получения оптимальных оценок. Штрихом в дальнейшем обозначены транспонированные матрицы (или векторы). Дифференцируя функционал F по и приравнивая производную 0, получим уравнение для оценки
. (3.8)
Последнее равенство в (3.8) получено после транспонирования уравнения. Решение (3.8) относительно дает оптимальную (согласно критерию наименьших квадратов) оценку В параметров многомерной МЛР
. (3.9)
Это выражение совпадает с оценкой (2.17) для двухмерной модели, выраженной в матричной форме. Запись []–1 означает обращение квадратной матрицы (т.е. обратную матрицу). Напомним, что в (3.9) Y – вектор-строка (3.1) размерности n, X – матрица факторов (3.4) размерности kn и В – вектор-строка оценок параметров размерности k. Решение (3.9) существует лишь тогда, когда матрица XX невырождена, т.е. её определитель не равен 0. Вектор оценок МНК параметров модели для ограниченной выборки объема n
В = (b1, b2, …, bk)
отличается от вектора = (1, 2, 3,…, k) истинных значений параметров (для генеральной совокупности) некоторой погрешностью, тем меньшей, чем больше отношение объемов n/N.
Вычисленные в соответствии с формулой (3.9) оценки позволяют записать линейное уравнение модели как уравнение гиперплоскости
y* = b1 + b2x2 + b3x3 +…+ bk xk (3.10)
с независимыми переменными x2, x3,…, xk и зависимой переменной у*. Здесь коэффициент b1 называется постоянной составляющей модели, а b2, b3 и т.д. – коэффициенты регрессии при соответствующих факторных переменных. По аналогии с парной регрессией
.
Иначе говоря, частный коэффициент регрессии bi имеет смысл в виде приращения показателя y* при увеличении фактора хi на 1.
С учетом (3.7) равенство (3.8) можно переписать как
ЕХ = 0.
Таким образом, вектор ошибок минимальной длины (что задает МНК) ортогонален всем строкам матрицы Х. В развернутом виде последнюю систему уравнений можно выразить как
, (3.11)
. (3.12)
Эти равенства могут использоваться для проверки правильного построения модели. Суммарная ошибка моделирования (сумма остатков регрессии) всегда должна быть равна 0.
Разность (n – k) 0 обычно называют числом степеней свободы модели. Для предельно малой выборки объемом n = k число параметров модели совпадает с числом точек, через которые проходит аппроксимирующая функция, при этом все остатки регрессии ei = 0. Действительно, через 2 точки проходит одна прямая, через 3 точки, не лежащие на одной прямой, – единственная плоскость и т.д. Этот вырожденный случай с нулевыми ошибками соответствует отсутствию степеней свободы в задаче аппроксимации (приближения) выборочных точек известной функцией. Ошибки аппроксимации возникают при n > k, что и определяет разность (n – k) как число степеней свободы.
Для простоты рассмотрим пример построения трехмерной модели (k = 3) малой выборки объема n = 5. Разумеется, этот пример носит чисто учебный характер, так как столь малые выборки не репрезентативны.
Пример 3.1. Пусть зарплата работников 5 предприятий yi (в у.е.) в зависимости от доходности предприятия x2i (оценивается по 10-балльной шкале) и их квалификации x3i (тарифного разряда) описываются выборочными данными таблицы 3.1.
Таблица 3.1
Номер предприятия i |
1 |
2 |
3 |
4 |
5 |
yi (зарплата, у.е.) |
3 |
6 |
7 |
6 |
8 |
x2i (доходность, баллы) |
4 |
3 |
5 |
9 |
9 |
x3i (тарифный разряд) |
3 |
5 |
5 |
6 |
6 |
Необходимо по этим данным построить МЛР, т.е определить оценки МНК параметров модели и записать её уравнение.
Оценки параметров модели определяем согласно (3.9). Произведение XX равно
.
Определитель этой матрицы = 460. Обратная матрица [XX]-1 равна
.
Определяем вектор YX
.
Тогда вектор оценок параметров модели согласно (3.9)
.
Таким образом, параметры трехмерной МЛР равны: b1 = – 1,022, b2 = – 0,152, b3 = 1,587. Модель описывается уравнением плоскости
у* = – 1,022 – 0,152х2 + 1,587х3.
Здесь один коэффициент регрессии отрицателен (b2), другой – положителен (b3), т.е. с ростом квалификации работников имеется сильная положительная регрессия, а с ростом доходности предприятий – невысокая отрицательная регрессия. Например, значение b3 = 1,587 означает, что при прочих неизменных условиях повышение тарифного разряда работника на 1 обеспечивает ему прирост зарплаты на 1,587 у.е. Заметим, что в какой-то другой выборке результаты могут оказаться существенно отличными от полученных.
Все операции с матрицами можно выполнять в EXCEL (или с помощью какого-либо математического пакета, например, Mathcad). Для этого имеется широкий набор встроенных функций в категориях «Математические» и «Ссылки и массивы»:
«МУМНОЖ» (умножение матриц),
«МОБР» (определение обратной матрицы),
«ТРАНСП» (транспонирование матрицы).
Параметры модели можно определить сразу, воспользовавшись функцией «ЛИНЕЙН» в категории «Статистические», как описано в п.2.4.4. В отличие от модели парной регрессии, в окне «Известные значения х» помечается не вектор, а матрица [(k – 1) n] выборочных значений факторов (в нашем примере – двух факторов). Функция «ЛИНЕЙН» возвращает значения оценок параметров
1,587 |
– 0,152 |
– 1,022 |
Они записаны, как ранее отмечалось, в обратном порядке (постоянная составляющая – в правой ячейке).
В приведенном примере вычисление обратной матрицы и все операции производились в EXCEL (их можно также выполнить в пакете Mathcad-2000 или Mathcad-2001), и конечные результаты даны с округлением до 3-х десятичных знаков после запятой. Это округление вносит дополнительные ошибки при расчетах характеристик модели.