- •Эконометрика
- •Введение
- •1. Модели статистической взаимосвязи
- •1.1. Типы взаимосвязи между явлениями
- •1.2. Типы данных
- •1.3. Типы моделей
- •Контрольные вопросы
- •2. Двухмерная модель линейной регрессии
- •2.1. Определение параметров млр. Метод наименьших квадратов
- •2.2. Матричная форма записи при определении параметров млр
- •2.3. Корреляционный анализ млр
- •2.4. Оценка ошибок моделирования
- •2.4.1. Основные условия (гипотезы) анализа ошибок
- •2.4.2. Ошибки оценок параметров модели
- •2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
- •2.4.4. Оценка прогноза показателя и ошибок прогнозирования
- •2.5. Установление существенности связи на основе теории статистической проверки гипотез
- •2.5.1. Распределения случайных величин Нормальное распределение (Гаусса)
- •Распределение Пирсона (2-распределение)
- •Распределение Фишера
- •Распределение Стьюдента (t-распределение)
- •Статистическая проверка гипотез
- •Контрольные вопросы
- •3. Многомерная модель линейной регрессии
- •3.1. Определение параметров модели методом наименьших квадратов
- •3.2. Определение оценок параметров млр через отклонения (уменьшение числа уравнений системы до k – 1)
- •3.3. Статистические свойства оценок параметров млр
- •3.3.1. Условия анализа
- •3.3.2. Среднеквадратичные ошибки оценок параметров млр
- •3.3.3. Ошибки прогнозирования
- •3.4. Коэффициент детерминации многомерной млр
- •3.5. Определение существенности статистической связи между факторами и показателем
- •Контрольные вопросы
- •4. Мультиколлинеарность
- •4.1. Выражение для оценки параметров млр в стандартизованной форме
- •4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
- •4.2.1. Проверка на общую мультиколлинеарность
- •4.2.2. Проверка мультиколлинеарности между парами факторов
- •Контрольные вопросы
- •5. Автокорреляция
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Авторегрессионый процесс первого порядка
- •5.3. Тест Дарбина-Уотсона на автокорреляцию
- •Контрольные вопросы
- •6. Двухмерная модель нелинейной регрессии
- •6.1. Трехпараметрическая парабола
- •6.2. Двухпараметрическая парабола
- •6.3. Обзор двухпараметрических нелинейных моделей парной регрессии
- •Экспоненциальная модель
- •Логарифмическая модель
- •Гиперболическая модель
- •Контрольные вопросы
- •Литература
- •Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5
2.4. Оценка ошибок моделирования
Как отмечалось в п.2.1, по ограниченным данным выборки объема n можно построить модель лишь с некоторой точностью. её параметры a и b являются оценками истинных значений α и β, которые определяются генеральной совокупностью объема N >> n. Последней приписываются вероятностные свойства с применением аксиом теории вероятности, определений случайной величины, вероятности, плотности вероятности, оператора усреднения и т.д. В рамках свойств генеральной совокупности объема N рассматривается спецификация модели линейной регрессии
,
в которой α, β, xi – детерминированные (фиксированные или известные) величины, а значения показателя yi и ошибки модели i – случайные величины (СВ) с заданным распределением (например, плотности вероятности). Часто yi, i считаются нормальными СВ (НСВ), тогда модель называют нормальной.
Ограниченные данные выборки объема n << N позволяют вместо точной модели (2.1) с параметрами α и β построить приближенную модель (2.2)
.
Здесь еі – остатки регрессии, вероятностные свойства которых считаются аналогичными ошибкам i , а a, b – некоторые оценки (приближенные значения) параметров модели.
Мы будем оценивать дисперсии и среднеквадратичные ошибки (СКО) для оценок параметров модели и величины :
;
;
,
где M[X], D[X] – математическое ожидание и дисперсия случайной величины Х.
Для непрерывной случайной величины Х с плотностью вероятности р(х) они определяются как
,
.
Следовательно, для точного определения того или иного параметра случайной величины достаточно знать (или задать) её распределение плотности вероятности.
2.4.1. Основные условия (гипотезы) анализа ошибок
Поскольку в корреляционно-регрессионном анализе мы опираемся на методы математической статистики и теории вероятности, любые оценки ошибок моделирования являются корректными лишь при выполнении исходно принятых условий (гипотез) в отношении величин и переменных, входящих в модель. Примем следующие гипотезы:
1. В спецификации модели (2.1) фактор х и параметры модели α, β – детерминированные величины, а показатель уi и ошибки моделирования i – случайные величины.
2. Ошибки моделирования имеют нулевое среднее значение и некоррелированны:
Невыполнение второго условия называют автокорреляцией ошибок модели.
3. Дисперсия ошибок моделирования i показателя не зависят от номера i (гомоскедастичность):
Невыполнение этого условия называют гетероскедастичностью.
Дополнительным условием, которое может не выполняться в ряде случаев, является свойство нормальной модели:
4. Ошибки i являются нормальными СВ: N(0, 2) c нулевым математическим ожиданием mε = 0 и дисперсией 2.
2.4.2. Ошибки оценок параметров модели
Покажем сначала, что оценки МНК параметров линейной модели являются несмещенными, т.е. математические ожидания оценок совпадают с истинными значениями параметров:
M[b] = β, M[a] = α.
Действительно, согласно (2.12) и (2.7) имеем:
. (2.27)
С учетом (2.1), детерминированности vi и условия M[i] = 0 гипотезы 2 получим в результате усреднения оценки b в рамках генеральной совокупности
.
Здесь использовано одно из свойств для коэффициентов vi
(2.28)
которые следуют из (2.27).
Аналогично, для параметра a с учетом (2.6) и несмещенности b получим
.
Таким образом, обе оценки МНК параметров линейной модели являются несмещенными, то есть сходятся при неограниченном увеличении объема выборки к точным значениям параметров α и β. Поэтому при определении их дисперсий усредняются квадраты разностей оценок и истинных значений параметров.
Определим дисперсию коэффициента регрессии. Известными свойствами дисперсии СВ Х, умножаемой или складываемой с константой с, являются:
. (2.29)
Тогда с использованием (2.27) – (2.29)
.(2.30)
Здесь принято во внимание, что дисперсии D[yi] =D[i], так как показатель и ошибка модели как случайные величины отличаются на детерминированное слагаемое a+ bxi.
Дисперсию постоянной составляющей модели определим как
. (2.31)
Так как
. (2.32)
и
, (2.33)
то с учетом (2.32), (2.33) дисперсия (2.31) становится равной
. (2.34)
Более сложным является определение оценки дисперсии ошибок модели. Опуская вывод, приведем окончательную формулу для несмещенной оценки дисперсии ошибок моделирования
, (2.35)
выраженную через остатки регрессии (2.2).
Выражения (2.30), (2.34) дают точные значения дисперсий оценок параметров модели, однако практически воспользоваться ими нельзя, так как точное значение дисперсии ошибок 2 неизвестно (оно определяется из генеральной совокупности, а не из выборки). На основе выборочных данных можно лишь оценить с помощью (2.35) эту дисперсию. Поэтому на практике в формулы (2.31), (2.35) вместо 2 подставляют её оценку (2.35) и получают оценки дисперсий параметров b и a:
, (2.36)
. (2.37)
Эти оценки используют лишь выборочные данные. СКО этих оценок равны положительным значениям квадратного корня из дисперсий.
В лияние СКО оценок параметров на точность модели отражается на рис.2.5, а, б. Сдвиг постоянной составляющей в пределах а а не является существенным при моделировании, так как он не изменяется при всех значениях фактора х и его можно легко скорректировать. Более существенные последствия имеет ошибка в определении коэффициента регрессии b. Как видно из рис.2.5, б, ошибки в прогнозах показателя у* становятся тем больше, чем больше отклонение от среднего значения фактора х. Стандартное отклонение у* b имеет место при . В общем случае граничная ошибка регрессии (с доверительной вероятностью 68%) пропорциональна величине . Иначе говоря, чем больше отличается значение фактора х при прогнозе от среднего, тем больше можно ошибиться в результате прогнозирования. Ясно также, что СКО b уменьшается с ростом объема выборки n, так как растет число положительных слагаемых в знаменателе (2.36).
а б
Рис.2.5
Пример 2.2. Оценим СКО и доверительные интервалы оценок параметров модели примера 2.1 для малой выборки объема n = 5, приняв доверительную вероятность Р = 0,954.
Оценка дисперсии ошибок модели согласно (2.36) и расчетов, приведенных в таблице 2.1, равна
.
Тогда СКО оценок b = 0,588 a = – 0,529 параметров модели в соответствии с (2.37), (2.38) равны
.
Ошибки оказались сравнительно большими в связи с малым объемом выборки (n = 5). Найденные значения СКО являются точечными ошибками оценок параметров. Определим далее доверительные интервалы этих оценок. Для нормальной модели граничная ошибка равна
Δ = tσ,
где параметр доверия t = 1 при доверительной вероятности Р = 0,68,
t = 2 при Р = 0,954,
t = 3 при Р = 0,997.
В нашем примере
t = 2 (Р = 0,954), Δb = 0,256, Δa = 1,678,
тогда доверительные интервалы для истинных значений параметров и α с границами b Δb, a Δa определяются как [0,332; 0,844], α [ – 2,207; 1,149].
Это значит, что при доверительной вероятности 95,4% коэффициент регрессии b (и, соответственно, наклон прямой линии модели) может измениться более чем в 2,5 раза, а девиация (отклонение) постоянной составляющей а близка к 1,7 у.е. Очевидно, подобные ошибки малой выборки неприемлемы для практических целей, поэтому реальные объемы выборки должны составлять десятки, сотни и более элементов.