Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА.doc
Скачиваний:
17
Добавлен:
30.04.2019
Размер:
3.68 Mб
Скачать

2.4. Оценка ошибок моделирования

Как отмечалось в п.2.1, по ограниченным данным выборки объема n можно построить модель лишь с некоторой точностью. её параметры a и b являются оценками истинных значений α и β, которые определяются генеральной совокупностью объема N >> n. Последней приписываются вероятностные свойства с применением аксиом теории вероятности, определений случайной величины, вероятности, плотности вероятности, оператора усреднения и т.д. В рамках свойств генеральной совокупности объема N рассматривается спецификация модели линейной регрессии

,

в которой α, β, xi детерминированные (фиксированные или известные) величины, а значения показателя yi и ошибки модели i случайные величины (СВ) с заданным распределением (например, плотности вероятности). Часто yi, i считаются нормальными СВ (НСВ), тогда модель называют нормальной.

Ограниченные данные выборки объема n << N позволяют вместо точной модели (2.1) с параметрами α и β построить приближенную модель (2.2)

.

Здесь еі – остатки регрессии, вероятностные свойства которых считаются аналогичными ошибкам i , а a, b – некоторые оценки (приближенные значения) параметров модели.

Мы будем оценивать дисперсии и среднеквадратичные ошибки (СКО) для оценок параметров модели и величины :

;

;

,

где M[X], D[X] – математическое ожидание и дисперсия случайной величины Х.

Для непрерывной случайной величины Х с плотностью вероятности р(х) они определяются как

,

.

Следовательно, для точного определения того или иного параметра случайной величины достаточно знать (или задать) её распределение плотности вероятности.

2.4.1. Основные условия (гипотезы) анализа ошибок

Поскольку в корреляционно-регрессионном анализе мы опираемся на методы математической статистики и теории вероятности, любые оценки ошибок моделирования являются корректными лишь при выполнении исходно принятых условий (гипотез) в отношении величин и переменных, входящих в модель. Примем следующие гипотезы:

1. В спецификации модели (2.1) фактор х и параметры модели α, β – детерминированные величины, а показатель уi и ошибки моделирования i – случайные величины.

2. Ошибки моделирования имеют нулевое среднее значение и некоррелированны:

Невыполнение второго условия называют автокорреляцией ошибок модели.

3. Дисперсия ошибок моделирования i показателя не зависят от номера i (гомоскедастичность):

Невыполнение этого условия называют гетероскедастичностью.

Дополнительным условием, которое может не выполняться в ряде случаев, является свойство нормальной модели:

4. Ошибки i являются нормальными СВ:  N(0, 2) c нулевым математическим ожиданием mε = 0 и дисперсией 2.

2.4.2. Ошибки оценок параметров модели

Покажем сначала, что оценки МНК параметров линейной модели являются несмещенными, т.е. математические ожидания оценок совпадают с истинными значениями параметров:

M[b] = β, M[a] = α.

Действительно, согласно (2.12) и (2.7) имеем:

. (2.27)

С учетом (2.1), детерминированности vi и условия M[i] = 0 гипотезы 2 получим в результате усреднения оценки b в рамках генеральной совокупности

.

Здесь использовано одно из свойств для коэффициентов vi

(2.28)

которые следуют из (2.27).

Аналогично, для параметра a с учетом (2.6) и несмещенности b получим

.

Таким образом, обе оценки МНК параметров линейной модели являются несмещенными, то есть сходятся при неограниченном увеличении объема выборки к точным значениям параметров α и β. Поэтому при определении их дисперсий усредняются квадраты разностей оценок и истинных значений параметров.

Определим дисперсию коэффициента регрессии. Известными свойствами дисперсии СВ Х, умножаемой или складываемой с константой с, являются:

. (2.29)

Тогда с использованием (2.27) – (2.29)

.(2.30)

Здесь принято во внимание, что дисперсии D[yi] =D[i], так как показатель и ошибка модели как случайные величины отличаются на детерминированное слагаемое a+ bxi.

Дисперсию постоянной составляющей модели определим как

. (2.31)

Так как

. (2.32)

и

, (2.33)

то с учетом (2.32), (2.33) дисперсия (2.31) становится равной

. (2.34)

Более сложным является определение оценки дисперсии ошибок модели. Опуская вывод, приведем окончательную формулу для несмещенной оценки дисперсии ошибок моделирования

, (2.35)

выраженную через остатки регрессии (2.2).

Выражения (2.30), (2.34) дают точные значения дисперсий оценок параметров модели, однако практически воспользоваться ими нельзя, так как точное значение дисперсии ошибок 2 неизвестно (оно определяется из генеральной совокупности, а не из выборки). На основе выборочных данных можно лишь оценить с помощью (2.35) эту дисперсию. Поэтому на практике в формулы (2.31), (2.35) вместо 2 подставляют её оценку (2.35) и получают оценки дисперсий параметров b и a:

, (2.36)

. (2.37)

Эти оценки используют лишь выборочные данные. СКО этих оценок равны положительным значениям квадратного корня из дисперсий.

В лияние СКО оценок параметров на точность модели отражается на рис.2.5, а, б. Сдвиг постоянной составляющей в пределах а  а не является существенным при моделировании, так как он не изменяется при всех значениях фактора х и его можно легко скорректировать. Более существенные последствия имеет ошибка в определении коэффициента регрессии b. Как видно из рис.2.5, б, ошибки в прогнозах показателя у* становятся тем больше, чем больше отклонение от среднего значения фактора х. Стандартное отклонение у*  b имеет место при . В общем случае граничная ошибка регрессии (с доверительной вероятностью 68%) пропорциональна величине . Иначе говоря, чем больше отличается значение фактора х при прогнозе от среднего, тем больше можно ошибиться в результате прогнозирования. Ясно также, что СКО b уменьшается с ростом объема выборки n, так как растет число положительных слагаемых в знаменателе (2.36).

а б

Рис.2.5

Пример 2.2. Оценим СКО и доверительные интервалы оценок параметров модели примера 2.1 для малой выборки объема n = 5, приняв доверительную вероятность Р = 0,954.

Оценка дисперсии ошибок модели согласно (2.36) и расчетов, приведенных в таблице 2.1, равна

.

Тогда СКО оценок b = 0,588 a = – 0,529 параметров модели в соответствии с (2.37), (2.38) равны

.

Ошибки оказались сравнительно большими в связи с малым объемом выборки (n = 5). Найденные значения СКО являются точечными ошибками оценок параметров. Определим далее доверительные интервалы этих оценок. Для нормальной модели граничная ошибка равна

Δ = tσ,

где параметр доверия t = 1 при доверительной вероятности Р = 0,68,

t = 2 при Р = 0,954,

t = 3 при Р = 0,997.

В нашем примере

t = 2 (Р = 0,954), Δb = 0,256, Δa = 1,678,

тогда доверительные интервалы для истинных значений параметров  и α с границами b  Δb, a  Δa определяются как   [0,332; 0,844], α  [ – 2,207; 1,149].

Это значит, что при доверительной вероятности 95,4% коэффициент регрессии b (и, соответственно, наклон прямой линии модели) может измениться более чем в 2,5 раза, а девиация (отклонение) постоянной составляющей а близка к  1,7 у.е. Очевидно, подобные ошибки малой выборки неприемлемы для практических целей, поэтому реальные объемы выборки должны составлять десятки, сотни и более элементов.