- •Предисловие
- •Введение
- •Пример 1.
- •Пример 2.
- •Глава 1. Анализ данных
- •§1. Состав исходной информации
- •§2. Интерполяционный полином Лагранжа
- •Случай 1.
- •Случай 2.
- •Случай 3.
- •Случай n.
- •§3. Парная линейная регрессия. Метод наименьших квадратов
- •§4. Множественная линейная регрессия
- •§5. Нелинейные модели
- •§6. Системы одновременных эконометрических уравнений
- •Глава 2. Временные ряды §7. Составляющие временного ряда
- •§8. Определение составляющих временного ряда
- •При этом коэффициенты ak, bk будут равны
- •§9. Временной ряд как случайный процесс
- •§10. Модели arima
- •§11. Учет сезонных составляющих
- •Глава 3. Оценка качества спецификации модели §12. Анализ погрешностей исходной информации
- •§13. Доверительные интервалы
- •§14. Расчет погрешностей
- •§15. Коэффициент детерминации
- •§16. Средняя ошибка аппроксимации
- •§17. Принцип максимального правдоподобия. Построение регрессионных моделей при гетероскедастичности ошибок
- •§18. Статистические гипотезы
- •Список литературы
- •Оглавление
§13. Доверительные интервалы
Введем случайную величину
.
(13.1)
Нетрудно проверить, что N(0,1), вследствие чего
.
Полагая
,
получим после элементарных преобразований,
что с
вероятностью выполняется неравенство
.
(13.2)
Интервал
называетсядоверительным
интервалом,
отвечающим доверительной вероятности
. Если, к примеру, k=2,
доверительная вероятность =0.955.
Значению k=3
отвечает вероятность
= 0.997
(правило «трех сигм»). Но для использования
указанных доверительных интервалов на
практике нужно знать стандартное
отклонение . Если значение
неизвестно, для его оценки используется
величина
.
В этом случае можно ввести случайную
величину
,
которая имеет распределение Стьюдента с n-1 степенью свободы [3]. Не выписывая здесь соответствующей функции распределения, приведем несколько значений доверительной вероятности (k, n), отвечающих доверительному интервалу
.
(13.3)
При k=2 и n=3 имеем =0.817; при k=2 и n=7 вероятность =0.908 ;
(3,3)=0.905; (3,5)=0.96. С ростом n различие между распределением Стьюдента и Гауссовым распределением становится меньше, при n=20 этим различием в большинстве случаев можно пренебречь.
Регрессионные модели мы строим по данным наблюдениям (xi,yi), i = 1,2,....n. Пусть значения x = x* не совпадают с xi. Чему будет равна величина y = y* и с какой погрешностью ее можно найти?
Попытаемся ответить на этот вопрос для случая парной линейной регрессии с нулевым свободным членом
yi = bxi + i ,
где iN(0,), i = 1,2...n.
Параметр b оцениваем методом наименьших квадратов:
i2 = (bxi – yi)2 min,
(bxi – yi)xi = 0,
=
(13.4)
Из
формулы (13.4) следует, что оценка
является гауссовой случайной величиной
с математическим ожиданием
E
=
=
=b
(оценка несмещенная) и дисперсией
D
=
(13.5)
Величина σ2 , как правило, неизвестна и ее следует оценить. Для этого составим сумму квадратов ошибок
i2
=
(bxi
–
yi)2
= (bxi
–
xi
+
xi
- yi)2
=
=
xi2
(b-
)2
+
Σ(
xi
–yi)2+
2xi(b-
)(
xi-
yi).
(13.6)
Математическое ожидание Ei2 = Еi2 = nσ2.
Вычисление математического ожидания в правой части равенства (13.6) дает
xi2
D
+ EΣ(
xi
–yi)2,
так как математическое ожидание последнего слагаемого равно нулю. Поэтому
nσ2
= xi2
D
+ EΣ(
xi
–yi)2.
С учетом формулы (13.5) получим
(n-1)σ2
= EΣ(
xi
–yi)2
.
Теперь ясно, что величина
S
2
=
Σ(
xi
–yi)2
(13.7)
будет несмещенной оценкой для σ2. Множитель (n-1) указывает на то, что, располагая только одним наблюдением (x1, y1), нельзя получить оценку S 2, так как возникает неопределенность вида 0/0.
Для
определения доверительного интервала
оценки
,
отвечающего доверительной вероятностиα,
рассмотрим
случайную величину
ξ
= (b-
)
,
имеющую нормальное распределение N(0,1). Заменив σ оценкой S , придем к случайной величине
η
= (b-
)
,
имеющей распределение Стьюдента с (n-1) степенями свободы. Для прогнозируемого значения y* регрессионная модель дает значение
y*
=
x*
+
,
при
этом Ey*
=
bx*,
Dy*=(
x*)2D
+ D
= σ2
.![]()
![]()
![]()
Заменим дисперсию σ2 оценкой S2 из (13.7):
(Sy*)2
= S
2
.
Доверительный интервал для прогнозируемых величин y* будет определяться распределением Стьюдента. Его границы вычисляются по формуле
y = y* Sy*t(n-1, 1-/2),
где - доверительная вероятность (например, = 0,95), (n-1) – число степеней свободы. Статистические пакеты вычисляют эти границы и дают их графическое представление.
Совершенно аналогично рассматривается общий случай множественной линейной регрессии
y =F + .
Можно показать, что
Dy* = (x*)T x* + 2,
где xi = (x1,x2,...xn)*; = cov= 2(FTF)-1. Поэтому
Dy* = 2[(x*)T (FTF)-1x* +1].
Несмещенной оценкой для 2 является число
S
2
=
.
(13.8)
Поэтому оценка среднеквадратичного отклонения y* будет
Sy* = S[(x*)T (FTF)-1x* +1]1/2,
а граница доверительного интервала
y = y* Sy*t(n-m, 1-/2).
