- •Парная регрессия. Точечные оценки параметров в условиях классической нормальной модели.
- •Интервальные оценки параметров линейной регрессии.
- •Интервальная оценка средних и индивидуальных значений объясняемой переменной при заданном значении объясняющей переменной.
- •Проверка гипотезы о значимости коэффициентов линейной регрессии. Оценивание качества приближения с помощью коэффициента детерминации.
- •Коэффициент детерминации.
- •Проверка гипотезы о значимости уравнения регрессии в целом.
Интервальные оценки параметров линейной регрессии.
Поскольку статистика, используемая для оценки того или иного параметра, является случайной величиной, она может принимать произвольные значения, сколько угодно далекие от истинного значения оцениваемого параметра. Состоятельность статистики гарантирует лишь, что большие уклонения реализации этой случайной величины от оцениваемого параметра имеют малую вероятность, исчезающую при неограниченном возрастании объема выборки. При этом вероятность того, что истинное значение параметра в точности совпадет с наблюдаемым значением статистики, равна 0.
Интервальной
оценкой
параметра
генеральной
совокупности с доверительной вероятностью
называется
пара случайных величин,
и
,
для которых имеет место неравенство
при
.
Если такие случайные величины найдены,
то интервал
считается
интервальной
оценкой параметра
с доверительной вероятностью .
Подчеркнем, что в качестве достовернойоценки
параметра можно,
как правило, указать только всю числовую
прямую. Даже для значений параметра
,близких
к единице (для этих значений доверительный
интервал
обычно довольно велик, а прогноз
относительно значения параметра
расплывчат),
имеется возможность ошибки, то есть
того, что на самом деле параметр
не принадлежит
интервалу
.
Вероятность этой ошибки равна 1.
Примером интервальной
оценки математического ожидания
генеральной совокупности в случае,
когда среднее квадратичное уклонение
известно и равно ,
является доверительной интервал вида
,
где t
– решение уравнения
.
Здесь
– функция Лапласа.
Рассмотрим
общую ситуацию. Предположим, что известно
распределение
некоторой состоятельной несмещенной
статистики
параметра
генеральной совокупности. Если p(x)
– плотность этого распределения, то
вероятность уклонения статистики
от его математического ожидания
можно найти по формуле
Рассмотрим, для простоты, распределения, симметричные относительно математического ожидания. Интервальную оценку параметра также будем искать симметричной относительно значения . Величина t, удовлетворяющая соотношению
,
является функцией параметра и называется критической точкой распределения. В частности, для распределений, симметричных относительно математического ожидания, вероятность события
будет заведомо не больше 1. Интервал
называется
доверительным
интервалом параметрас
доверительной вероятностью .
В данном случае
есть вероятность события, что реализации
случайных функций
и
удовлетворяют неравенству
.
Часто говорят, что – это вероятность того, что интервал
“накроет” .
Особую роль в построении интервальных оценок параметров линейной регрессии играет распределение 2 и распределение Стьюдента.
Пусть 1, …, n – n независимых нормально распределенных случайных величин с математическим ожиданием 0 средним квадратичным уклонением 1. Рассмотрим случайную величину
.
Закон распределения этой случайной величины называется распределением 2 с n степенями свободы. В курсе теории вероятности доказывается, что функция плотности распределения этой случайной величины имеет вид
Среднее значение случайной величины, распределенной по закону 2, равно n, а дисперсия 2n.
p(x)
n2x
Замечательным
фактом является следующее утверждение.
Если n
случайных величин 1,
…, n
удовлетворяют k
независимым линейным соотношениям вида
c0
+ c11
+ … + cnn=
0 (и, следовательно, среди них имеется
nk
независимых случайных величин, а
остальные линейно выражаются через
них), то случайная величина
,
по–прежнему, имеет распределение 2,
но уже с nk
степенями свободы.
Критической точкой распределения 2 с числом степеней свободы n с уровнем значимости называют решение уравнения
Решение этого
интегрального уравнения обозначается
и приводится во всех статистических
таблицах. Приведем для справки команды,
с помощью которых можно получить значения
при разных значениях параметров ,
n
в таких программах, как EXCEL,
MATHCAD
и MAPLE.
>with(stats):statevalf[icdf,chisquare[n]](1-); (Maple)
qchisq(1,n)(MathCad)
=хи2обр(;n) (Excel)
В
частности,
.
Пусть 0,1, …, n – независимые нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковым средним квадратичным уклонением . Рассмотрим случайную величину
.
Распределение этой случайной величины называется распределением Стьюдента с n степенями свободы. Функция плотности распределения этой случайной величины имеет вид
.
Среднее
значение случайной величины, распределенной
по закону Стьюдента с n
степенями свободы равно 0, а дисперсия
.
Нетрудно
проверить, что при n
функция плотности распределения
случайной величины t(n)
стремится к функции плотности нормального
закона (0,1).
Считается, что уже при n>
30 функция плотности практически
неотличима от функции
.
Если n случайных величин 1, …, n удовлетворяют k независимым линейным соотношениям вида a0 + a11 + … + ann = 0, то случайная величина t(n) имеет распределение Стьюдента с nk степенями свободы.
Критической точкой (двустороннего) распределения Cтьюдентас числом степеней свободы n с доверительной вероятностью называют решение уравнения
Решение этого
интегрального уравнения обозначается
и приводится во всех статистических
таблицах. Приводим для справки команды,
с помощью которых можно получить значения
при разных значениях параметров
и n
с использованием программ EXCEL,
MATHCAD
и MAPLE.
>with(stats):statevalf[icdf,studentst[n]](
);
(Maple)
qt( ,n)(MathCad)
=стьюдраспобр(1-;n) (Excel)
В
частности,
.
Наша задача –
предъявить интервальные оценки для
параметров
и
линейной
регрессии, а также оценку среднего
квадратичного уклонения
случайной величины
в предположениях классической нормальной
модели. Для этого требуется изучить
закон распределения статистик
,
,
.
Рассмотрим подробно распределение старшего коэффициента b1. В лекции 1 было получено соотношение
.
Здесь
– независимые,
одинаково распределенные случайные
величины, распределенные по нормальному
закону с нулевым математическим ожиданием
и постоянным средним квадратичным
уклонением
(нам неизвестным). При этом M[b1]=a1,
Из курса теории
вероятностей известно, что произвольная
линейная комбинация независимых
нормально распределенных случайных
величин распределена нормально.
Следовательно, в предположениях
классической линейной регрессионной
модели, статистика b1
распределена нормально с параметрами
a1,
.
Отсюда сразу следует, что статистика
также распределена по нормальному
закону с параметрами
,
.
К сожалению, параметр нам неизвестен, и мы лишь можем оценить его при помощи статистики s2.
Определим закон распределения статистики s2. По определению остаточной суммы квадратов, имеем
,
где
.
Из явного вида
функций
,
,
следует,
что случайные величины
выражаются в виде линейных комбинаций
независимых нормально распределенных
случайных величин
,
…,
,
следовательно, все
также являются нормально распределенными
случайными величинами. В лекции 1 были
выведены формулы M[ei]=0
и D[ei]=
.
При достаточно больших значениях N
можно считать, что все D[ei]
одинаковы и равны 2.
Следовательно, с точностью до постоянного
множителя, случайная величина s2
распределена по закону 2.
Вопрос лишь в том, какое количество
независимых линейных соотношений
имеется между величинами e1,
…, eN,
или, иными словами, сколько степеней
свободы имеет величина s2?
Вспомним, что для вывода формул для
статистик b0
и b1
мы использовали принцип наименьших
квадратов Гаусса, и, конкретно, два
уравнения,
Таким образом, функции e1, …, eN удовлетворяют двум независимым линейным уравнениям. Следовательно, число степеней свободы статистики s2равно N2:
.
С учетом соотношений
,
,
отсюда следует, что случайные величины
,
асимптотически, при N, распределены по закону Стьюдента с числом степеней свободы, равным N 2.
Формулы для интервальных оценок параметров b1, b0. Если доверительная вероятность интервала равна , то
,
.
Для доверительного
интервала параметра
случайной величины
получаем выражение
.
Действительно,
поскольку
,
вероятность события
(для положительных чисел A
и B)
равна
,
где F(t) – интегральная функция распределения случайной величины 2 с N2 степенями свободы. В частности, по определению критической точки распределения 2, получаем
.
Следовательно,
Таким
образом, интервал
“накроет”
значение
с вероятностью ,
что и требовалось.
