Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
EMM_MAMAEVA.pdf
Скачиваний:
100
Добавлен:
27.03.2015
Размер:
1.08 Mб
Скачать

Для статистически значимых величин может быть построен доверительный интервал

Определение: доверительный интервал – это интервал, в котором с определенной вероятностью можно ожидать фактического значения изучаемой величины.

Доверительный интервал определятся по формуле:

U t su M (U ) U t su

(3.9), где

U значение характеристики,

найденное по выборке; M (U ) -

математическое ожидание величины U ; su стандартная ошибка характеристики

U, t – теоретическое значение t статистики, найденное по таблицам t – распределения Стьюдента. Вероятность попадания в доверительный интервал равняется 1- .

3.3. Оценка статистической значимости параметров линейной модели множественной регрессии

Рассмотрим модель множественной регрессии. Пусть уравнение модели, определенное по выборочным исходным данным имеет вид:

Y a0 a1 X1 a2 X 2

ak X k .

(3.10)

Параметры модели

(a0,a1,...,ak )

рассчитанные по данным выборки

являются случайными величинами. Их математические ожидания при выполнении предпосылок об отклонениях i равны соответственно

( 0 , 1 , 2 ,... k ) .

Проверка параметров на статистическую значимость осуществляется по схеме статистической проверки гипотез с использованием t - статистики

Стьюдента.

Выберем

для проверки некоторый параметр a j . Формулируется

две гипотезы: H0: a j 0 и H1: a j 0

 

 

 

 

Рассчитывается

t–статистика: t j

 

a j

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sa j

Можно доказать (доказательство не приводим) что выборочная дисперсия

Sa2j параметра a j

вычисляется по формуле[9]:

S 2

S 2 Z

x j

,

 

 

 

 

 

 

(3.11),

a j

 

e

 

 

 

 

 

 

 

 

 

где

Z x j – диагональный элемент матрицы (X T X ) 1 , соответствующий

 

 

 

 

 

 

n

 

 

 

 

 

 

переменной X j ;

S

2

 

ei2

– оценка дисперсии ошибок.

i 1

 

e

n

2

 

 

 

 

 

 

 

 

 

 

Расчетное значение

t j сравнивается с табличным значением статистики

Стьюдента

tтабл ( , n k 1) (таблица 12). Если t j tтабл , то нулевая гипотеза

отклоняется и коэффициент регрессии a j

считается статистически значимым.

29

Следовательно, факторная переменная x j оказывает существенное влияние на

результативный показатель.

Если параметр a j окажется статистически незначимым (статистически

близким к нулю), это означает, что фактор X j

серьезного влияния на величину зависимой искажает реальную картину взаимосвязи. В рассмотреть вопрос об исключении переменной

не оказывает сколь - нибудь

переменной, а иногда лишь этом случае рекомендуется X j из уравнения.

В то же время решение о включении или не включении переменной в регрессию решается с привлечением содержательных и теоретических предположений о задаче исследования.

Для статистически значимых параметров может быть построен доверительный интервал, показывающий с вероятностью (1 ) возможный

интервал изменения истинных параметров модели j

j

 

.

0,k

a j t Sa j M (a j ) j a j t Sa j

(3.12)

3.4. Оценка статистической значимости параметров линейной модели парной регрессии

Рассмотрим линейную модель парной регрессии. Пусть уравнение модели, определенное по выборочным исходным данным имеет вид:

Yˆ a b X . Проверка на статистическую значимость параметров парной регрессии можно проводить также как для множественной регрессии.

Дисперсии параметров a и b могут быть найдены по формуле (3.11), для

чего необходимо рассчитать матрицу (X T X ) 1 .

 

 

 

 

 

 

Кроме того, для парной регрессии можно воспользоваться

следующими

формулами оценочных дисперсий для параметров

a и b 5

 

S 2

 

 

Se2

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

(3.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

X

2

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

 

 

 

 

 

 

 

 

 

1

 

 

 

(

 

)2

 

 

 

2

 

i 1 i

2

 

 

 

 

 

 

 

 

 

 

X

 

2

 

 

 

2

 

 

Sa2

Se2

 

 

 

 

 

 

 

 

 

 

или

S a S

b

 

 

Sb

X

 

 

(3.14)

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi X )2

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

При оценке парной регрессии, прежде всего, необходимо проверить наличие линейной связи между Y и X , т.е. проверить статистическую значимость параметра b . Величина b есть мера наклона линии регрессии – тангенс угла (tg ) наклона линии регрессии к оси X .

Доверительный интервал для M (b)характеризует угол, в котором с

5 Мхитарян В.С., Архипова М.Ю. и др. Эконометрика. М.П: Проспект,2008г. 32-35 ст.

30

выбранной вероятностью (1 ) может находиться искомая прямая. Очевидно, что чем больше разброс значений Y вокруг линии регрессии

(большеSe2 ), тем больше (в среднем) ошибка в определении наклона линии регрессии. Если такого разброса нет совсем (ei=0, следовательно, Se2 =0), то

прямая определяется однозначно и ошибок в определении параметров нет. Как следует из (3.15), дисперсия свободного члена уравнения

пропорциональна S2b , поэтому для нее справедливы уже сделанные пояснения о влиянии разброса Yi вокруг регрессионной прямой. Чем сильнее меняется

наклон искомой прямой, проходящей через точку X ,Y , тем больше разброс свободного члена, характеризующего точку пересечения этой прямой с осью Y.

3.5. Оценка статистической значимости уравнения регрессии

При анализе регрессионных моделей кроме оценки индивидуальной статистической значимости каждого из коэффициентов, проводится оценка значимости уравнения регрессии в целом. О наличии зависимости между Y и

факторными переменными мы судим по величине R2 . Возникает вопрос,

действительно ли полученное при оценке модели значение R2 отражает наличие истинной зависимости или оно получилось случайно.

Для проверки значимости уравнения в целом в качестве нулевой гипотезы рассматривается H0 : a (a0 ,a1,....ak ) 0 . Для проверки гипотезы

используется F – критерий Фишера, основанный на сопоставлении факторной–

SR2 ¤ и остаточной– S 2 оценочных дисперсий

:

F=

SR

2

 

 

 

(3.17),

Se

 

 

 

 

 

 

SR 2 ESS ;

 

e

 

 

 

RSS

 

 

 

 

 

2

 

 

 

 

 

 

S 2

 

 

 

 

 

 

 

 

 

где

 

 

 

 

, (в

числитель

формулыF всегда

ставится

 

 

n

k 1

 

 

 

k

 

e

 

 

 

 

 

 

 

 

 

 

 

 

наибольшая величина)

что при выполнении гипотезы ( H0 : a 0)

величины

 

2

Можно показать,

SR

и Se2

являются независимыми и несмещенными оценками одной и той же

дисперсии

2 ,

а

их

 

отношение

имеет

распределение

Фишера ( F

распределение с

k

и

(n k 1) степенями свободы)

 

 

 

 

Английским

статистиком

Фишером

определено

теоретическое

распределение отношения этих дисперсий, представленное в таблицах показателя F (таблица 13). Эти теоретические величины связаны с определенной доверительной вероятностью и зависят от числа степеней свободы для двух сравниваемых дисперсий. Табличные значения Ft

используется как критические для оценки расчетных значений. Если Fрасч > Ft, то нулевая гипотеза отвергается и уравнение признается статистически значимым. .

31

Качество подбора функции можно оценить сравнением двух оценочных дисперсий: дисперсии остатков и общей дисперсии. Если Se2 > S 2 , то

исследуемое уравнение определяет не адекватную модель и ее нужно отвергнуть.

F–статистика может быть выражена через коэффициент детерминации:

F

SR2

ESS

:

 

 

RSS

ESS

n k 1

 

Se2

 

k

 

 

n k 1

 

RSS

k

Поделим последнее соотношение на TSS и получим

F

R2

 

 

n

k 1

 

(3.18)

1 R

2

 

 

k

 

 

 

 

 

 

 

 

 

 

что чем ближеR2 к единице, тем больше

Формула (3.18)

показывает,

значения F , в то же время малым значениям F (отсутствие значимой связи X и Y соответствуют малые значения R2 ).

Для модели линейной парной регрессии статистическую значимость уравнения можно проверить на основе коэффициент парной корреляции RXY ,

В этом случае RXY R2 . Проверка проводится по стандартной схеме

статистической проверки гипотез с использованием t – статистики Стьюдента. Расчетное значение статистики:

tR

 

 

R

 

 

, где SR

1 R2

(стандартная ошибка в определении величины

 

 

 

 

 

 

 

 

 

n 2

 

Sr

 

RXY ) сравнивается с табличным

tтабл( ,n 2) .

Если tR tтабл,

то RXY с выбранным уровнем доверия признается

статистически значимым, а модель адекватной и надежной. Для коэффициента корреляции может быть построен доверительный интервал:

R tтабл SR M (R) R tтабл SR

Чем шире интервал, тем больше неопределенность в оценке связи Y и X .

3.6. Оценка точности модели

Фактические значения результативного показателя отличаются от значений, рассчитанных по уравнению модели, на величину ei Yi Yˆi . Эта

величина в каждом наблюдении представляет собой абсолютную ошибку аппроксимации. Но эти величины несравнимы между собой, так как зависят от единиц измерения и масштаба величин Yi . Так, если в одном наблюдении

получилась ошибка 5, а в другом 10, это не означает, что в последнем случае модель дает худший результат.

Поэтому для того, чтобы оценки были сравнимыми, рассматривают относительные оценки i (отношения отклонений ei к фактическим значениям

Yi (в процентах)). Поскольку отклонения ei могут быть как положительными, так и отрицательными, то отклонения берутся по модулю.

32

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]