Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
940.54 Кб
Скачать

5. Оценка значимости уравнения регрессии

Даже если СВ x, y независимы друг от друга, множество эмпирических пар {xi, yi}, i = 1,2...n можно нанести на график и получить картину типа изображенной на рис. 5.1, где также приведена линия регрессии, полученная по МНК для этих данных. Коэффициент b1 при этом близок к нулю, а b0 – к среднему значению результирующего признака y.

Рис. 5.1. Случай сомнительной связи величин

Рассмотрим т.н. общую сумму квадратов отклонений от среднего (СКОС) . Можно показать, что она может быть представлена в виде суммы двух сотавляющих, а именно

(5.1)

Первая справа сумма называется суммой квадратов регрессии относительно среднего (РСК), вторая – остаточной суммой квадратов (ОСК).

Если бы линия регрессии на графике прошла точно через эмпирические точки, ОСК была бы равна нулю, а РСК сравнительно велика. В случае, изображенном на рис. 5.1, наоборот, РСК мала, а ОСК велика. Еще более чувствительным будет отношение РСК к ОСК. На этом и основана процедура проверки значимости (существенности) регрессии, получившая название дисперсионный анализ.

Вначале формулируются две взаимоисключающие гипотезы: H0 ~ b1 =0 и H1 ~b1 ≠ 0.

Далее заполняется т.н. таблица дисперсионного анализа

Табл. 5.1

Источник вариации

Сумма квадратов

Число степеней

свободы

Приведенная сумма

квадратов

1

2

3

(4) = (2)/(3)

I РСК

1

ПРСК

II ОСК

n-2

ПОСК

III СКОС

III = II + I

n-1

-

В третьей колонке этой таблицы фигурирует понятие степень свободы. Проще всего пояснить его для строки III. Прежде чем вычислять СКОС необходимо вычислить выборочное среднее . Это накладывает одно ограничение на массив значений {yk}, k = 1,2...n, в том смысле, что можно брать какие угодно (k-1) значений этой случайной величины, но последнее k-ое значение должно быть выбрано так, чтобы не изменилось .

Величины в последней колонке таблицы 5.1 образуются путем деления соответствующей суммы квадратов на ее число степеней свободы, причем вычисление приведенной СКОС не обязательно. Английский статистик Р.Фишер доказал, что в случае справедливости гипотезы H0 критериальная статистика F = ПРСК/ПОСК подчиняется вполне определенному закону распределения, получившего название распределение Фишера – Снедекора. Оно относится к числу стандартных и табулировано в справочниках, а также вычисляется в специализированных пакетах программ, например, Excel. Данное распределение имеет три параметра, два из которых называются первой и второй степенью свободы, а третий – уровнем значимости α. Последний обычно выбирается равным 0,05 и характеризует вероятность ошибочного вывода. Полученная из таблицы дисперсионного анализа величина F сравнивается с табличным значением F1, n-2(α), где 1 и n-2 – первая и вторая степени свободы.

При F > F1, n-2(α) гипотеза H0 отвергается и говорят, что предположение о независимости СВ противоречит опытным данным и необходимо принять гипотезу H1. Вероятность того, что этот вывод ошибочен равна уровню значимости.

При F < F1, n-2(α) гипотеза H0 принимается и говорят, что предположение о независимости СВ не противоречит опытным данным.

Для данных, представленных на рис.5.1 F = 0,2; F1,5(0,05) = 6,6 и у нас нет оснований отвергать предположение об отсутствии связи между этими СВ.

Определенную информацию о степени связи фактора с результирующим признаком несет коэффициент детерминации R2, равный отношению РСК к СКОС. В случае парной линейной регрессии он численно равен квадрату коэффициента корреляции и, следовательно, может принимать значения в интервале [0,1]. Коэффициент детерминации характеризует долю в вариации (изменении) результирующего признака у, объясняемую регрессией. В примере по таблице 2.1 R2 = r2 = 0.9872 = 0.974, следовательно, уравнением регрессии объясняется 97.4% вариации результирующего признака, а на долю остальных неучтенных факторов приходится лишь 2.6% (ОСК)

А вот для данных, представленных на рис.5.1, коэффициент детерминации получился равным 0,04, что говорит о ничтожном влиянии фактора х и подтверждает гипотезу H0.

Возможен несколько другой подход к оценке значимости регрессии, в основе которого лежит построение доверительного интервала для оценки коэффициента регрессии b1. Для этого сначала вычисляется СКО b1

,

а затем статистика Стьюдента t = b1/ . Последняя сравнивается с табличным значением распределения Стьюдента с (n-2) степенью свободы и уровнем значимости α = 0.05 ( обозначается ). Если вычисленное значение критерия окажется больше табличного, коэффициент b1 считается значимо отличным от нуля, т.е. регрессия значима. Доверительный интервал для коэффициента регрессии определяется как b1± . В случае если этот интервал включает ноль, можно также утверждать, что регрессия незначима.

Можно показать, что распределения Фишера и Стьюдента связаны между собой. Действительно