Эконометрика Практика 2 (2024) (1)
.docxЭконометрика
Практическое занятие 2. Парная линейная регрессия.
В таблицах файла Практика 2.xls приводятся данные о 2-х характеристиках 100 объектов (предприятий, стран, индивидов).
От студентов требуется:
1) Построить диаграмму рассеяния. Указать на ней уравнение регрессии и коэффициент детерминации.
2) Оценить параметры модели Y=b0+b1X+ε и дать им экономическую интерпретацию.
3) Рассчитать коэффициент детерминации и указать, что он показывает.
4) Проверить значимость регрессии в целом.
5) Рассчитать стандартные ошибки коэффициентов и построить доверительные интервалы для коэффициентов.
6) Проверить значимость отдельных коэффициентов.
7) В матричной форме получить оценки коэффициентов, их ковариационную матрицу и стандартные ошибки.
8) Выбрать некоторое значение фактора xf. Получить точечную оценку y(xf). Построить 95%-ный доверительный интервал для этой оценки.
9) Провести регрессионный анализ, используя надстройку «Анализ данных».
10) Провести регрессионный анализ, используя Gretl.
Работа выполняется в MS Excel и в Gretl. Студенты выполняют тот вариант, который соответствует первой букве их фамилии. Предлагается 5 вариантов контрольных работ.
Первая буква фамилии |
Номер варианта |
А, Б, В, Г, Д |
1-й вариант |
Е, Ё, Ж, З, И, К |
2-й вариант |
Л, М, Н, О, П, Р |
3-й вариант |
С, Т, У, Ф, Х, Ц |
4-й вариант |
Ч, Ш, Щ, Э, Ю, Я |
5-й вариант |
Парная линейная регрессия
Парная линейная регрессия представляет собой модель линейной зависимости объясняемой переменной y от значения объясняющей переменной x:
,
где ε (ошибка, отклонение, возмущение) - случайная величина, характеризующая отклонение от функции регрессии.
1. Как известно из практики 1, диаграмма рассеяния предназначена для визуального выявления зависимости между двумя показателями
Для построения гистограммы: Вставка – Диаграммы – Точечная.
2. Параметрами модели являются константа b0 и старший коэффициент b1. Оценки коэффициентов можно получить по формулам:
,
.
Параметр b1 – старший коэффициент регрессии. Его величина показывает среднее изменение результата (y) при изменении фактора (x) на единицу. Знак при коэффициенте b1 показывает направление связи: b1>0 – связь прямая, b1<0 – связь обратная.
Параметр b0 – это значение y при х=0. Этот параметр может не иметь реального экономического смысла.
3. Чтобы найти коэффициент детерминации, предварительно следует рассчитать TSS, ESS, RSS. Как известно, имеет место разложение общей суммы квадратов отклонений:
|
= |
|
+ |
|
Общая сумма квадратов отклонений TSS |
|
Сумма квадратов отклонений, объясненная регрессией ESS |
|
Остаточная сумма квадратов отклонений RSS |
По этим формулам и рассчитываются суммы TSS, ESS, RSS.
Для
оценки качества подбора линейной функции
рассчитывается коэффициент
детерминации
:
Коэффициент детерминации представляет собой долю дисперсии зависимой переменной, объясняемую регрессионной моделью. Более точной (несмещенной) оценкой доли объясненной дисперсии является исправленный коэффициент детерминации:
Квадратный корень из коэффициента детерминации называется индексом корреляции:
В случае парной линейной регрессии он представляет собой модуль выборочного коэффициента корреляции Пирсона (см. практическое занятие 1).
4. Проверка гипотезы о значимости регрессии в целом (о значимости коэффициента детерминации).
Проверка осуществляется по схеме:
1) Выбирается уровень значимости α.
2)
Нулевая гипотеза
Альтернативная гипотеза
3) Рассчитывается значение F-статистики:
Если верна нулевая гипотеза, то F имеет распределение Фишера F(1, n-2) (аргументы в скобках называется "числами степеней свободы").
4.1)
Рассчитанное значение Fнабл
сравнивается с критическим значением
соответствующим выбранному уровню
значимости α
(критическая область правосторонняя).
В
случае если
нулевая гипотеза H0
отвергается в пользу альтернативной
H1.
Делается вывод о значимости регрессии
в целом.
4.2) Для рассчитанного Fнабл определяется p-value. Если p-value<α, нулевая гипотеза H0 отвергается в пользу альтернативной H1. Делается вывод о значимости регрессии в целом.
Критическое значение Fα, 1, n-2 (для правосторонней критической области) в Excel можно найти с помощью формулы:
=F.ОБР.ПХ(альфа; 1; размер выборки-2)
Значение p-value можно определить с помощью формулы:
=F.РАСП.ПХ(Fнабл; 1; размер выборки-2)
5. Стандартные ошибки коэффициентов модели рассчитываются по приведенным ниже формулам.
Предварительно рассчитывается оценка дисперсии остатков модели S(ε):
и стандартная ошибка модели:
Теперь
можно найти стандартную ошибку оценки
:
и
стандартную ошибку оценки
:
Доверительными интервалами для коэффициентов b0 и b1 с уровнем надежности (1-α) являются интервалы с границами:
где
tα,n-2
– критическая
точка распределения Стьюдента T(n-2)
для уровня значимости
(предполагается двусторонняя критическая
область), в Excel
ее можно найти по формуле:
=СТЬЮДЕНТ.ОБР.2Х(α; n-2)
6. Проверка гипотез о значимости коэффициентов модели осуществляется по схеме:
1) Выбирается уровень значимости α.
2)
Нулевая гипотеза
Альтернативная гипотеза
3) Рассчитывается наблюдаемое значение t-статистики:
Если верна нулевая гипотеза H0, то t имеет распределение Стьюдента T(n-2).
4.1) Рассчитанное значение сравнивается с критическим значением tα, n-2, соответствующим уровню значимости α (критическая область двусторонняя). В случае если |tнабл|>tα, n-2, нулевая гипотеза H0 отвергается в пользу H1. Делается вывод о значимости коэффициента.
4.2) Для рассчитанного tнабл определяется p-value (критическая область двусторонняя). Если p-value<α, нулевая гипотеза H0 отвергается в пользу H1. Делается вывод о значимости коэффициента.
Критическое значение tα,n-2 (для двусторонней критической области) в Excel можно найти с помощью формулы:
= СТЬЮДЕНТ.ОБР.2Х(альфа; размер выборки - 2)
p-value можно определить с помощью формулы:
=СТЬЮДЕНТ.РАСП.2Х(|tнабл| ; размер выборки - 2)
В данном пункте последовательно проверяются 2 гипотезы: о значимости коэффициента b1 и о значимости коэффициента b0.
Примечание. Обратите внимание, что для парной линейной регрессии проверка значимости регрессии в целом, проверка значимости старшего коэффициента b1, а также проверка значимости коэффициента корреляции Пирсона (см. практику 1) представляют собой один и тот же тест. Для множественной (k>1) регрессии это не уже не так.
7. В матричной форме оценки коэффициентов могут быть найдены по формуле:
Для этого можно использовать следующие функции:
- обратная матрица: =МОБР(матрица)
- произведение матриц: =МУМНОЖ(матрица 1; матрица 2)
- транспонированная матрица: =ТРАНСП(матрица)
Затем следует выделить область правильного размера, в которой будет получен результат, установить курсор в строке формул и нажать комбинацию клавиш Ctrl+Shift+Enter.
Рекомендуется
отдельно найти матрицу
размера
и матрицу
размера
Ковариационная матрица оценок коэффициентов может быть найдена по формуле:
Для умножения матрицы на число следует в ячейке умножить один элемент матрицы на число. Далее следует выделить ячейку с рассчитанным значением. Наведя курсор на квадрат в правом нижнем углу ячейки и удерживая левую кнопку мыши, следует растянуть формулу на диапазон ячеек того же размера, что и матрица (в данном случае 2×2).
Стандартные ошибки коэффициентов легко получить, извлекая квадратные корни (=КОРЕНЬ()) из диагональных элементов ковариационной матрицы.
8. Прогнозирование по модели линейной регрессии.
Получим прогноз значения y при некотором значении фактора xf. Точечный прогноз определяется по формуле:
Стандартная
ошибка регрессии (с.к.о. ожидаемого
значения
):
Тогда доверительный интервал для математического ожидания Ey(xf) с уровнем надежности (1-α):
.
Стандартная ошибка прогноза (с.к.о. значения y(xf)):
Тогда доверительный интервал для прогнозного значения y(xf) с уровнем надежности (1-α):
Критическое значение tα,n-2 (для двусторонней критической области) в Excel можно найти с помощью формулы:
= СТЬЮДЕНТ.ОБР.2Х(уровень значимости; размер выборки - 2)
9. Регрессионный анализ в Excel можно провести с помощью надстройки "Анализ данных". Предварительно ее потребуется установить (см. практику 1). Инструкция по установке:
https://support.office.com/ru-ru/article/Загрузка-пакета-анализа-в-excel-6a63e598-cd6d-42e3-9317-6b40ba1a66b4
Следует поставить флажок «Метки» и выделить диапазоны значений зависимой переменной Y и независимой переменной X вместе с заголовками. При желании можно в дополнение к 95%-ным доверительным интервалам построить доверительные интервалы с другой надежностью.
10. Выполнение в Gretl
Загрузив перекрестные данные из Gretl, предварительно построим диаграмму рассеяния: Вид – График – Разброс X-Y:
Нажав ОК, получаем:
Для проведения регрессионного анализа: Модель – Ordinary Least Squares
Выбираем зависимую и переменную Y и регрессор X:
Получаем отчет о регрессионном анализе, где проведены все рассмотренные нами тесты:
Ковариационная
матрица оценок
:
Анализ – Матрица коэффициентов
ковариации:
Доверительные интервалы для коэффициентов: Анализ – Доверительные интервалы для коэффициентов:
Если требуется получить доверительный интервал с другим уровнем надежности, то следует нажать на кнопку Доверительный уровень и выбрать нужный уровень надежности:
Доверительные интервалы для математического ожидания и наблюдаемого значения Y можно получить следующим образом: Анализ – Прогнозы – Выбирается уровень надежности и тип интервала (для среднего / для наблюдаемого):
Получаем:
Чтобы получить прогноз для Y при каком-нибудь значении переменной X=xf следует закрыть модель, а затем: щелкнуть правой кнопкой мыши по переменной X – Изменнить значения.
Далее: Добавить – Добавить наблюдение – Указываем, сколько новых наблюдений следует добавить – Дописываем наблюдение и нажимаем Enter – Применить.
Строим модель заново, после чего: Анализ – Прогнозы – Строим прогноз для добавленного наблюдения (101-го):
