0721_Hairullina_Ekonometrika_ProdUroven_Praktik_2021
.pdfСправочно. Когда требуется принять во внимание какойлибо качественный признак, возникает необходимость введения фиктивных переменных, т.е. искусственно построенных переменных.
Очень часто их называют dummy variables — дамми-пере- менные, или просто dummies — дамми. Они указывают на ка- кие-то временные промежутки, группы стран или регионов, служат для обозначения принадлежности субъекта к той или ной группе. Как правило, при наличии или принадлежности к группе ставится 1, а при отсутствии данного признака – 0.
Таким образом, дамми-переменная - это всего лишь переменная, которая принимает только два значения: 0 или 1, другие значения исключены.
Например, мы исследуем потребление в зависимости от доходов населения. Очевидно, что, обнаруженное влияние, ставит перед исследователем вопрос о том, оказывает ли влияние на потребление пол, возраст, образование и множество других аспектов.
Безусловно мы можем оценивать данные уравнения в отдельности, например, внутри каждой категории, а затем исследовать отличия. Однако введение таких дискретных переменных позволяет оценить одно единое уравнение сразу по нескольким категориям. Поэтому для оценки качественного фактора преследуются следующие цели:
-оценивание отдельных регрессий для каждой категории, затем определяется значимость и оценка коэффициентов;
-оценка единой регрессии с фиктивной переменной и измерением степени влияния качественного фактора.
С учетом фиктивной переменной модель регрессии примет следующий вид:
41
Y = a0 + a1 * X + δ1 * D + ε,
где 1 - коэффциент, который характеризет в среднем разницу между показателем, характеризующим качественную сторону исслдеуемого объекта.
Требуется:
-построить линейную регрессионную модель.;
-проверить значимость коэффициентов уравнения и самого уравнения регрессии;
-построить регрессионную модель у по х с использованием фиктивной переменной по полу;
-проверить значимость коэффициентов уравнения и самого уравнения регрессии;
-вычислить коэффициенты детерминации для обычной модели и модели с фиктивной переменной;
-сделать выводы о целесообразности введения фиктивной переменной.
Справочно. Методические указания к выполнению:
1. Для расчёта параметров а и b линейной регрессии ̂ =
a + b * x, следует составить систему нормальных уравнений:
.
Число наблюдений n =…..
Формат таблицы для выполнения необходимых расчетов (таблица 41).
42
Таблица 41
Данные для оценки регрессии
|
№ |
х |
у |
х2 |
у2 |
х*у |
|
|
|
Группа |
z (0 или 1) |
|
|
п/п |
|
|
|
по полу |
|
||||||
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
6 |
|
|
|
|
|
|
|
|
|
|
|
|
7 |
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
|
|
11 |
|
|
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
13 |
|
|
|
|
|
|
|
|
|
|
|
|
14 |
|
|
|
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
|
|
|
16 |
|
|
|
|
|
|
|
|
|
|
|
|
17 |
|
|
|
|
|
|
|
|
|
|
|
|
18 |
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
|
|
|
|
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. Среднее значение рассчитываем по формуле:
̅= ∑ .
2. Среднее квадратическое отклонение рассчитываем по формуле:
= √∑( − ̅)2.
3. Рассчитываем дисперсию:
2 = √∑( − ̅)2.
4. Параметры уравнения рассчитываем по формулам:
.
43
.
5.Составляем уравнение линейной регрессии.
6.Рассчитываем коэффициент парной корреляции:
.
7. Рассчитываем коэффициент детерминации:
.
8. Рассчитаем значимость коэффициентов уравнения и самого уравнения регрессии.
Для этого проверим гипотезу Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение Fфакт и Fтабл значений по F-крите- рию Фишера.
Fфакт определяется по формуле:
где n – число единиц совокупности;
m – число параметров при переменных х.
Сравниваем с табличным значением Fтабл, делаем вывод о статистической значимости.
9. Для оценки статистической значимости отдельных коэффициентов регрессии используем t-статистику Стьюдента и рассчитываем доверительный интервал.
Число степеней свободы df = n – 2 = 18 и α = 0,05. Определим случайные ошибки ma, mb, mrxy:
.
.
44
Фактические значения t-статистики определим по форму-
лам:
.
.
t-критерий для коэффициента корреляции можно рассчитать следующим способом:
.
Сравним фактические значения t-статистики с табличными значениями.
10. Введём в уравнение регрессии фиктивную переменную z для отражения принадлежности студента к группе, а именно: z = 1, для женщин и z = 0 для мужчин. Уравнение регрессии примет вид:
уxz = a + b*x + c*z + ɛ.
Используя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:
Ввиду того, что z принимает лишь два значения (1 и 0), Σz = n1 = 15 (число женщин), Σх*z =Σх1 =59,3 (сумма х по женщинам), Σz2 =Σz =15, Σy*z =Σy1 =58,5 (сумма у по женщинам).
Тогда система нормальных уравнений примет вид:
Решим уравнение регрессии и запишем его.
45
Рассчитаем коэффициент детерминации для данной модели по формуле:
.
Сравним значения по модели без фиктивной переменнной и с ней.
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, рассчитаем аналогично предыдущей модели по F-критерию Фишера:
Сравним фактическое значение F-критерия и табличное. Рассчитаем значимость коэффициентов регрессии по t-
критерию Стьюдента.
Сравним величину t-статистики коэффициентов регрессии с табличным.
Определяем значимость уравнения и надежность для дальнейшего анализа и прогноза.
Задание 3.2.7
Исходные данные. Имеются результаты исследования зависимости производства растительного масла в зависимости от среднемесячного дохода домашних хозяйств и цены за литр продукта. Модель имеет линейный вид:
y= β1+ β2INCi+ β3PRICEi+Ɛi,
где INCi - среднемесячный доход домашних хозяйств,
руб.;
PRICEi – цена за литр растительного масла, руб.
Была произведена выборка из 8 450 домашних хозяйств, при которой RSS = 5 236 000. В представленной выборке оказалось, что 6 500 домашних хозяйств относится к городскому населению. Рассматривая отдельно домашние хозяйства городского населения RSS составил 4 188 800, а сельского – 1 047 200.
46
Требуется:
- определить, имеет ли смысл вводить фиктивную переменную, чтобы учесть такие качественные различия, как принадлежность домашних хозяйств к городскому и сельскому населению.
Справочно. Для оценки используйте тестовую статистику и предположение о гипотезе.
Задание 3.2.8
Исходные данные: имеются следующие данные, представленные в таблице 42.
|
|
|
Таблица 42 |
|
|
Исходные данные |
|
|
|
№ |
Y |
Х1 |
Х2 |
|
1 |
280,51 |
254,68 |
0,17 |
|
2 |
230,48 |
358,46 |
0,09 |
|
3 |
296,82 |
393,37 |
0,09 |
|
4 |
315,76 |
396,88 |
0,14 |
|
5 |
272,03 |
403,80 |
0,09 |
|
6 |
352,09 |
407,97 |
0,14 |
|
7 |
292,58 |
431,36 |
0,07 |
|
8 |
270,54 |
462,27 |
0,12 |
|
9 |
444,47 |
464,02 |
0,17 |
|
10 |
518,27 |
468,22 |
0,14 |
|
11 |
508,67 |
471,75 |
0,21 |
|
12 |
372,78 |
482,39 |
0,07 |
|
13 |
735,81 |
533,23 |
0,17 |
|
14 |
748,40 |
564,53 |
0,14 |
|
15 |
612,88 |
575,41 |
0,19 |
|
16 |
650,75 |
590,13 |
0,14 |
|
17 |
615,89 |
595,42 |
0,17 |
|
18 |
635,97 |
600,04 |
0,21 |
|
19 |
734,87 |
738,26 |
0,19 |
|
20 |
723,96 |
741,83 |
0,19 |
|
Требуется:
-проверить гипотезу о наличии гетероскесдастичности в линейной регрессии с помощью теста Спирмена на уровне значимости 0,05 и 0,01;
-построить график зависимости остатков от фактора Х.
47
4. Анализ временных рядов
Цель практического занятия: усвоить вопросы, связан-
ные с основными типами трендов и их распознаванием.
4.1.Изучаемые вопросы
1.Понятие временных рядов.
2.Циклические колебания.
3.Компоненты временного ряда.
4.Непрерывность и дискретность рядов.
5.Цель анализа временных рядов.
6.Понятие автокорреляции и авторегрессии временного
ряда.
7.Виды автокорреляции.
8.Выявление автокорреляции по критерию Дарбина-Уо-
тсона.
9.Методы коррелирования.
10.Проверка гипотез о коинтеграции.
4.2.Практические задания
Задание 4.2.1
Исходные данные. Имеются данные об импорте продовольствия в РФ в период с 2001 по 2019 годы, представленные в таблице.
Таблица 43
Импорт продовольствия в РФ
Год |
2001 |
2002 |
2003 |
2004 |
2005 |
Импорт продовольствия, млрд долла- |
|
|
|
|
|
ров США |
4,47 |
4,69 |
5,53 |
5,91 |
7,42 |
Год |
2006 |
2007 |
2008 |
2009 |
2010 |
Импорт продовольствия, млрд дол- |
|
|
|
|
|
ларов США |
8,23 |
10,78 |
13,59 |
10,28 |
13,58 |
Год |
2011 |
2012 |
2013 |
2014 |
2015 |
Импорт продовольствия, млрд дол- |
|
|
|
|
|
ларов США |
16,03 |
16,79 |
18,99 |
17,69 |
10,63 |
Год |
2016 |
2017 |
2018 |
2019 |
|
Импорт продовольствия, млрд дол- |
|
|
|
|
|
ларов США |
10,95 |
13,07 |
13,92 |
14,65 |
48
График временного ряда представлен рисунком 6.
import
20
18
16
14
12
10
8
6
4
2002 |
2004 |
2006 |
2008 |
2010 |
2012 |
2014 |
2016 |
2018 |
Рисунок 6. Динамика импорта РФ
Справочно. Временной ряд (ряд динамики) — это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы:
1)факторы, формирующие тенденцию ряда;
2)факторы, формирующие циклические колебания ряда;
3)случайные факторы.
При наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда.
Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени.
49
Формула для расчета коэффициента автокорреляции имеет вид:
.
Аналогично можно определить коэффициенты автокорреляции второго и более высоких порядков. Так, коэффициент автокорреляции второго порядка характеризует тесноту связи между уровнями уt, и yt-2 и определяется по формуле:
.
Последовательность коэффициентов автокорреляции уровней первого, второго и т.д. порядков называют автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага (порядка коэффициента автокорреляции) называется коррелограммой.
Требуется:
- рассчитать несколько последовательных коэффициентов автокорреляции, используя вспомогательную таблицу для расчета.
Таблица 44
Исходные данные для расчёта коэффициента автокорреляции первого порядка
t |
yt |
yt-1 |
− ̅ |
|
− ̅ |
( − ̅ |
( − ̅ |
2 |
( |
− ̅ |
|||
|
|
|
|
1 |
−1 |
2 |
|
1) |
|
||||
|
|
|
|
|
|
|
|
|
|
1) |
|
−1 |
2) |
|
|
|
|
|
|
|
( |
− ̅ |
|
|
|
|
|
|
|
|
|
|
|
|
−1 |
2) |
|
|
|
|
|
1 |
|
х |
|
х |
х |
х |
|
|
х |
|
х |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Сумма |
|
|
|
|
|
|
|
|
|
|
|
|
|
Среднее |
|
|
|
х |
х |
х |
|
|
х |
|
х |
|
50