Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика 1 лекция / Метод_указ_Эко_лр_7_8_.doc
Скачиваний:
108
Добавлен:
02.04.2015
Размер:
1.93 Mб
Скачать

Задание

Для ряда регионов представлена информация об объёмах Y (у.е.) продаж фирмы «Галактика» и ее затратах на рекламу в этих регионах  – X1, а также индекс потребительских доходов в этих регионах  – X2. Построить и оценить линейную модель множественной регрессии по плану, приведенному в примере, изложенном выше.

Исходные данные взять из файла «Econometric_LabRab_7.xls».

Лабораторная работа 8. Фиктивные переменные в множественной регрессии

Цель: освоить на практике построение моделей множественной регрессии при включении в неё качественных объясняющих переменных.

Теоретические сведения

Чаще всего в качестве факторов (объясняющих переменных) в регрессионных моделях рассматриваются экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные должны быть преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными(“dummy variables”). Фиктивность состоит в том, что количественная переменная описывает качественный признак. В отечественной литературе можно встретить термины «структурные переменные» или «индикаторные переменные».

Фиктивными переменные, принимающие ровно два значения называются дихотомическими или бинарными.

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. По идее, можно построить уравнение регрессии для каждого элемента совокупности, а затем изучать различия между ними, но введение фиктивных переменных позволяет исследовать одно уравнение сразу для всех элементов совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

Пример 1.

Рассмотрим применение фиктивных переменных для описания аварийности на перекрестке автомобильных дорог в зависимости от интенсивности движения и освещенности в различное время суток (возможные значения - дневное или ночное время). Предположим, что изучается линейная зависимость, которая в общем виде для совокупности обследуемых перекрестков имеет вид:

где y - количество аварий;

x – интенсивность движения(автомобилей/мин).

Аналогичные уравнения могут быть найдены отдельно для дневного времени:

и ночного:

Различия в количестве аварий в зависимости от времени суток может проявиться в различии средних и. Вместе с тем сила влиянияx наy может быть одинаковой, т.е.

Положим

В этом случае возможно построение общего уравнения регрессии с включением в него фактора «время суток» в виде фиктивной переменной.

Например, включать в модель фактор «время суток» в виде фиктивной переменной можно в следующем виде:

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменном значении остальных параметров. На основе t-критерия Стьюдента делается вывод о значимости влияния фиктивной переменной, существенности расхождения между категориями.

Предположим, что определено уравнение (т.е. методом наименьших квадратов вычислены коэффициенты A,С1иb).

Теоретические значения размера аварийности в дневное время будут получены из уравнения

Для ночного времени соответствующие значения получим из уравнения

Сопоставляя эти результаты, видим, что различия в уровне аварийности для ночного и дневного времени состоят в различии свободных членов данных уравнений: – для ночного и– для дневного.

В этом примере существенным является, то, что угловые коэффициенты наклона прямых регрессии были приблизительно одинаковыми, т.е. выполнялось соотношение

Однако в общем случае это не так, поэтому целесообразно учесть взаимодействие между факторами. Этот учет взаимодействия достигается путем введения в модель дополнительного слагаемого:

После того, как уравнение будет построено, следует последовательно проверить ряд гипотез:

1. Гипотеза . Альтернативная гипотеза. Если гипотезабудет принята, то можно пользоваться одной моделью независимо от значения фиктивной переменной. Если будет принята гипотеза, то приходим к выводу, что модели не одинаковы.

2. Если гипотеза будет отвергнута, то можно проверитьгипотезу. Еслипринимается, то заключаем, что уравнения регрессии имеют одинаковые углы наклона и отличаются только свободным членом.

Если качественный признак принимает не два, а большее количество значений, то вводится не одна, а несколько фиктивных переменных по схеме, приведенной ниже.

Допустим, что требуется исследовать зависимость цены (Y) квартиры от ее площади (X) и типа дома (блочный, кирпичный, монолитный).

Фактор «тип дома» можно включить в модель в виде двух фиктивных переменных в следующем виде:

т.е. блочному дому соответствует комбинация (z1z2)=(1, 0) , кирпичному дому соответствует комбинация (z1z2)=(0, 1) , а монолитному дому соответствует комбинация (z1z2)=(0, 0) .

Пример 2.

Исследовать зависимость цены (Y)квартиры от ее площади (X) и типа дома (блочный, кирпичный). Таблица с данными приведена на рис.8.1.

Требуется:

1). Оценить визуально, построив соответствующие облака рассеяния величины Yв зависимости отХ, целесообразность использования линейного уравнения регрессии.

2). Построить модель (Модель - 0.), которая не содержит фиктивной переменной,

,

оценить ее качество. Проанализировать коэффициенты уравнения.

3). Построить две раздельные модели (Модель - 1 и Модель - 2), которые не содержат фиктивной переменной. При этом Модель - 1: , только по данным, относящимся к блочным домам. Модель - 2:, только по данным, относящимся к кирпичным домам.

Рис.8.1.

Проанализировать коэффициенты уравнений и сравнить их между собой.

4). Построить Модель - 3, которая учитывает площадь и тип дома в едином уравнении множественной регрессии (ввести фиктивную переменную - Z-  тип дома). Провести анализ этого уравнения, оценить значимость его параметров, пояснить их экономический смысл.

Решение.

К пункту 1.

Построим облако рассеяния данных(X-Y). (рис.8.2)

Рис.8.2.

Очевидно, что в этом облаке явно можно выделить две группы точек, одна из которых соответствует блочным домам, другая кирпичным.

К пункту 2.

Построим модель (Модель - 0.), которая не содержит фиктивной переменной.

Для определения коэффициентов воспользуемся графическими возможностями EXCEL и надстройкой «Пакет анализа»-«Регрессия». Результаты приведены на рис.8.3-8.4.

Рис.8.3.

Рис.8.4

Уравнение примет вид Y=1175.7X-1456.5

Анализ полученных результатов показывает следующее:

Коэффициент детерминации R2= 0.77 и он значим.

Свободный член (Y-пересечение) равен 1456.5 и он не значим.

Коэффициент b, равный 1175.7, значим. Этот коэффициент имеет простой экономический смысл - стоимость квадратного метра жилья без учета типа дома.

К пункту 3.

Построим еще две модели (Модель - 1 и Модель - 2.), которые не содержат фиктивной переменной.

При этом Модель - 1 будет построена только по данным, относящимся к блочным домам.

При этом Модель - 2 будет построена только по данным, относящимся к кирпичным домам.

Для определения коэффициентов воспользуемся графическими возможностями MSExcel и надстройкой «Пакет анализа» -«Регрессия».

Для Модели - 1 результаты приведены на рис.8.5-8.6.

Рис.8.5

Рис.8.6

Уравнение примет вид Y=997.7X+206.6.

Анализ полученных результатов показывает следующее:

R2-= 0.99 и значим.

Свободный член (Y-пересечение) равный 206.6 не значим.

Коэффициент bравный 997.7, значим. Это значение имеет простой экономический смысл -стоимость квадратного метра жилья в домах блочного типа.

Для Модели - 2 результаты приведены на рис.8.7-8.8.

Рис.8.7

Рис.8.8

Уравнение примет вид Y=1296.4X+145.

Анализ полученных результатов показывает следующее:

R2-= 0.99 и этот коэффициент значим. Свободный член (Y-пересечение) равен 145 и он не значим. Коэффициентbравен 1296.4, он значим. Это значение имеет простой экономический смысл –стоимость квадратного метра жилья в кирпичных домах.

Сравним три модели (Модель - 0, Модель - 1 и Модель - 2.) между собой (табл.8.2.) .

Таблица 8.2.

 

 

Модель-1

Модель-2

Модель-0

Y-пересечение

не значим

206.6087862

145.0133857

-1456.5196

Стоимость, кв.м

значим

997.7292019

1296.382158

1175.70579

R-квадрат

значим

0.999

0.999

0.78

Заметим, что стоимость квадратного метра различается в зависимости от типа дома (приблизительно 1000 и 1300 у.е. соответственно) и существенно различаются между собой.

Заметим, что для Модели - 0 R2=0,78 существенно ниже, чем для Модели - 1 и Модели - 2. Т.о. Модели - 1 и  - 2 описывают ситуацию существенно лучше, чем единое уравнение в Модели - 0.

К пункту 4.

Попытаемся учесть влияние типа дома в едином уравнении.

Рассмотрим модель, которая содержат фиктивную переменную Z.

Модель - 3: Введем фиктивную переменную

Рассмотрим уравнение регрессии в виде

Поскольку стоимость квадратного метра существенно отличается, это учтено введением слагаемого .

Для определения коэффициентов воспользуемся надстройкой «Пакет анализа» -«Регрессия». Для этого введем новую колонку для переменной (фактора) XZ (рис.8.9).

Рис.8.9

Результаты приведены на рис.8.10.

Получено уравнение:

Учет значимости коэффициентов проведен традиционным способом (рис.8.10).

Рис.8.10

Вывод:С учетом значимости коэффициентов уравнение может быть записано в виде

Это уравнение имеет простой экономический смысл: стоимость квадратного метра в блочном доме 1000 (997,7) у.е., а в кирпичном стоимость квадратного метра на 300 (298.6) у.е. больше. Все коэффициенты в уравнении значимы.