- •Эконометрика Конспект лекций для студентов Содержание
- •Раздел 1. Основы регрессионного анализа 3
- •Раздел 2. Множественная регрессия 16
- •Раздел 1. Основы регрессионного анализа
- •1.1. Предмет и цель исследований эконометрики. Основные понятия
- •1.1.1. Сущность и история возникновения эконометрики
- •1.1.2. Основные понятия эконометрики
- •1.1.3. Эконометрические модели
- •1.1.4. Парная линейная регрессия
- •1.2. Оценка параметров парной линейной регрессии. Метод наименьших квадратов (мнк).
- •1.2.1. Мнк для парной линейной регрессии
- •1.2.2. Условия Гаусса-Маркова (предпосылки мнк)
- •Теорема Гаусса-Маркова.
- •1.2.3. Коэффициенты корреляции и детерминации
- •1.3. Оценка существенности уравнения регрессии и его параметров. Прогнозирование в линейной регрессии
- •1.3.1. Оценка значимости по критериям Фишера и Стьюдента
- •1.3.2. Прогнозирование в линейной регрессии
- •1.3.3. Ошибки аппроксимации
- •Раздел 2. Множественная регрессия
- •2.1. Отбор факторов и выбор формы уравнения множественной регрессии
- •2.1.1. Требования к отбору факторов
- •2.1.2. Фиктивные переменные
- •2.1.3. Ошибки спецификации
- •2.2. Традиционный метод наименьших квадратов для множественной регрессии. Частная и множественная корреляция
- •2.2.1. Мнк для множественной регрессии
- •2.2.2. Частные уравнения, частная корреляция
- •2.2.3. Коэффициенты множественной корреляции и детерминации
- •2.2.4. Оценка значимости уравнения множественной регрессии
- •2.3. Нелинейная регрессия. Линеаризация нелинейной регрессии
- •2.3.1. Виды нелинейной регрессии
- •2.3.2. Линеаризация
- •2.3.3. Критерий Чоу
- •2.3.4. Метод наименьших квадратов для нелинейных регрессионных моделей
- •2.3.5. Корреляция для нелинейной регрессии. Коэффициенты эластичности
- •2.3.6. Оценка существенности нелинейной регрессии
1.3.2. Прогнозирование в линейной регрессии
После построения уравнения регрессии, и проверки его значимости можно применять это уравнение для прогнозирования. Однако при этом существуют свои особенности.
Используя уравнение регрессии, можно получить предсказываемое значение результата ( yр ) с помощью точечного прогноза при заданном значении фактора хр, т.е. надо просто подставить в уравнение уx = а + bх соответствующее значение х. Однако точечный прогноз не дает требуемых представлений, поэтому дополнительно строится его интервальная оценка, а для этого осуществляться определение стандартной ошибки предсказываемого значения тур .
Доверительный интервал для прогнозируемого значения рассчитывается следующим образом:
,
где
- предельная ошибка прогноза.
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза фактора х. Его величина может задаваться на основе исследования других моделей в зависимости от конкретной ситуации, а также по результатам анализа динамики данного фактора.
1.3.3. Ошибки аппроксимации
Практически всегда фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Чем меньше это отличие, тем ближе будут теоретические значения подходить к эмпирическим, следовательно, тем лучше подобрано уравнение регрессии. Величина отклонений фактических значений от расчетных результативного признака (у - yх) по каждому наблюдению представляет собой абсолютную ошибку аппроксимации. Число ошибок соответствует размеру совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю (когда в одном наблюдении фактическое и теоретическое значения результата совпадают). Отклонения (у- yх) несравнимы между собой за исключением величины, равной нулю.
Для сравнения отклонений относительно фактических значений используются их величины, выраженные в процентах. Поскольку (у - yх) может быть как положительной, так отрицательной величиной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю
Эти ошибки уже поддаются сравнению, но они оценивают каждое наблюдение в отдельности. Такую ошибку принято называть относительной ошибкой аппроксимации.
Чтобы оценить качество модели в целом, можно определить среднюю ошибку аппроксимации, представляющую собой среднее арифметическое относительных ошибок аппроксимации по всем наблюдениям, включаемым в модель:
Модель считается подобранной достаточно хорошо, если средняя ошибка аппроксимации не превышает 8-10%.
Раздел 2. Множественная регрессия
2.1. Отбор факторов и выбор формы уравнения множественной регрессии
2.1.1. Требования к отбору факторов
Несмотря на то, что парная линейная регрессия легко интерпретируется, в действительности она встречается очень редко, поэтому более широкое применение получила множественная регрессия. Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Но поведение отдельных экономических переменных контролировать нельзя, т.е. равенство всех прочих условий для оценки влияния одного исследуемого фактора обеспечить не удается. В этом случае следует попытаться выявить влияние других факторов, введя их в модель. Естественным продолжением парной линейной регрессии является множественная линейная регрессионная модель с р переменными:
y = a +b1x1 + b2x2 + … + bpxp + ε
Каждый фактор xi представляет собой набор из п наблюдений по одному и тому же признаку. Коэффициенты bi - это частные производные у по факторам xi:
при условии, что все остальные факторы постоянны.
Главная цель множественного регрессионного анализа заключается в построении модели с большим числом факторов и определении при этом влияния каждого из них в отдельности, а также их совокупности на моделируемый показатель.
Модель линейной множественной регрессии, для которой выполняются условия Гаусса - Маркова, называется нормальной линейной множественной регрессией. Приступая к построению множественной регрессии, исследователь в самом начале сталкивается с проблемами отбора факторов, которые будут учитываться в регрессионном уравнении, и выбором его вида. При отборе факторов существуют определенные правила, выполнение которых необходимо, иначе оценки параметров уравнения и оно само будут недостоверными и не отразят истинную связь результативного признака с факторными.
Факторы должны отвечать следующим требованиям:
1. Факторы должны быть количественно измеряемы. Если модель необходимо включить качественный фактор, не имеющий количественной меры, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место ее нахождения: районы могут быть проранжированы), наличию или отсутствию какого-либо признака также должно придаваться числовое значение (например, мужчина - 0, женщина - 1).
2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между каждым включаемым в модель фактором и результатом должен отличаться от нуля, причем на достаточно большую величину, что требуется для подтверждения наличия связи).
3. Факторы не должны быть тесно связаны между собой и тем более находиться в строгой функциональной связи (не должны коррелировать друг с другом).
Если между факторами существует высокая корреляция, то нельзя определить непосредственно влияние каждого из них на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми.
Отбор факторов для включения в модель обычно осуществляется в два этапа: на первом подбираются факторы в зависимости от экономической сущности проблемы (т.е. набор факторов определяется непосредственно самим исследователем), а на втором на основе матрицы парных коэффициентов корреляции устанавливается теснота связи для параметров регрессии.
Считается, что две переменные явно коллинеарны, т.е. линейно зависимы друг от друга, если rxixj≥0,7. Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется исключать из регрессии. Особенность исключения фактора состоит в том, что предпочтение отдается не более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами, включаемыми в модель. В требовании проявляется специфика множественной регрессии как метода исследования совокупного воздействия факторов в условиях их независимости друг от друга.
Однако матрица парных коэффициентов корреляции позволяет проследить лишь явную связь между факторами (попарно). Намного сложнее установить так называемую мультuколлuнеарность факторов, когда более чем два из них связаны между собой нестрогой линейной зависимостью. В связи с этим наибольшие трудности встречаются, когда необходимо выявить совокупное воздействие нескольких факторов друг на друга. Если при исследовании модели приходится сталкиваться с мультиколлинеарностью, то это означает, что некоторые из включаемых в модель факторов всегда будут действовать вместе.
На практике о наличии мультиколлинеарности судят по определителю матрицы парной межфакторной корреляции.
Предположим, что модель имеет следующий вид:
y = a +b1x1 + b2x2 + b3x3 + ε.
Построим для нее матрицу парной межфакторной корреляции и найдем ее определитель:
rх1х1 rх1х2
rх1х3
Det ІRІ = rх2х1 rх2х2 rх2х3
rх3х1 rх3х2 rх3х3
Если факторы вообще не коррелируют между собой, то определитель данной матрицы равняется единице, так как в этом случае:
rх1х1 = rх2х2 = rх3х3 = 1;
rхiхj = rхjхi ;
rх1х2 = rх1х3 = rх2х3 = 0,
и матрица единична, поскольку все недиагональные элементы равны нулю:
1 0 0
Det ІRІ = 0 1 0 = 1.
0 0 1
Если же наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:
1 1 1
Det ІRІ = 1 1 1 = 0.
1 1 1
Можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.
При наличии явной мультиколлинеарности в модель следует включать не все факторы, а только те, которые в меньшей степени влияют на мультиколлинеарность (при условии, что качество модели снижается при этом незначительно). В наибольшей степени «ответственным» за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).
При отборе факторов также рекомендуется соблюдать следующее правило: число включаемых в модель факторов должно быть в шесть-семь раз меньше объема совокупности, по которой строится регрессия.
