Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпаргалка по эконометрике.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
319.2 Кб
Скачать

9. Оценка параметров уравнения множественной регрессии (мр).

Оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК).

При его применении строится система нормальных уравнений, решение которой и

позволяет получить оценки параметров регрессии.

Так, для уравнения y=a+b1*x1+b2*x2+.+bp*xp+E система нормальных уравнений

составит:

∑y=n*a+b1*∑x1+b2*∑x2+.+bp*∑xp,

∑y*x1=a*∑x1+b1*∑x1^2+b2*∑x1*x2+.+bp*∑xp*x1,

..................

∑y*xp=a*∑xp+b1*∑x1*xp+b2*∑x2*xp+.+bp*∑xp^2.

Ее решение может быть осуществлено методом определителей:

a=∆a/∆, b1=∆b1/∆, .bp=∆bp/∆.

Где ∆ - определитель системы; ∆a, ∆b1,. ∆bp -

частные определители

При этом:

n ∑x1 ∑x2 .. ∑xp

∑x1 ∑x1^2 ∑x2*x1. ∑xp*x1

∆= ∑x2 ∑x1*x2 ∑x2^2 . ∑xp*x2

............

∑xp ∑x1*xp ∑x2*xp ..∑xp^2

a ∆a, ∆b1.∆bp получаются путем замены соответствующего

столбца матрицы определителя системы данными левой части системы.

Возможен иной подход к определению параметров, когда на основе матрицы парных

коэффициентов корреляции строится уравнение регрессии в стандартизованном

масштабе:

ty=B1*tx1+B2*tx2+.+bp*txp+E

Где ty, tx1.txp

-стандартизованные переменные: ty=(y-y cp)/σy

, tx1=(xi-xi cp)/σx

1,

для которых среднее значение равно нулю: ty cp = txi =0,

a ср. квадратическое отклонение равно единице: σty= σtx =1;

β - стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению МР в стандартизованном масштабе, после

соответствующих преобразований получим систему нормальных уравнений вида

Ryx1=B1+B2*Rx2x1+B3*Rx3x1+.+Bp*Rxpx1,

Ryx2=B1*Rx2x1+B2+B3*Rx3x2+.+Bp*Rxpx2,

........................

Ryxp=B1*Rxpx1+B2*Rxpx2+B3*Rx3xp+.+Bp.

Решая ее методом определителей, найдем параметры – стандартизованные

коэффициенты регрессии (В-коэффициенты). Они показывают, на сколько сигм

изменится в среднем результат, если соответствующий фактор хi изменится на

одну сигму при неизменном среднем уровне других факторов. В силу того, что

все переменные заданы как центрированные и нормированные, стандартизованные

коэффициенты регрессии Вi сравнимы между собой. Сравнивая их друг с другом,

можно ранжировать факторы по силе их воздействия на результат. В этом

основное достоинство стандартизованных коэффициентов регрессии в отличие от

коэффициентов «чистой» регрессии, которые несравнимы между собой.

Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их

использовать при отсеве факторов - из модели исключаются факторы с

наименьшим значением Вj

        1. 4. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера: Dфакт - факторная сумма квадратов на одну степень свободы;  R2 — коэффициент (индекс) множественной детерминации;  n — число наблюдений; т — число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов);  Dост, - остаточная сумма квадратов на одну степень свободы. Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности введения его в модель. Мерой для оценки включения фактора в модель служит частный F-критерий, т. е. Fxi Частный F-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом.  С помощью частного F-критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор хi- был введен в уравнение множественной регрессии последним. Частный F-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину Fxi, можно определить и t-критерий для коэффициента регрессии при i-м факторе, tbi, а именно  . Оценка значимости коэффициентов чистой регрессии по t-критерию Стьюдента может быть проведена и без расчета частных F-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула  где bi, - коэффициент чистой регрессии при факторе xi mbi - средняя квадратическая ошибка коэффициента регрессии bi,. Для уравнения множественной регрессии   средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле: Где    среднее квадратическое отклонение для признака у; — коэффициент детерминации для уравнения множественной регрессии; - среднее квадратическое отклонение для признака хi,;   - коэффициент детерминации для зависимости фактора хi со всеми другими факторами уравнения множественной регрессии; n-m-1 — число степеней свободы для остаточной суммы квадратов отклонений. Если величина частного F-критерия выше табличного значения, то это означает одновременно не только значимость рассматриваемого коэффициента регрессии, но и значимость частного коэффициента корреляции.  Проверка надежности парных линейных коэффициентов корреляции при помощи t-критерия Стьюдента производиться по формуле:  где Проверка надежности частных коэффициентов корреляции проводиться по формулам:  где 

        2. . Модель парной линейной регрессии Рассмотрим элементарный случай, когда экономическая модель состоит из одного уравнения, которое содержит только две переменные. Обозначив переменные через  и , мы постулируем между ними зависимость . На первом шаге мы лишь идентифицировали переменную , как оказывающую воздействие на другую переменную . Второй шаг состоит в спецификации формы связи между  и . (Под спецификацией взаимосвязи обычно понимают выбор формы уравнения и набора соответствующих переменных). Содержательные соображения или положения экономической теории могут привести к конкретному виду этой связи, однако простейшим соотношением является линейная как по независимой или объясняющей переменной , так и по неизвестным параметрам  и  модель .                                            (2.1) Возможны и другие формы связи между переменными  и :                        Третье из этих соотношений линейно относительно  и  (линейно относительно  и ), а первое и второе могут быть сведены к линейной форме для преобразованных переменных, если взять логарифмы от обеих частей   и   . Если ввести  и , то мы получим линейную зависимость вида (2.1). Подробнее вопрос о построении таких моделей мы рассмотрим в п. 2.7. Таким образом, в модели (2.1)  и  - постоянные, а  и  могут непосредственно или после логарифмических или иных преобразований представлять экономические переменные, например такие, как цены или спрос. Очевидно, что при таком подходе охватывается широкая область функциональных взаимосвязей между исходными экономическим переменными. Задача построения модели (2.1) состоит в определении значений неизвестных параметров  и  - их оценок - по имеющимся в нашем распоряжении данным так, чтобы полученное соотношение «наилучшим» образом описывало зависимость  от . В каком смысле будет пониматься «наилучшее» приближение реально наблюдаемых данных к их теоретическим ожидаемым значениям мы рассмотрим в п. 2.2. Здесь же отметим, что в действительности, имея набор значений двух переменных   ; и изображая пары  точками на координатной плоскости О(рис. 2.1), мы имеем разброс этих точек относительно реальной линии связи. Рис. 2.1. Диаграмма рассеяния и теоретическая линия связи Предположим, например, что мы изучаем зависимость между расходами на питание и доходом семей, используя данные о семейных бюджетах, относящиеся к некоторому фиксированному промежутку времени. Обозначим через  общую величину расходов на питание, а через  - объем распределяемого дохода. Соберем данные о бюджетах, допустим,  семей и образуем пары соответствующих измерений для величин . Предположим, что мы уже разделили семьи на группы по их размеру и составу и рассматриваем интересующую нас связь между  и  внутри конкретной группы (условие «однородности» наблюдений). Естественно, мы не ожидаем, что у всех семей этой группы, имеющих одинаковый доход, будут и одинаковые потребительские расходы. Одни потратят больше других, а некоторые, наоборот , меньше. Однако можно надеяться, что величины расходов сгруппируются вокруг некоторого значения, соответствующего тому объему дохода, о котором шла речь. Эта идея находит свое формальное воплощение в новой гипотезе о характере линейной зависимости:                                         (2.2) где  - случайная (или стохастическая) переменная, способная принимать и положительные, и отрицательные значения. Таким образом, если мы рассмотрим подгруппу семей, располагающих доходом , то средним значением их потребительских расходов окажется величина , в то время как реальные объемы потребления для семей в подгруппе будут , где случайная величина  измеряет отклонения потребительских расходов каждой отдельной семьи от среднего значения. Запишем уравнение зависимости (2.2) для  наблюдений  :     .                   (2.3) Здесь  - неслучайная (детерминированная) величина, а  - случайные величины;  - объясняемая (зависимая) переменная,  - объясняющая (независимая) переменная, фактор или регрессор. Уравнение (2.3) называется также регрессионным уравнением или линейной регрессионной моделью с двумя переменными (моделью парной регрессии). Какова природа случайной составляющей или ошибки ? Источниками ошибок могут быть разные причины:  Пропущенные объясняющие переменные. Соотношение между  и  почти наверняка является очень большим упрощением. В действительности существуют другие факторы, также влияющие на , которые не учтены в формуле (2.1). Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой (см. рис. 2.1). Часто возникают ситуации, когда мы не включаем в регрессионное уравнение переменные, только потому, что не знаем, как их измерить, например психологические факторы. Либо существуют также другие факторы, которые мы можем измерить, но которые оказывают такое слабое влияние, что их не стоит учитывать. Объединив все эти составляющие, мы и получаем то, что обозначено через .  Агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений. Например, функция суммарного потребления – это попытка общего выражения решений многих отдельных семей о расходах. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между совокупными потребительскими расходами и доходом является лишь аппроксимацией, Наблюдаемое расхождение при этом приписывается наличию случайной составляющей.  Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Например, если зависимость относится к данным о временном ряде, то значение  может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде. Если ожидаемое и фактическое значения тесно связаны, то будет казаться, что между  и  существует зависимость, но это будет лишь аппроксимация, и расхождение вновь будет связано с наличием случайной величины .  Неправильная функциональная спецификация. Функциональное соотношение между  и  математически может быть определено неправильно, т. е. сам вид функциональной зависимости выбран неверно. Например, мы рассматриваем зависимость между потребительскими расходами и доходом семей, используя линейную функцию, а истинная зависимость может быть более сложной, нелинейной.  Ошибки измерения. Ошибки могут сопровождать любые наблюдения или измерения экономических показателей. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки. В данном случае источниками ошибок являются особенности собранного материала (присущ элемент случайности). Таким образом, можно считать, что случайные величины  являются суммарным проявлением всех этих факторов. Сформулируем теперь те основные предпосылки или гипотезы, которые лежат в основе линейной регрессионной модели с двумя переменными. Основные гипотезы:   - спецификация модели.   - детерминированные величины, вектор не коллинеарен вектору . 3а.    - не зависит от . 3b.   при  - некоррелированность ошибок для разных наблюдений. Часто добавляется условие 3с.  , т. е.  - нормально распределенная случайная величина с математическим ожиданием или средним значением, равным нулю, и дисперсией . В этом случае модель называется нормальной линейной регрессионной. Для такой модели условие 3b. эквивалентно условию статистической независимости ошибок  при  [3]. Обсудим гипотезы, лежащие в основе линейной регрессионной модели. 1.  Спецификация модели отражает наше представление о механизме зависимости  от  и сам  выбор объясняющей переменной ; на линейный характер связи может указывать и разброс точек на диаграмме рассеивания. 2.  Величины  являются неслучайными или детерминированными, линейно несвязанными между собой. Если же в реальной ситуации их значения также представляются результатами измерений, то предполагается, что ошибки таких измерений пренебрежимо малы. 3а. Условие  означает отсутствие систематических ошибок, ошибки носят только случайный характер. Условие независимости дисперсий ошибок от номера наблюдений , , или однородности наблюдений называется также гомоскедастичностью; случай, когда , т. е. условие гомоскедастичности не выполняется. называется гетероскедастичностью. Ниже на рис.2.2 приведен пример типичного разброса точек для случая гомоскедастичности ошибок; на рис.2.3 - пример данных с гетероскедастичными ошибками. Рис. 2.2. Однородные наблюдения (,  ) Рис. 2.3. Неоднородные наблюдения (,) 3b. Условие , , указывает на некоррелированность ошибок, а в случае нормальной модели, и на независимость для разных наблюдений. Это требование оказывается вполне естественным в широком классе реальных ситуаций, особенно, если речь идет о пространственных данных (значения анализируемых переменных регистрируются на различных объектах: индивидуумах, семьях, предприятиях, банках, регионах и т. п.). Однако условие часто нарушается, когда наши данные являются временными рядами. В случае, когда это условие не выполняется, говорят об автокорреляции остатков. 3с. Так как можно считать, что случайная составляющая  в различных наблюдениях обусловлена суммарным аддитивным эффектом большого числа независимых случайных факторов, ни один из которых не является доминирующим, то обращение к центральной предельной теореме служит достаточным обоснованием выбора нормального распределения для нее. Источник: http://5fan.ru/wievjob.php?id=48525