Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по эконометрике- часть 3.doc
Скачиваний:
0
Добавлен:
03.12.2019
Размер:
250.37 Кб
Скачать

60

Оценка качества модели 46

Оценка качества подбора уравнения 46

Оценка тесноты связи моделируемого показателя с факторами 51

Проверка существенности связи и статистической значимости уравнения регрессии 56

Оценка существенности параметров линейных уравнений множественной регрессии 57

Частный критерий Фишера 58

Критерий Стьюдента 59

Доверительный интервал для параметра регрессии 59

Оценка качества модели Оценка качества подбора уравнения

Рассмотрим множественную регрессию, которую в общем виде можно записать следующим образом:

y

(3.1)

= f(x1, x2, …, xm) + ε = ,

где y – результативный признак;

= f(x1, x2, …, xm) – уравнение регрессии;

- значение результативного признака, рассчитанное по уравнению регрессии;

x1, x2, …, xm – признаки-факторы (m – число таких факторов);

ε – регрессионный остаток.

Уравнение регрессии объясняет вариацию результативного признака не полностью, а лишь частично; остается необъясненный остаток ε. Чем лучше в регрессионном уравнении подобрана функция f(X), отражающая регрессионную зависимость, тем меньше будут фактические значения показателя y отличаться от расчетных , т.е. тем меньше будет регрессионный остаток.

Приближение расчетных оценок к фактическим называют аппроксимацией, и чем они ближе, тем лучше построенное уравнение аппроксимирует реальный показатель.

Для оценки качества аппроксимации, т.е. качества подбора уравнения, рассчитывают ряд показателей.

Наиболее простой из них – абсолютная ошибка аппроксимации, т.е. разница между фактическим и расчетным значением результативного признака. Ее рассчитывают отдельно для каждого i-го наблюдения по формулам yi - = εi. Если отнести ее по модулю к фактическому значению, можно получить относительную ошибку аппроксимации, которую обычно выражают в процентах: . Для расчета средней относительной ошибки эту величину суммируют по всем наблюдениям (пусть число наблюдений равно n) и делят на число наблюдений: . Качество модели можно считать хорошим, если средняя относительная ошибка не превышает некоторого изначально заданного значения. Обычно берут 5-10%.

Более полную информацию об оценке полученного уравнения можно получить с помощью дисперсионного анализа, который предусматривает расчет общей, объясненной и остаточной дисперсий.

Общая дисперсия представляет собой дисперсию значений результативного признака и рассчитывается по формуле:

(3.2)

где n – число наблюдений;

y1, y2, … yn – значения результативного признака;

- его среднее значение.

Следует отметить, что общая дисперсия, рассчитанная по этой формуле, представляет собой не дисперсию выборки значений, а оценку дисперсии генеральной совокупности. В математической статистике доказывается, что если число элементов генеральной совокупности достаточно велико, то для получения несмещенной оценки ее дисперсии сумму квадратов отклонений от среднего делят не на число слагаемых n, а на число степеней свободы.

Для определения числа степеней свободы необходимо провести рассуждения о том, сколько единиц из всей совокупности наблюдений могут свободно варьировать относительно известного среднего. В данном случае это число наблюдений минус единица, т.е. (n – 1)1.

Общая сумма квадратов отклонений. В формуле (3.2) величина представляет собой общую сумму квадратов отклонений результативного признака. Обозначим ее Qобщ. Ее называют также общей или полной вариацией.

Остаточная дисперсия – это показатель вариации результата под влиянием всех неучтенных в модели факторов, необъясненная часть дисперсии. Она представляет собой средний квадрат регрессионных остатков и рассчитывается по формуле:

(3.3)

где – значения результативного признака, рассчитанные по уравнению регрессии;

– значения регрессионного остатка;

m - число факторов.

Можно доказать, что число степеней свободы для этой суммы квадратов тоже меньше числа наблюдений, причем меньше на число параметров регрессии. Для линейной регрессии число параметров равно (m + + 1): m коэффициентов при факторных переменных и свободный член. Поэтому в знаменателе из числа наблюдений n вычитается величина (m + 1).

Если бы имела место строгая функциональная зависимость между результатом и учтенными факторами, то регрессионные остатки всегда равнялись бы нулю. Тогда и остаточная дисперсия была бы равна нулю. Однако на практике такой ситуации обычно не встречается.

Остаточная сумма квадратов отклонений. В формуле (3.3) величина представляет собой остаточную сумму квадратов отклонений результативного признака. Обозначим ее Qост. Ее называют также остаточной вариацией.

Объясненная дисперсия (факторная дисперсия) – это показатель вариации результата под влиянием тех факторов, которые учтены в регрессионной модели. Она представляет собой средний квадрат разностей между значениями результативного признака, рассчитанными по уравнению регрессии, и средним фактическим значением этого признака. Она рассчитывается по формуле:

(3.4)

Число степеней свободы при расчете этого показателя равно числу параметров регрессии минус единица. Поэтому в знаменателе формулы стоит величина ((m + 1) – 1) = m.

Объясненная сумма квадратов отклонений. В формуле (3.4) величина представляет собой объясненную сумму квадратов отклонений. Обозначим ее Qобъясн.. Ее называют также объясненной или факторной вариацией.

Дисперсия на одну степень свободы. Дисперсию, рассчитанную по формулам (3.2)-(3.4) называют также дисперсией на одну степень свободы [Елисеева И.И., Курышева С.В., Костеева Т.В. и др. Эконометрика: Учебник. – М.: Финансы и статистика, 2001. – 344 с.], поскольку в знаменателе этих формул из общего числа слагаемых вычитают число слагаемых, которые не могут свободно варьировать.

Следует отметить, что число степеней свободы в знаменателе формул расчета общей, объясненной и остаточной дисперсий подчиняется следующему правилу: для общей дисперсии оно равно сумме двух остальных. В самом деле, n - 1 = m + (n – m – 1).

Еще раз отметим, что в формулах (3.2)-(3.4) число степеней свободы зависит от числа наблюдений и от вида уравнения регрессии (им определяется число параметров).

М

(3.5)

ожно доказать, что при наличии в уравнении регрессии свободного члена общая сумма квадратов всегда равна сумме объясненной и остаточной сумм квадратов [Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов – М.: ЮНИТИ-ДАНА, 2003. - 311 с.]:

Qобщ. = Qобъясн. + Qост..

Коэффициент детерминации. Отношение объясненной суммы квадратов к общей носит название коэффициента детерминации. Он рассчитывается как отношение объясненной суммы квадратов к общей по формуле:

(3.6)

Коэффициент детерминации показывает, какая доля вариации результативного признака объясняется построенным уравнением регрессии. Он может принимать значения от нуля до единицы (ноль – если связь отсутствует, и единица – если вариация результата объяснена полностью).

В самом деле, формула (3.6) представляет собой сравнение вариации теоретических значений результата относительно его средних значений (в числителе) и общей вариации фактических значений признака (в знаменателе). Иными словами, сравнивается объяснение значений результата с помощью уравнения регрессии с его объяснением линией .

Практическая значимость этого коэффициента заключается в том, что с его помощью можно оценить качество подбора уравнения регрессии и сравнивать между собой различные варианты моделей. Чем ближе значение коэффициента детерминации к единице, тем выше качество модели.

Однако в случае множественной регрессии коэффициент детерминации может быть затруднительно использовать для оценки модели, потому что он увеличивается при добавлении новых признаков-факторов, хотя такое добавление отнюдь не всегда улучшает модель. Чтобы избежать этого, рассчитывают скорректированный коэффициент детерминации (поправленный, адаптированный) по формуле:

(3.7)

Скорректированный коэффициент может уменьшаться при введении в модель дополнительных факторов, если они не оказывают существенного влияния на результат (с ростом числа факторов m велчина уменьшается по сравнению с R2).