Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 2_эконометрика.doc
Скачиваний:
3
Добавлен:
17.08.2019
Размер:
182.78 Кб
Скачать
    1. Качество оценки: коэффициент r2.

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у).

В парном регрессионном анализе мы пытаемся объяснить поведение у путем определения регрессионной зависимости у от выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение уi в каждом наблюдении на две составляющих — и еi.

yi = + ei (2.18)

Величина расчетное значение у в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению x в данном наблюдении. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Используя уравнение (2.18), разложим дисперсию у:

Var (y) = Var ( + e ) = Var ( ) + Var(e) + 2Cov ( ,e) (2.19)

Далее, Cov ( ,е) должна быть равна нулю. Следовательно, мы получаем:

Var (y) = Var ( ) + Var (e) (2.20)

Это означает, что мы можем разложить Var (у) на две части: Var ( ) часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var (е) — «необъясненную» часть.

Согласно (2.20), Var ( )/ Var (у) — это часть дисперсии y, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают R 2.

(2.21)

что равносильно

(2.22)

Слова «объясненный» и «необъясненный» взяты в кавычки, так как объяснение, в сущности, может быть мнимым. В действительности у может зависеть от какой-то другой переменной z, и х может действовать как величина, замещающая z . Поэтому вместо слова «объясненный» здесь лучше употреблять выражение «представляющийся объясненным».

Максимальное значение коэффициента детерминации равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что = уi для всех i и все остатки равны нулю. Тогда Var ( ) = Var (у), Var (е) = О и R2 = 1.

Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и b, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и b должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.22) используется как определение коэффициента R2. Отметим сначала, что

ei = yi - = yi - a -bxi (2.23)

откуда, беря среднее значение еi по выборке и используя уравнение (2.10), получим:

(2.24)

Следовательно,

(2.25) Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.10). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.22) автоматически максимизируется коэффициент R.2.

Альтернативное представление коэффициента R2

На интуитивном уровне представляется очевидным, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между у и , который мы обозначим (заметим, что Cov (е, у) = 0.

(2.26)

Вопросы для повторения

1. Раскройте понятие уравнения регрессии.

2. Что такое «остатки» в регрессионной модели, и каковы причины их существования?

3. Поясните сущность метода наименьших квадратов.

4. Как выглядит система нормальных уравнений в случае парной линейной регрессии?

5. Какие способы определения коэффициента регрессии Вы знаете?

6. Какова интерпретация коэффициента регрессии?

7. Есть ли смысловая интерпретация у свободного члена уравнения парной линейной регрессии?

8. Что показывает коэффициент детерминации?

9. Напишите смысловую формулу коэффициента детерминации.

10. Как связан коэффициент детерминации с линейным коэффициентом корреляции?

1 - доказательство формул (2.9) и (2.10) требует знания основ дифференциального исчисления и здесь не приводится, поэтому принимаем формулы расчета коэффициентов регрессии на веру.

10