Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА.doc
Скачиваний:
17
Добавлен:
30.04.2019
Размер:
3.68 Mб
Скачать

Контрольные вопросы

  1. Как определяются:

  • функциональная связь;

  • статистическая связь;

  • корреляционная связь;

  • причинно-следственная связь между показателем и фактором?

  1. В чем отличие статистической и причинно-следственной связи? Приведите примеры.

  2. Какие типы данных Вы знаете? Что такое объем выборки и размерность выборки? Приведите примеры.

  3. Какую выборку называют репрезентативной?

  4. Что такое:

  • линия регрессии;

  • регрессор и регрессант?

  1. Приведите выражения для спецификации модели временного ряда и регрессионной модели. Чем они отличаются? Приведите примеры трендов и регрессионных моделей в экономике и финансах.

  2. Дайте определение:

  • модели парной и множественной регрессии;

  • линейной и нелинейной модели.

8. Что такое системы регрессионных уравнений? Приведите примеры.

2. Двухмерная модель линейной регрессии

Двухмерная модель линейной регрессии (МЛР) является наиболее простой и достаточно распространенной моделью парной регрессии. Действительно, нет проще функции, чем двухмерная линейная функция (уравнение прямой линии). Она весьма наглядна и допускает графическую интерпретацию результатов. Кроме того, при линейной аппроксимации легко удается получить минимальную среднеквадратичную ошибку моделирования. Наконец, линейная модель дает результаты анализа, приемлемые и для нелинейных моделей после их линеаризации (см. главу 6).

Рассмотрим основные задачи моделирования:

  • построение модели (определение её параметров);

  • оценку ошибок параметров модели;

  • определение среднего значения прогноза показателя и ошибок прогнозирования;

  • определение существенности (значимости) статистической связи между фактором и показателем (результатом).

2.1. Определение параметров млр. Метод наименьших квадратов

Модель парной линейной регрессии является по существу линейной аппроксимацией (приближением) реальной линии регрессии y(x) как условного математического ожидания случайного показателя Y. Спецификация модели может быть записана согласно (1.1), (1.2) как

(2.1)

Здесь предполагается, что  и  – точные значения параметров модели, xi – известные выборочные значения фактора, i – случайные ошибки модели в i-й точке с вероятностными свойствами генеральной совокупности. Очевидно, случайные значения показателя yi при этих условиях имеют то же распределение, что и ошибки i (со смещением + xi).

Поскольку на практике вместо генеральной совокупности нам приходится иметь дело с выборкой ограниченного объема n, взамен (2.1) удается получить основанное на выборочных данных приближение

, (2.2)

где параметры a и b модели являются лишь некоторыми оценками точных значений параметров α и β. Двухмерная МЛР (аппроксимирующая функция) описывается уравнением прямой линии

,

где множитель b называется коэффициентом регрессии, а величина а постоянной составляющей линии регрессии. Прямая линия должна проходить так, чтобы по отношению к точкам выборки объема n

обеспечить минимальную среднеквадратичную ошибку (СКО). Метод определения параметров модели с минимальной СКО называется методом наименьших квадратов (МНК или LSM – Least Squares Method в англоязычной литературе).

Множество точек выборки {X,Y}(n) на графике рис.2.1 в декартовых координатах х,у называют диаграммой рассеяния.

Для каждой точки выборки ошибка результата выборки (остаток регрессии) согласно (2.2) равна

.

Эта ошибка для i-й точки представлена на рис.2.2.

Рис.2.1

Рис.2.2

Средний квадрат ошибок а ппроксимации пропорционален сумме квадратов ошибок

.

Эту свертку называют функционалом ошибок. Определим оценки a и b параметров модели c помощью метода наименьших квадратов (МНК). Так как a и b пока неизвестны, заменим их переменными a →  и b → . Их вариации позволят найти оптимальные по заданному критерию оценки.

Функционал ошибок как функция  и  имеет вид

. (2.3)

Рис.2.3

В трехмерном пространстве с координатами основания  и  эта функция представляет собой поверхность с параболическими сечениями, рис.2.3. Абсолютный минимум параболической функции (2.3) при вариации  и  имеет место в точке нулевых частных производных. Для точки абсолютного минимума функции F(, ) получим систему двух линейных относительно  и  уравнений

, (2.4)

. (2.5)

Решение этой системы линейных уравнений дают оценки МНК а и b значений параметров модели. На рис.2.3 они показаны как проекции точки минимума функции F(, ) на координатные оси  и  основания. Эти оценки могут тем больше отличаться от точных значений α и β, чем меньше объем выборки n по сравнению объемом генеральной совокупности N. Абсолютная точность оценок достигается в предельном случае (n → N, при этом а → α, b → β). Отметим, что по условиям анализа спецификации модели (2.1)  и  – фиксированные параметры, но в функции (2.3) мы их рассматриваем варьируемыми переменными для нахождения оптимальных выборочных оценок.

Из уравнения (2.4), в частности, следует, что суммарная ошибка аппроксимации (сумма остатков регрессии)

.

Кроме того, это уравнение дает соотношение между выборочными средними арифметическими значениями фактора и показателя :

, (2.6)

.

Отсюда ясно, что модель линейной регрессии y* = a + bx, построенная согласно МНК, проходит через точку средних значений .

Значение теоретической прямой в i-й точке yi* = a + bxi. Вычитая из этого уравнения (2.6), получим связь между центрированными величинами (отклонениями):

, (2.7)

где – отклонения модели и фактора от их средних значений.

Следовательно, отклонения от средних значений показателя и фактора связаны коэффициентом регрессии b. Это соотношение будет использовано в корреляционном анализе.

Решение системы уравнений (2.4), (2.5) относительно α и β с учетом (2.6) имеет вид

, (2.8)

. (2.9)

Формула (2.8), в частности, может быть получена умножением уравнения (2.4) на с последующим вычитанием из него уравнения (2.5). Решения (2.8), (2.9), напомним, являются выборочными оценками МНК параметров МЛР. Для различных выборок параметры а и b могут принимать разные значения, концентрирующиеся вблизи точных значений α и β. Поэтому при статистическом анализе оценки параметров а и b рассматриваются как случайные величины. В математической статистике такие оценки часто обозначают как = а и = b. При этом оговаривается, по какому критерию оптимизации получена данная оценка. Мы, как отмечалось, пользуемся оценками МНК с наименьшими среднеквадратичными ошибками. Точностные характеристики этих оценок будут рассмотрены в п.2.4.

Знаменатель в выражении (2.8) пропорционален выборочной дисперсии фактора

, (2.10)

а числитель пропорционален выборочному моменту корреляции между величинами X и Y

. (2.11)

Часто (особенно в англоязычной литературе) корреляционный момент (2.11) называют ковариацией [1, 4 – 7].

С учетом последних соотношений оценку коэффициента регрессии можно выразить как

, (2.12)

где – отклонения фактора и показателя в i-й точке от средних выборочных значений.

После определения коэффициента регрессии b по формуле (2.8) или (2.12) рассчитывается постоянная составляющая согласно (2.9).

Пример 2.1. Пусть выборочные данные расходов на питание yi (в условных единицах) при доходах семьи xi (в у. е.) для 5 типовых семей со средним достатком определены верхними двумя строками таблицы 2.1. На основе этих данных необходимо построить модель парной линейной регрессии, т.е. найти оценки параметров МЛР и изобразить график модели на фоне выборочных точек.

Расчеты параметров а и b модели линейной регрессии по формулам (2.8) и (2.9) сведем в таблицу 2.1. Последний столбец таблицы суммирует элементы в строках.

Таблица 2.1

Номер семьи i

1

2

3

4

5

Расходы yi, у.е.

2

1

3

3

6

15

Доходы xi, у.е.

4

3

5

8

10

30

xi2

16

9

25

64

100

214

xiyi

8

3

15

24

60

110

–1

–2

0

0

3

0

–2

–3

–1

2

4

0

2

6

0

0

12

20

1

4

0

0

9

14

4

9

1

4

16

34

y*i

1,8235

1,2353

2,4118

4,1765

5,3529

ei = y*i yi

-0,1765

0,2353

-0,5882

1,1765

-0,6471

0

ei2

0,031

0,055

0,346

1,384

0,419

2,235

Средние арифметические показателя и фактора определяются из выборочных данных

.

По результатам расчета сумм согласно (2.8), (2.9) (4-я и 5-я строки таблицы 2.1) находим

.

Во многих случаях более удобными оказываются расчеты параметров МЛР через отклонения согласно (2.12), (2.9). Отклонения показателя и фактора, а также их свертка и квадраты отклонений фактора приведены в (6 – 9)-х строках таблицы 2.1. По формуле (2.12) имеем тождественный результат для коэффициента регрессии

.

Таким образом, уравнение модели линейной регрессии можно записать в виде

.

П рямая линия, определяющая МЛР, изображена на рис.2.4. Она проходит через точку средних значений (6, 3) и точку (0, а = 0,5294). Здесь же изображены выборочные точки, от которых модель отклоняется наименьшим образом (с наименьшей СКО).

Рис.2.4

Коэффициент регрессии b имеет смысл производной функции y*(x), т.е. является отношением приращений y/x. При b > 0 говорят о положительной регрессии, при b < 0 – об отрицательной. В нашем примере смысл коэффициента регрессии b означает положительный прирост расходов на питание в 0,5882 у. е. при приросте доходов семьи на 1 у. е.

Постоянная составляющая а модели дает значение показателя у* при нулевом значении фактора х = 0. В примере 2.1 значение а оказалось отрицательным, т.е. в отсутствии доходов семья не только не потребляет, но еще и кормит кого-то. Этот пример говорит лишь о том, что всякая эконометрическая модель может адекватно отображать закономерную взаимосвязь явлений в весьма ограниченных пределах. Обычно эти пределы близки к границам выборочных данных.

Рассчитаем ошибки модели в точках выборки:

.

Результаты расчетов приведены в последних строках таблицы 2.1. Суммарная ошибка моделирования , что отвечает равенству (2.4) как одному из необходимых условий применения метода наименьших квадратов. Заметим, что условию могут отвечать бесконечное множество прямых линий, проходящих через точку с координатами .

Второе равенство (2.5) позволяет вместе с первым получить наименьшую сумму квадратов ошибок и обеспечить тем самым наиболее близкую линейную аппроксимацию (приближение) выборочных точек.