- •Эконометрика
- •Введение
- •1. Модели статистической взаимосвязи
- •1.1. Типы взаимосвязи между явлениями
- •1.2. Типы данных
- •1.3. Типы моделей
- •Контрольные вопросы
- •2. Двухмерная модель линейной регрессии
- •2.1. Определение параметров млр. Метод наименьших квадратов
- •2.2. Матричная форма записи при определении параметров млр
- •2.3. Корреляционный анализ млр
- •2.4. Оценка ошибок моделирования
- •2.4.1. Основные условия (гипотезы) анализа ошибок
- •2.4.2. Ошибки оценок параметров модели
- •2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
- •2.4.4. Оценка прогноза показателя и ошибок прогнозирования
- •2.5. Установление существенности связи на основе теории статистической проверки гипотез
- •2.5.1. Распределения случайных величин Нормальное распределение (Гаусса)
- •Распределение Пирсона (2-распределение)
- •Распределение Фишера
- •Распределение Стьюдента (t-распределение)
- •Статистическая проверка гипотез
- •Контрольные вопросы
- •3. Многомерная модель линейной регрессии
- •3.1. Определение параметров модели методом наименьших квадратов
- •3.2. Определение оценок параметров млр через отклонения (уменьшение числа уравнений системы до k – 1)
- •3.3. Статистические свойства оценок параметров млр
- •3.3.1. Условия анализа
- •3.3.2. Среднеквадратичные ошибки оценок параметров млр
- •3.3.3. Ошибки прогнозирования
- •3.4. Коэффициент детерминации многомерной млр
- •3.5. Определение существенности статистической связи между факторами и показателем
- •Контрольные вопросы
- •4. Мультиколлинеарность
- •4.1. Выражение для оценки параметров млр в стандартизованной форме
- •4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
- •4.2.1. Проверка на общую мультиколлинеарность
- •4.2.2. Проверка мультиколлинеарности между парами факторов
- •Контрольные вопросы
- •5. Автокорреляция
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Авторегрессионый процесс первого порядка
- •5.3. Тест Дарбина-Уотсона на автокорреляцию
- •Контрольные вопросы
- •6. Двухмерная модель нелинейной регрессии
- •6.1. Трехпараметрическая парабола
- •6.2. Двухпараметрическая парабола
- •6.3. Обзор двухпараметрических нелинейных моделей парной регрессии
- •Экспоненциальная модель
- •Логарифмическая модель
- •Гиперболическая модель
- •Контрольные вопросы
- •Литература
- •Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5
2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
П ри выполнении гипотез 1 – 4 параграфа 2.4.1 оценки а, b параметров МЛР, полученные методом наименьших квадратов, имеют минимальную дисперсию в классе линейных несмещенных оценок.
Д окажем эту теорему для дисперсии оценки коэффициента регрессии
.
Пусть
(2.38)
любая другая несмещенная оценка коэффициента регрессии. Положим
. (2.39)
Тогда из условия несмещенности оценок
следует, что
. (2.40)
Следовательно, дисперсия оценки (2.38) с учетом (2.39), (2.40) равна
.
Таким образом, любая другая несмещенная оценка параметра b дает дисперсию не меньшую, чем дисперсия оценки МНК. Это доказывает утверждение теоремы и оптимальность оценок МНК в классе линейных оценок.
2.4.4. Оценка прогноза показателя и ошибок прогнозирования
Всегда следует помнить, что одной из основных задач моделирования является в конечном итоге получить результат прогноза показателя Y для какого-то интересующего экономиста значения фактора хр (в точке прогноза). Скажем, при построении модели семейных расходов на питание в зависимости от числа членов семьи в выборку вошли семьи до 5 человек, а мы хотим спрогнозировать эти расходы для семьи из 7 человек (хр = 7). Среднее значение прогноза показателя в точке прогноза хр легко определяется из уравнения модели
.
После нахождения среднего значения прогноза всегда возникает традиционный вопрос: какова точность прогноза, какова степень его надежности. Обычно для этого привлекаются интервальные оценки ошибок моделирования (доверительный интервал вместе с доверительной вероятностью). Для каждого значения прогноза ошибки оказываются различными. Это естественно, если вспомнить, что ошибки, например, в прогнозе погоды, растут с увеличением времени до точки прогноза (прогноз на завтра более точен, чем на неделю вперед).
Определим дисперсию и среднеквадратичную ошибку прогноза показателя ур. В спецификации модели (2.28) для отклонений заменим точку наблюдения xi на прогнозную точку xp:
.
Входящие в последнее выражение случайные величины некоррелированны, поэтому дисперсия показателя складывается из дисперсий слагаемых и равна
.
Здесь были использованы выражения для дисперсий среднего значения показателя и коэффициента регрессии, полученные в п.2.4.2. Как и ранее, вместо точного значения дисперсии ошибок 2 (которое неизвестно в рамках выборочного наблюдения) следует подставить её оценку (2.35), тогда СКО прогноза показателя становится равной
. (2.41)
Эта среднеквадратичная ошибка, как и следовало ожидать, пропорциональна СКО остатков регрессии s и растет с увеличением разности между прогнозным и средним значениями фактора . Граничная ошибка для определения доверительного интервала равна
, (2.42)
а границы доверительного интервала прогнозируемого показателя расширяются пропорционально
коэффициенту доверия t. Напомним, что для нормальной модели значение t = 1 соответствует доверительной вероятности Р = 0,68, t = 2 – доверительной вероятности Р = 0,954 и t = 3 – доверительной вероятности Р = 0,997.
Очевидно, с удалением точки прогнозного фактора хр от среднего зона доверительного интервала расширяется (рис.2.6). Это отвечает интуитивному восприятию ошибок прогноза, обычно возрастающих при удалении от средних показателей. Максимальная точность прогноза, как это следует из (2.41), достигается в точке .
Рис.2.6
Пример 2.3. Пусть известны данные для 10 торговых предприятий по товарообороту Y (тыс. грн) и величине торговой площади Х (м2), которые приведены в первых двух колонках таблицы 2.4. Требуется построить модель линейной регрессии на фоне выборочных точек (диаграммы рассеяния), а также определить среднее значение прогноза товарооборота при торговой площади хр = 1150м2 и доверительный интервал этого прогноза с вероятностью 0,68.
Расчеты, необходимые для определения параметров модели, среднего значения прогноза и СКО прогноза, сведем в таблицу 2.2. Они легко выполняются с помощью электронных таблиц EXCEL. В верхней ячейке каждой колонки создается формула расчета, после чего нажатием левой кнопки мыши на крестике в правом нижнем углу ячейки эта формула протаскивается по всем 10 ячейкам каждого столбца. В последней строке таблицы рассчитаны суммы чисел каждого столбца. Убеждаемся, что суммы отклонений показателя, фактора и сумма остатков регрессии равны 0.
Согласно (2.12), (2.9) определяем оценки параметров модели:
Уравнение модели, следовательно, имеет вид
y* = – 60,4723 + 0,1744x.
Таблица 2.2
i |
yi, тыс. грн. |
xi, м2 |
|
|
|
|
|
y*(xi) |
ei |
ei2 |
1 |
124 |
1090 |
24 |
170 |
4080 |
28900 |
576 |
129,652 |
5,65249 |
31,9506 |
2 |
110 |
995 |
10 |
75 |
750 |
5625 |
100 |
113,082 |
3,08198 |
9,49860 |
3 |
114 |
1020 |
24 |
100 |
2400 |
10000 |
576 |
117,443 |
-6,5574 |
42,9990 |
4 |
112 |
960 |
12 |
30 |
360 |
900 |
144 |
105,233 |
-6,7672 |
45,7951 |
5 |
98 |
880 |
-2 |
-40 |
80 |
1600 |
4 |
93,0229 |
-4,9771 |
24,7711 |
6 |
105 |
940 |
5 |
20 |
100 |
400 |
25 |
103,488 |
-1,5115 |
2,28455 |
7 |
86 |
850 |
-14 |
-70 |
980 |
4900 |
196 |
87,7902 |
1,79015 |
3,20464 |
8 |
102 |
900 |
-8 |
-20 |
160 |
400 |
64 |
96,5115 |
4,51147 |
20,3534 |
9 |
73 |
815 |
-27 |
-105 |
2835 |
11025 |
729 |
81,6852 |
8,68523 |
75,4332 |
10 |
76 |
770 |
-24 |
-160 |
3840 |
25600 |
576 |
72,0918 |
-3,9082 |
15,2742 |
|
1000 |
9220 |
0 |
0 |
15585 |
89350 |
2990 |
999,9996 |
0 |
271,5644 |
График поля выборочных точек вместе с прямой y*(х) представлен на рис.2.7. Прямая линия МЛР проходит через точку средних значений ( = 920, = 100). Этот график (как и график на рис.2.1) можно получить в EXCEL с помощью функций «ДИАГРАММА – Точечная – Добавить линию тренда – Линейная». После активизации точечной диаграммы в меню «ДИАГРАММА» выбирается команда «Добавить линию тренда» и появляется окно, рис.2.8. С помощью вкладки «Параметры» (для аппроксимирующих функций, общее число которых равно 6) можно вывести в области графика уравнение функции (в нашем примере – прямой линии) и значение коэффициента детерминации R2.
Среди встроенных функций EXCEL для регрессионного анализа особый интерес представляют функции «ЛИНЕЙН» (LINEAR) и «ТЕНДЕНЦИЯ» (TREND). Первая предназначена для определения параметров МЛР (как парной, так и множественной регрессии), а вторая – для вывода любой точки или множества точек, принадлежащих уравнению модели y*(хi) (также в общем случае для множественной регрессии). Эти функции относятся к категории «Статистические», после их активизации появляются диалоговые окна, приведенные на рис.2.9 и 2.10. Ввод исходных данных для этих функций одинаков: в окне «Известные значения у» помечается диапазон входных данных показателя (например, b2:b11 – ввод данных, записанных в 10 ячеек столбца В с номерами строк от 2-й по 11-ю), после чего в окне «Известные значения х» аналогично помечается диапазон входных данных фактора (например, с2:с11).
Рис.2.7
Рис.2.8
Если до ввода (и вызова функций) на рабочем листе электронной таблицы выделить поле выходных данных (результат решения одной из задач) и нажать клавишу «=» (в левой ячейке появится знак «=»), то после ввода данных и одновременного нажатия клавиш Shift – Ctrl – Enter выделенное поле будет заполнено результатами расчетов. Например, при использовании функции «ЛИНЕЙН» при парной регрессии помечается строка из двух ячеек, ввод формулы инициируется нажатием клавиши «=», вызывается функция «ЛИНЕЙН», вводятся данные, после чего нажимаются три клавиши Shift – Ctrl – Enter, и в нашем примере получим значения параметров модели
0,174426 |
– 60,4723. |
Подчеркнем, что параметры модели функции «ЛИНЕЙН» выводятся в обратном порядке, справа налево: b1 = а = – 60,4723, b2 = b = 0,174426 (при множественной регрессии далее выводятся b3, b4 и т.д.).
Функция «ТЕНДЕНЦИЯ» может использоваться для расчета значений y*(хi) = y*i , необходимых для вычисления остатков регрессии ei = y*i – yi, а также для прогноза показателя ур = y*(хр) в новой задаваемой точке прогноза хр. В первом случае в электронной таблице помечается поле выходных данных (скажем, столбец из 10 ячеек h2:h11), нажимается клавиша «=», вызывается функция «ТЕНДЕНЦИЯ» и вводятся данные, после этого при нажатии клавиш Shift – Ctrl – Enter в помеченном столбце появляются результаты расчета y*i (в нашем примере – колонка y*(хi) таблицы 2.2). Если необходимо найти прогноз ур = y*(хр = 1150м2), то в третье окно функции «ТЕНДЕНЦИЯ» («Новые значения х») вводим точку прогноза 1150, и за чертой входных данных читаем результат прогноза показателя {140, 11807498601}. Этот же результат можно получить по формуле ур = y*(1150) = – 60,4723 + 0,1744·1150 (с малой ошибкой за счет округления). Если задать несколько точек прогноза, то в результате выводится вектор средних значений показателя в этих точках y*(хрk).
В примере 2.3 нам осталось определить доверительный интервал прогноза с вероятностью 0,68 (t = 1). Оценка СКО ошибок модели согласно (2.35) и расчетных значений таблицы 2.2 равна
Тогда в соответствии с (2.41 – 2.42) граничная ошибка прогноза показателя
и доверительный интервал этого прогноза определяется границами
ур [140,12 – 7,58; 140,12 + 7,58] = [132,54; 147,7].
Рис.2.9
Рис.2.10
Итак, с вероятностью 0,68 при торговой площади 1150м2 прогнозируемые значения товарооборота фирмы лежат в пределах приблизительно от 133 до 148 тыс. грн. Относительная точность этого прогноза составляет величину 7,58/140,12 0,05 или около 5%. При доверительной вероятности 0,95 интервал расширится вдвое и относительная точность снизится до приблизительно 10%. Можно лишь условно доверять данному прогнозу, так как небольшая выборка не дает достаточных оснований для нормального распределения оценок и ошибок.