- •Эконометрика
- •Введение
- •1. Модели статистической взаимосвязи
- •1.1. Типы взаимосвязи между явлениями
- •1.2. Типы данных
- •1.3. Типы моделей
- •Контрольные вопросы
- •2. Двухмерная модель линейной регрессии
- •2.1. Определение параметров млр. Метод наименьших квадратов
- •2.2. Матричная форма записи при определении параметров млр
- •2.3. Корреляционный анализ млр
- •2.4. Оценка ошибок моделирования
- •2.4.1. Основные условия (гипотезы) анализа ошибок
- •2.4.2. Ошибки оценок параметров модели
- •2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
- •2.4.4. Оценка прогноза показателя и ошибок прогнозирования
- •2.5. Установление существенности связи на основе теории статистической проверки гипотез
- •2.5.1. Распределения случайных величин Нормальное распределение (Гаусса)
- •Распределение Пирсона (2-распределение)
- •Распределение Фишера
- •Распределение Стьюдента (t-распределение)
- •Статистическая проверка гипотез
- •Контрольные вопросы
- •3. Многомерная модель линейной регрессии
- •3.1. Определение параметров модели методом наименьших квадратов
- •3.2. Определение оценок параметров млр через отклонения (уменьшение числа уравнений системы до k – 1)
- •3.3. Статистические свойства оценок параметров млр
- •3.3.1. Условия анализа
- •3.3.2. Среднеквадратичные ошибки оценок параметров млр
- •3.3.3. Ошибки прогнозирования
- •3.4. Коэффициент детерминации многомерной млр
- •3.5. Определение существенности статистической связи между факторами и показателем
- •Контрольные вопросы
- •4. Мультиколлинеарность
- •4.1. Выражение для оценки параметров млр в стандартизованной форме
- •4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
- •4.2.1. Проверка на общую мультиколлинеарность
- •4.2.2. Проверка мультиколлинеарности между парами факторов
- •Контрольные вопросы
- •5. Автокорреляция
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Авторегрессионый процесс первого порядка
- •5.3. Тест Дарбина-Уотсона на автокорреляцию
- •Контрольные вопросы
- •6. Двухмерная модель нелинейной регрессии
- •6.1. Трехпараметрическая парабола
- •6.2. Двухпараметрическая парабола
- •6.3. Обзор двухпараметрических нелинейных моделей парной регрессии
- •Экспоненциальная модель
- •Логарифмическая модель
- •Гиперболическая модель
- •Контрольные вопросы
- •Литература
- •Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5
4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
Этот метод включает два этапа: проверку на общую мультиколлинеарность и проверку на коллинеарность между отдельными парами факторов.
4.2.1. Проверка на общую мультиколлинеарность
Для нормальной МЛР на основе выборочных данных формируется статистика
2(N) = – [n – 1– (2k + 3)/6] ln(DetRХ), (4.11)
отвечающая гипотезе об отсутствии мультиколлинеарности H0. Чем ближе к нулю определитель корреляционной матрицы, тем больше рассчитанное значение 2 и тем менее вероятна справедливость гипотезы H0. Число степеней свободы N распределения 2 равно числу всех коэффициентов корреляции между различными парами факторов или числу сочетаний
N = C2k –1 = (k – 1)(k – 2)/2. (4.12)
Например, для трехмерной модели с двумя факторами N = 1 (одна пара факторов), для четырёхмерной – N = 3 (3 пары) и т.д. 2 –распределение, рис. 4.1, разбивается на две области, причем в области 2 < 2кр с доверительной вероятностью Р мультиколлинеарность отсутствует, тогда как в области 2 > 2кр она отсутствует с вероятностью 1 – Р или имеет место с вероятностью Р. Значения 2кр табулированы (Приложение 3) с входными данными: доверительная вероятность Р (от 0,99 до 0,01) – определяет столбец таблицы; число степеней свободы N величины 2кр – определяет строку таблицы.
Таким образом, проверка на общую мультиколлинеарность осуществляется в следующей последовательности:
Определяется корреляционная матрица RХ факторов и её детерминант (определитель) DetRХ.
По формуле (4.11) рассчитывается статистика 2 выборки.
Для числа степеней свободы N (формула (4.12)) и принятой доверительной вероятности (например, Р = 0,95 ) по таблице критических точек 2-распределения (Приложение 3) определяется критическое (пороговое) значение 2кр.
Если 2 > 2кр, то с вероятностью Р можно констатировать наличие мультиколлинеарности. В противном случае (2 < 2кр) c вероятностью Р она отсутствует.
Рис.4.1
Пример 4.2. Обратимся к данным примера 4.1 и проверим факторы на мультиколлинеарность. Определитель её корреляционной матрицы равен DetRХ = 239/264, тогда с учетом k = 3 и (4.11)
2 = (4 – 9/6)(ln264 – ln239) = 0,2487.
Примем доверительную вероятность Р = 0,99. Так как для 3-мерной модели k = 3, то N = 1 и по таблице (Приложение 3) находим 2кр= 6,6. Так как 2 < 2кр, то c вероятностью Р = 0,99 мультиколлинеарность в данной модели отсутствует.
4.2.2. Проверка мультиколлинеарности между парами факторов
Для этого этапа используется информация, содержащаяся в матрице, обратной корреляционной
[Z] = [RX]–1. (4.13)
Её элементы, нормированные к элементам главной диагонали
, i, m = 2,3,…,k, (4.14)
называются частичными коэффициентами корреляции. По данным выборки определяется t-статистика (имеет распределение Стьюдента)
(4.15)
с (n – k) степенями свободы, отвечающая гипотезе H0 об отсутствии мультиколлинеарности между i-м и m-м факторами. Чем больше абсолютное значение (4.15) (в частности, при 1), тем менее вероятно выполнение гипотезы Н0. Для заданной доверительной вероятности Р и числа K = n – k степеней свободы t-статистики рассчитывается критическое значение tкр, которое табулируется (Приложение 4). Если рассчитанное для выборки значение tim tкр, то с вероятностью Р между i-м и m-м факторами имеет место мультиколлинеарность. Область малых значений tim < tкр cоответствует вероятному (с вероятностью Р) отсутствию мультиколлинеарности. При установлении мультиколлинеарности один из коллинеарных факторов целесообразно устранить из модели.
Пример 4.3. Пусть выборочные данные зависимости показателя Сi от трех факторов Di, Si, Li для 11 объектов (n = 11) сведены в таблицу 4.2. Необходимо построить четырехмерную МЛР, оценить существенность связи между показателем и факторами и протестировать модель на мультиколлинеарность.
Все расчеты удобно производить в электронной таблице EXCEL. С помощью встроенных функций ТРАНСП, МУМНОЖ, МОБР определяем вектор параметров модели
|
|
-12,17425934 |
|
b0 = - 12,174 |
BT= (XT*X)-1*XT*Y = |
1,011126032 |
|
b1 = 1,011 |
|
|
|
0,599728902 |
|
b2 = 0,6 |
|
|
0,15348523 |
|
b3= 0,153 |
Таблица 4.2
|
Y = Сi |
|
Х1 |
X2 = Di |
X3 = Si |
X4 = Li |
|
8,35 |
|
1 |
12,21 |
10,15 |
19,15 |
|
14,34 |
|
1 |
16,67 |
11,78 |
21,78 |
|
19,37 |
|
1 |
17,11 |
12,67 |
23,16 |
|
21,85 |
|
1 |
20,39 |
13,21 |
32,77 |
Y = |
24,88 |
X = |
1 |
22,68 |
14,65 |
34,65 |
|
27,68 |
|
1 |
24,17 |
16,41 |
37,11 |
|
30,19 |
|
1 |
25,57 |
18,47 |
38,44 |
|
34,86 |
|
1 |
27,78 |
20,11 |
39,11 |
|
39,04 |
|
1 |
28,85 |
22,77 |
41,64 |
|
41,67 |
|
1 |
30,15 |
25,02 |
45,02 |
|
44,57 |
|
1 |
33,97 |
28,12 |
46,37 |
|
|
|
|
|
|
|
∑ ═ |
306,8 |
|
|
259,55 |
193,36 |
379,2 |
Средние = |
27,89091 |
|
0 |
23,59545 |
17,57818 |
34,4727 |
Для этого можно также использовать функцию „ЛИНЕЙН”, которая выводит строку параметров в инверсном порядке. Уравнение МЛР имеет вид
Y* = C* = 1,011D + 0,6S + 0,153L – 12,174.
Для расчета остатков регрессии и коэффициента детерминации строим таблицу 4.3.
Второй столбец таблицы можно получить с помощью функции „ТЕНДЕНЦИЯ”. Коэффициенты детерминации и корреляции равны
R2 = 1 – (19,39/1310,5) = 0,985,
R = 0,992.
Оценим существенность связи между показателем С и факторами с помощью критерия Фишера. Поскольку k = 4 – размерность модели, то k1 = k – 1 = 3, k2 = n – k = 7, P = 0,95, тогда с помощью таблицы Фишера (Приложение 1) получим критическое значение коэффициента детерминации
R2кр = 0,651.
Так как R2 > R2кр, то с вероятностью 0,95 связь существенна.
Таблица 4.3
Ci |
Ci* |
ei = (Ci*-Ci) |
ei 2 |
Ci-Ccр |
(Ci-Ccр)2 |
ei*ei-1 |
8,85 |
10,08025 |
1,230250095 |
1,513515296 |
-18,3107 |
335,283562 |
|
14,84 |
15,9711 |
1,131096461 |
1,279379205 |
-12,4199 |
154,254004 |
1,3915315 |
19,87 |
17,16156 |
-2,708439745 |
7,33564585 |
-11,2294 |
126,100317 |
-3,063507 |
22,35 |
22,2769 |
-0,073099695 |
0,005343565 |
-6,1141 |
37,3822151 |
0,1979861 |
25,38 |
25,74454 |
0,364540768 |
0,132889972 |
-2,64646 |
7,00374646 |
-0,026648 |
28,18 |
28,68422 |
0,504215089 |
0,254232856 |
0,293215 |
0,08597509 |
0,183807 |
30,69 |
31,53937 |
0,849368427 |
0,721426726 |
3,148368 |
9,91222375 |
0,4282644 |
35,36 |
34,86035 |
-0,499652539 |
0,24965266 |
6,469347 |
41,8524566 |
-0,424389 |
39,54 |
37,83589 |
-1,704110509 |
2,903992627 |
9,444889 |
89,2059375 |
0,8514631 |
42,17 |
41,10848 |
-1,061517226 |
1,126818821 |
12,71748 |
161,734368 |
1,8089427 |
45,07 |
47,03735 |
1,967348873 |
3,870461587 |
18,64635 |
347,686326 |
-2,088375 |
∑ |
|
-1,59872E-14 |
19,39335916 |
-0,001 |
1310,50113 |
-3,898802 |
Для проверки мультиколлинеарности найдем корреляционную матрицу факторов. Для этого сначала находим матрицу отклонений, представленную в таблице 4.4 (транспонированная матрица). Далее рассчитаем согласно (4.1) и сумм квадратов отклонений в таблице 4.4 делители строк матрицы отклонений
S2 = 20,75349,
S3 = 18,50886,
S4 = 29,58308.
Таблица 4.4
|
|
|
|
|
|
|
|
|
|
|
-11,386 |
-7,4282 |
-15,3227 |
|
381,84716 |
|
129,6286 |
55,1779 |
234,7860 |
|
-6,9255 |
-5,7982 |
-12,6927 |
|
183,62716 |
|
47,9619 |
33,6189 |
161,1053 |
|
-6,4855 |
-4,9082 |
-11,3127 |
|
72,60591 |
|
42,0611 |
24,0902 |
127,9778 |
|
-3,2055 |
-4,3682 |
-1,70273 |
|
36,49259 |
|
10,2749 |
19,0809 |
2,8993 |
= |
-0,9155 |
-2,9282 |
0,17727 |
|
9,06558 |
|
0,8381 |
8,5742 |
0,0314 |
|
0,57455 |
-1,1682 |
2,63727 |
|
0,04448 |
|
0,3301 |
1,3646 |
6,9552 |
|
1,97455 |
0,8918 |
3,96727 |
|
5,28582 |
|
3,8988 |
0,7953 |
15,7393 |
|
4,18455 |
2,5318 |
4,63727 |
|
48,56822 |
|
17,5104 |
6,4101 |
21,5043 |
|
5,25455 |
5,1918 |
7,16727 |
|
124,30221 |
|
27,6102 |
26,9550 |
51,3698 |
|
6,55455 |
7,4418 |
10,54727 |
|
189,86332 |
|
42,9621 |
55,3807 |
111,2451 |
|
10,3746 |
10,5418 |
11,89727 |
|
278,19204 |
|
107,6311 |
111,1299 |
141,5451 |
|
|
|
|
|
|
|
|
|
|
|
-5E-08 |
2E-05 |
-3E-07 |
|
1329,8945 |
|
430,70747 |
342,57796 |
875,1584 |
|
-4,5E-09 |
1,82E-06 |
-2,73E-08 |
|
120,8995 |
|
39,15523 |
31,14345 |
79,5599 |
Тогда транспонированная матрица отклонений в стандартизованном виде в соответствии с (4.3) имеет вид
|
-0,54860433 |
-0,40133 |
0,51795578 |
|
-0,33370072 |
-0,31327 |
0,42905361 |
|
-0,31249947 |
-0,26518 |
0,38240532 |
|
-0,15445376 |
-0,236 |
0,05755747 |
= |
-0,04411087 |
-0,1582 |
0,00599237 |
|
0,027684281 |
-0,06311 |
0,08914801 |
|
0,095142815 |
0,048183 |
0,13410614 |
|
0,201630928 |
0,13679 |
0,15675422 |
|
0,253188522 |
0,280505 |
0,24227608 |
|
0,315828588 |
0,402068 |
0,35653058 |
|
0,499894015 |
0,569555 |
0,40216477 |
Корреляционная матрица факторов согласно (4.7) равна:
|
1 |
0,964148 |
0,977273 |
= RХ = |
0,964148 |
1 |
0,918963 |
|
0,977273 |
0,918963 |
1 |
Её детерминант и логарифм детерминанта равны:
detRХ = 0,00262284, ln(detRХ) = 5,943498
Согласно методу Феррара-Глобера
χ2(N) = – [n – 1 – (2k – 3)/6]·ln(detRХ) = 48,54.
Число степеней свободы N = (k – 1)(k – 2)/2 = 3. Критическое значение χ2 доверительной вероятности Р = 0,99 получим из таблицы (Приложение 3) χ2кр (N = 3) = 11,3.
Таким образом, поскольку χ2 > χ2кр, с вероятностью 0,99 мультиколлинеарность имеет место. Действительно, факторы сильно коррелируют между собой (r23 = 0,964, r34 = 0,977), что свидетельствует о почти линейной зависимости между факторами. Очевидным признаком мультиколлинеарности является также очень малое значение определителя матрицы RХ : detRХ = 0,0026. В данной модели любые два фактора из трех требуют замены на другие.
Задачи
Доходы фирмы Y (тыс. грн.) в зависимости от числа работников Х1 (чел.) и объема производства Х2 (у.е.) определяется выборочными данными:
Y, тыс. грн. |
2 |
2 |
5 |
5 |
6 |
Х1, чел. |
15 |
18 |
17 |
18 |
22 |
Х2, тыс.грн. |
15 |
20 |
20 |
35 |
35 |
Определить корреляционную матрицу факторов, оценить модель на общую мультиколлинеарность методом Феррара-Глобера (доверительная вероятность 95%).
Дана выборка объема n = 25 с двумя факторами Х2 и Х3 и определены значения
,
Построить уравнение модели, оценить модель на общую мультиколлинеарность методом Феррара-Глобера (доверительная вероятность 95%).