
- •Проверка на наличие мультиколлинеарности
- •Построение уравнения регрессии
- •Построение уравнения регрессии только со значимыми факторами и пояснение смысла его параметров.
- •Проверка статистической значимости коэффициентов уравнения регрессии
- •Проверка общего качества уравнения регрессии
- •Анализ статистической значимости коэффициента детерминации.
- •Проверка уравнения регрессии на гетероскедастичность
- •Проверка уравнения на автокорреляцию остатков
- •Выводы:
- •Экономический смысл полученного результата:
РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ СОЦИАЛЬНЫЙ УНИВЕРСИТЕТ
Факультет социального страхования, экономики и финансов
Расчетно-графическая работа по эконометрике
на тему: «Парная и множественная линейная регрессия»
Вариант 4
Выполнила:
Васильева Ирина НАЛ-В-4-1
Проверил:
к.э.н., доцент Горячев Ю.В.
Москва 2009
Вариант 4
По данным 20 предприятий региона изучить зависимость выработки продукции на одного работника (Y) от ввода в действие новых фондов (Х1) и от удельного веса рабочих высокой квалификации в общей численности рабочих (Х2).
Номер предприятия |
(Y) Выработка продукции на одного работника, тыс. руб. |
(X1) Ввод новых основных фондов, % от стоимости основных фондов на конец года |
(X2) Удельный вес рабочих высокой квалификации в общ. Числен. Рабочих, % |
1 |
7 |
3.9 |
10 |
2 |
7 |
3.9 |
14 |
3 |
7 |
3.7 |
15 |
4 |
7 |
4 |
16 |
5 |
7 |
3.8 |
17 |
6 |
7 |
4.8 |
19 |
7 |
8 |
5.4 |
19 |
8 |
8 |
4.4 |
20 |
9 |
8 |
5.3 |
20 |
10 |
10 |
6.8 |
20 |
11 |
9 |
6 |
21 |
12 |
11 |
6.4 |
22 |
13 |
9 |
6.8 |
22 |
14 |
11 |
7.2 |
25 |
15 |
12 |
8 |
28 |
16 |
12 |
8.2 |
29 |
17 |
12 |
8.1 |
30 |
18 |
12 |
8.5 |
31 |
19 |
14 |
9.6 |
32 |
20 |
14 |
9 |
36 |
Решение:
Анализ корреляционной связи между зависимой и факторными переменными
Исследуем корреляционную связь между зависимой (Y - Выработка продукции на одного работника, тыс. руб) и факторными переменными (X1 - ввод новых основных фондов, Х2 - удельный вес рабочих высокой квалификации в общей численности рабочих) с помощью матрицы парных коэффициентов корреляции, для этого, воспользуемся в среде Microsoft Excel следующей последовательностью команд: Сервис/Анализ данных/Корреляция, и во входном интервале выделяем всю таблицу, при этом необходимо установить флажок рядом с графой «Метки» для получения наглядности получаемых результатов.
|
Y |
X1 |
X2 |
Y |
1 |
|
|
X1 |
0.96988144 |
1 |
|
X2 |
0.94080004 |
0.942838898 |
1 |
Анализируем корреляционную связь между переменными, для этого смотрим на то, как Y (выработка продукции на одного работника) связан с X1 (вводом новых основных фондов) и Х2 (удельным весом рабочих высокой квалификации в общей численности рабочих), чтобы выявить, какие X включить в модель. По шкале Чеддока связь между факторами и результатом весьма высокая, т.к. коэффициент корреляции между переменными r(X1;Y) и r(X2;Y) > 0,9. Это значит, что выработка продукции на одного работника находится в весьма высокой зависимости от ввода новых основных фондов и удельного веса рабочих высокой квалификации в общей численности рабочих.
|
Y |
X1 |
X2 |
Y |
1 |
|
|
X1 |
весьма высокая |
1 |
|
X2 |
весьма высокая |
весьма высокая |
1 |
Одним из условий построения уравнения регрессии является независимость действия факторов, для того, чтобы они были включены в модель. По результатам корреляционного анализа переменные X1 и X2 коллинеарны между собой. Высокое значение (r = 0.942838898) коэффициента корреляции между переменными X1 и X2 со всей очевидностью свидетельствуют о наличии мультиколлинеарности. Построенная при таких условиях регрессионная модель будет иметь низкое практическое значение. Таким образом, переменные Х1 и Х2 не должны быть одновременно представлены в модели. Одну из них, имеющую наибольшее P-значение (наибольшую вероятность того, что переменная не оказывает значения на результат), следует исключить.
Проверка на наличие мультиколлинеарности
Проверим дополнительно наличие мультиколлинеарности, путем составления матрицы из коэффициентов парной корреляции для рассматриваемых факторов X1 и X2. Матрица симметрична относительно главной диагонали, элементами которой являются единицы.
|
Y |
X1 |
X2 |
Y |
1 |
0.969881436 |
0.940800036 |
X1 |
0.969881436 |
1 |
0.942838898 |
X2 |
0.940800036 |
0.942838898 |
1 |
Определитель матрицы = 0.005894133
Вычислим определитель матрицы с помощью функции МОПРЕД. Для этого воспользуемся следующей последовательностью команд: Вставка функции/МОПРЕД, и в массиве выделяем матрицу.
Определитель равен 0.005894133. Т.к. матрица имеет полный ранг, но её определитель близок к 0, мы можем судить о наличии частичной мультиколлинеарности. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми. Исходя из этого, нам необходимо провести дополнительные исследования для выявления фактора (ввод новых основных фондов или удельный вес рабочих высокой квалификации в общей численности рабочих), не оказывающего значительное воздействие на выработку продукции на одного работника и устранить тем самым мультиколлинеарность.
Для устранения мультиколлинеарности воспользуемся методом дополнительных регрессий, чтобы определить какой из параметров Х1 или Х2 следует исключить (для построения «лучшего» из возможных уравнений регрессии).
Построение уравнения регрессии
Для этого:
1. Проводим регрессионный анализ. Выполняем последовательность команд: Сервис/Анализ данных/Регрессия. В окне диалога Регрессия в поле Входной интервал Y выделяем столбец, содержащий Y, в поле Входной интервал Х выделяем столбцы, содержащие X1, X2, предварительно записав их рядом. Выбираем уровень надежности 95%. Ставим галочку «Метки», для получения наглядности получаемых результатов, а также галочки «Остатки», «Стандартизированные остатки», «График остатков», «График подбора», «График нормальной вероятности», для обеспечения вывода значений остатков.
Получаем следующие результаты:
Регрессионная статистика |
|
Множественный R |
0.973101182 |
R-квадрат |
0.94692591 |
Нормированный R-квадрат |
0.9406819 |
Стандартная ошибка |
0.598670364 |
Наблюдения |
20 |
Дисперсионный анализ |
|||||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
2 |
108.7071 |
54.35355 |
151.6535 |
1.45E-11 |
Остаток |
17 |
6.092905 |
0.358406 |
|
|
Итого |
19 |
114.8 |
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Y-пересечение |
1.83530694 |
0.471064997 |
3.896080054 |
0.001161531 |
0.84144668 |
2.8291672 |
X1 |
0.945947723 |
0.212576487 |
4.449917 |
0.00035148 |
0.497450544 |
1.3944449 |
X2 |
0.085617787 |
0.060483309 |
1.415560577 |
0.174963664 |
-0.041990838 |
0.213226413 |
В обычной форме регрессионная модель записывается следующим образом:
Y = 1,8353 + 0,9459Х1 + 0,0856Х2 уравнение
(0,471) (0,21257) (0,06048) стандартные ошибки
R2 = 0.9469; нормируемый R-квадрат = 0.9406819; F = 151.6535.