- •3.1. Функциональная, статистическая
- •3.2. Линейная парная регрессия
- •3.3. Коэффициент корреляции
- •3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова
- •3.5. Интервальная оценка функции регрессии и ее параметров
- •4.1. Классическая нормальная линейная модель множественной регрессии
- •4.2. Оценка параметров классической регрессионной модели методом наименьших квадратов
- •4.4. Оценка дисперсии возмущений
- •4.5. Определение доверительных интервалов для коэффициентов и функции регрессии
- •4.6. Оценка значимости множественной регрессии.
- •Глава 5
- •5.1. Мультиколлинеарность
- •5.2. Отбор наиболее существенных объясняющих переменных в регрессионной модели
- •5.3. Линейные регрессионные модели с переменной структурой. Фиктивные переменные
4.6. Оценка значимости множественной регрессии.
Коэффициенты
детерминации
и
Как и в случае парной регрессионной модели (см § 3.6), в модели множественной регрессии общая вариация Q – сумма квадратов отклонений зависимой переменной от средней (3.41) может быть разложена на две составляющие:
,
где
,
– соответственно сумма квадратов
отклонений, обусловленная регрессией,
и остаточная сумма квадратов,
характеризующая влияние неучтенных
факторов.
Получим более
удобные, чем (3.40),
формулы для сумм квадратов Q,
и
,
не требующие вычисления значений
,
обусловленных регрессией, и остатков
.
В соответствии с (3.40), (3.42)
(4.29)
(ибо
).
С учетом (4.4) имеем
(4.30)
(ибо в силу (4.5)
).
Наконец,
.
(4.31)
Уравнение
множественной регрессии значимо (иначе
– гипотеза
о равенстве нулю параметров регрессионной
модели, т. е.
,
отвергается), если (учитывая (3.43)
при m=p+1)
,
(4.32)
где
– табличное значение F-критерия
Фишера–Снедекора, а
и
определяются по формулам (4.31)
и (4.30).
В § 3.6 был введен коэффициент детерминации как одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика его прогностической силы.
Коэффициент детерминации (или множественный коэффициент детерминации) определяется по формуле (3.47) или с учетом (4.31), (4.29):
.
(4.33)
Отметим еще одну формулу для коэффициента детерминации:
,
(4.33')
или
,
(4.33")
где
,
,
– n-мерные
векторы;
,
.
Напомним, что характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных; чем ближе к единице, тем лучше регрессия описывает зависимость между объясняющими и зависимой переменными.
Вместе с тем использование только одного коэффициента детерминации для выбора наилучшего уравнения регрессии может оказаться недостаточным. На практике встречаются случаи, когда плохо определенная модель регрессии может дать сравнительно высокий коэффициент .
Недостатком коэффициента детерминации является то, что он, вообще говоря, увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный (адаптированный, поправленный (adjusted)) коэффициент детерминации , определяемый по формуле
,
(4.34)
или с учетом (4.33")
.
(4.34')
Из (4.34) следует, что чем больше число объясняющих переменных р, тем меньше по сравнению с . В отличие от скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим (это происходит, как можно показать, только в случае, если соответствующее значение t-статистики больше единицы (по абсолютной величине), т. е. |t|>1. Другими словами, увеличение еще не означает улучшения качества регрессионной модели.
Если известен коэффициент детерминации , то критерий значимости (4.32) уравнения регрессии может быть записан в виде:
,
(4.35)
где
,
,
ибо в уравнении множественной регрессии
вместе со свободным членом оценивается
m
= р+1 параметров.
Пример 4.4.
По данным примера 4.1
определить множественный коэффициент
детерминации и проверить значимость
полученного уравнения регрессии Y
по
и
на уровне α= 0,05.
Решение. Вычислим произведения векторов (см. пример 4.1):
и
(см.
итоговую строку табл. 4.2). Из табл. 4.2
находим также
,
откуда
.
Теперь по (4.33) множественный коэффициент детерминации
.
Коэффициент
детерминации
свидетельствует о том, что вариация
исследуемой зависимой переменной Y
– сменной
добычи угля на одного рабочего на 81,1%
объясняется изменчивостью включенных
в модель объясняющих переменных –
мощности пласта
и уровня механизации работ
.
Проделав аналогичные
расчеты по данным примера 3.1
для одной объясняющей переменной
,
можно было получить
(заметим, что в случае одной объясняющей
переменной коэффициент детерминации
равен квадрату парного коэффициента
корреляции
).
Сравнивая значения
и
,
можно сказать, что добавление второй
объясняющей переменной
незначительно увеличило величину
коэффициента детерминации, определяющего
качество модели. И это понятно, так как
выше, в примере 4.3,
мы убедились в незначимости коэффициента
регрессии
при переменной
.
По формуле (4.34) вычислим скорректированный коэффициент детерминации:
при
p=1
;
при
p=2
.
Видим, что хотя скорректированный коэффициент детерминации и увеличился при добавлении объясняющей переменной , но это еще не говорит о значимости коэффициента (значение t-статистики, равное 1,51 (см. § 4.4), хотя и больше 1, но недостаточно для соответствующего вывода на приемлемом уровне значимости).
Зная , проверим значимость уравнения регрессии. Фактическое значение критерия по (4.35):
больше
табличного
,
определенного на уровне значимости
α=0,05
при k1=2
и k2=10–2–1=7
степенях свободы (см. табл. IV приложений),
т. е. уравнение регрессии значимо,
следовательно, исследуемая зависимая
переменная Y
достаточно хорошо описывается включенными
в регрессионную модель переменными Х1
и X2.
Упражнения
4.5. Имеются следующие данные о выработке литья на одного работающего Х1(T), браке литья Х2 (%) и себестоимости 1 т литья Y (руб.) по 25 литейным цехам заводов:
i |
x1j |
x2j |
yi |
i |
x1i |
x2i |
yi |
i |
x1i |
x2i |
yi |
1 |
14,6 |
4,2 |
239 |
10 |
25,3 |
0,9 |
198 |
19 |
17,0 |
9,3 |
282 |
2 |
13,5 |
6,7 |
254 |
11 |
56,0 |
1,3 |
170 |
20 |
33,1 |
3,3 |
196 |
3 |
21,5 |
5,5 |
262 |
12 |
40,2 |
1,8 |
173 |
21 |
30,1 |
3,5 |
186 |
4 |
17,4 |
7,7 |
251 |
13 |
40,6 |
3,3 |
197 |
22 |
65,2 |
1,0 |
176 |
5 |
44,8 |
1,2 |
158 |
14 |
75,8 |
3,4 |
172 |
23 |
22,6 |
5,2 |
238 |
6 |
111,9 |
2,2 |
101 |
15 |
27,6 |
1,1 |
201 |
24 |
33,4 |
2,3 |
204 |
7 |
20,1 |
8,4 |
259 |
16 |
88,4 |
0,1 |
130 |
25 |
19,7 |
2,7 |
205 |
8 |
28,1 |
1,4 |
186 |
17 |
16,6 |
4,1 |
251 |
|
|
|
|
9 |
22,3 |
4,2 |
204 |
18 |
33,4 |
2,3 |
195 |
|
|
|
|
Необходимо: а) найти множественный коэффициент детерминации и пояснить его смысл; б) найти уравнение множественной регрессии Y по X1 и X2, оценить значимость этого уравнения и его коэффициентов на уровне α=0,05; в) сравнить раздельное влияние на зависимую переменную каждой из объясняющих переменных, используя стандартизованные коэффициенты регрессии и коэффициенты эластичности; г) найти 95%-ные доверительные интервалы для коэффициентов регрессии, а также для среднего и индивидуальных значений себестоимости 1 т литья в цехах, в которых выработка литья на одного работающего составляет 40 т, а брак литья – 5%.
4.6. Имеются следующие данные о годовых ставках месячных доходов по трем акциям за шестимесячный период:
Акция |
Доходы по месяцам, % |
|||||
А |
5,4 |
5,3 |
4,9 |
4,9 |
5,4 |
6,0 |
В |
6,3 |
6,2 |
6,1 |
5,8 |
5,7 |
5,7 |
С |
9,2 |
9,2 |
9,1 |
9,0 |
8,7 |
8,6 |
Есть основания предполагать, что доходы Y по акции С зависят от доходов Х1 и Х2 по акциям A и В. Необходимо: а) составить уравнение регрессии Y по X1 и Х2 ; б) найти множественный коэффициент детерминации R2 и пояснить его смысл; в) проверить значимость полученного уравнения регрессии на уровне α=0,05; г) оценить средний доход по акции С, если доходы по акциям A и B составили соответственно 5,5 и 6,0%.
