
- •Кафедра математической экономики
- •Методические указания
- •ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
- •ОПИСАНИЕ ИСХОДНОГО НАБОРА ДАННЫХ
- •Минимальные требования
- •Описание данных в примере
- •ПРЕДВАРИТЕЛЬНЫЕ ГИПОТЕЗЫ
- •ДОМАШНЯЯ РАБОТА «ПОСТРОЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»
- •Разведочный анализ данных
- •Теоретические основания
- •Анализ диаграмм рассеяния
- •Анализ значимости оценок коэффициентов корреляции Пирсона
- •Интерпретация результатов
- •Построение линейной регрессионной модели
- •Числовые характеристики для сравнения линейных регрессионных моделей
- •Нечисловые методы сравнения моделей. Нормальная кривая
- •Нарушение основных предположений регрессионного анализа
- •Анализ наличия мультиколлинеарности
- •Корреляция случайных составляющих. Критерий Дарбина – Уотсона.
- •Гетероскедастичность. Критерий Уайта.
- •Минимальные требования
- •Организация вычислений
- •Модель №1
- •Модель №2
- •Модель №3
- •Модель №4
- •ДОМАШНЯЯ РАБОТА «УСОВЕРШЕНСТВОВАНИЕ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ. ОРГАНИЗАЦИЯ ПРОГНОЗИРОВАНИЯ»
- •Критерий Чоу
- •Вариант на основе критерия Вальда
- •Вариант на основе нормальной гипотезы
- •Минимальные требования
- •Минимальные требования
- •Минимальные требования
- •Критерий Чоу
- •Обнаружение выбросов
- •Построение доверительного интервала для нового значения зависимой переменной
- •Приложение
- •Пример модели с использованием взаимодействия.
- •Пример значимого влияния фиктивной переменной

Таблица 6 Значения статистик для критерия проверки гипотезы о равенстве нулю
коэффициента корреляции для не чистопородных коров.
|
Статистика критерия |
p-уровень |
fat |
-4.027663 |
6.43E-05 |
fat_m |
-1.881449 |
0.031797 |
weight |
7.421412 |
5.78E-11 |
yield_m |
3.446009 |
0.000457 |
Для вероятности ошибки первого рода 5% границы критической области равны примерно ±1.98 . Таким образом, в сделанных предположениях все оценки коэффициентов корреляции значимы на 5% уровне, т.е. p-уровень их t- статистик менее 0.05.
Интерпретация результатов
Данный пункт не является обязательным.
Теперь вспомним о сделанных в начале предположениях и сопоставим их с полученными результатами. Значимый и отрицательный коэффициент корреляции между удоем и жирностью подтверждает предположение 2 о том, что величина удоя уменьшается с увеличением жирности молока. Отметим также на аналогичную зависимость для матери коровы. Довольно большой и значимый коэффициент корреляции между удоем и весом указывает на сильно выраженную линейную составляющую взаимозависимость между весом коровы и ее продуктивностью. Этот факт подтверждает предположение 3. Наследственные характеристики (величина продуктивности и жирности молока матери) так же имеют значимые корреляции с показателем продуктивности потомства. Положительный характер взаимозависимости между удоем матери и потомства можно интерпретировать следующим образом: корова, дающая много молока, сможет лучше кормить теленка, а, следовательно, тот вырастет более крупным и здоровым. Отметим, что коэффициент корреляции между весом потомства и количеством молока матери достаточно большой (примерно 0.36 Таблицы 1, 2, 3), в значимости оценки убедиться несложно. Таким образом, можно предположить, что продуктивность матери оказывает влияние, как на вес, так и на продуктивность потомства, что подтверждает сформулированное выше предположение. Отрицательный коэффициент корреляции между продуктивностью коровы и жирностью молока матери может свидетельствовать в пользу предположения, что на выработку молока большой жирности требуется много ресурсов организма, что идет в ущерб продуктивности потомства. Это наблюдение дополняет предположение 2. Видимо, это связано не столько с тем, что молоко жирнее, столько с тем, что его вырабатывается меньше.
Построение линейной регрессионной модели
Следующая часть работы посвящена построению регрессионных моделей, основанных на результатах корреляционного анализа:
«Зависимая» переменная Удой имеет достоверную линейную зависимость от всех «независимых» переменных.

Так как все «независимые» переменные коррелируют друг с другом, при построении моделей, содержащих больше одной «независимой» переменной, необходимо учитывать взаимодействия между ними.
Теоретические основания Модель линейной регрессии
В матричной форме линейная регрессионная модель имеет вид Y = Xa +υ ,
где
|
1 |
X |
11 |
L X |
k1 |
|
|
|
|
|
|
|
|
|
|
|
|||
X = |
1 |
X12 |
L X k 2 |
|
, a = (a |
,..., a )' – вектор параметров линейной |
|||
M |
M |
O M |
|
||||||
|
0 |
k |
|||||||
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|||
|
|
X1T |
|
|
|
|
|
||
|
1 |
L X kT |
|
|
регрессии, а υ = (υ1,...,υT ) – вектор значений случайной составляющей.
Основные предположения регрессионного анализа: X – детерминированная матрица ранга k.
Е(υ) = 0 и Е(υυ′) = D(υ) = σ2Ik , где Ik – единичная матрица k x k.
Этих предположений достаточно для выполнения теоремы Гаусса – Маркова. [6, 9] В соответствии с ней наиболее эффективной в классе линейных несмещенных оценок является оценка методом наименьших квадратов (МНК – оценка), который заключается в минимизации суммы квадратов отклонений величины S относительно значений ‘a’:
|
|
|
|
|
T |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S = ∑(Yt − a0 − a1X1t −... − ak X kT )2 = (Y − Xa)'(Y − Xa) |
|
|
|
|
|
||||||||||||||
|
|
|
|
|
t =1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
C |
|
помощью |
|
непосредственных |
вычислений |
можно |
убедиться, |
что |
|||||||||||
|
∂S(a) |
|
′ |
|
′ |
Приравнивая |
производную |
к |
|
нулю, |
получим |
||||||||||
|
∂a |
|
|
|
|||||||||||||||||
|
= −2X Y + 2X Xa . |
|
|||||||||||||||||||
YX |
′ |
|
) |
′ |
) |
′ |
|
−1 |
′ |
|
МНК – оценок значений параметров |
||||||||||
|
= a' X X , т.е. |
a |
= (X X ) |
|
X Y – вектор |
||||||||||||||||
линейной регрессии. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
Y = Xa) - подогнанные |
значения |
«зависимой» |
переменной, а |
e =Y −Y - |
|||||||||||||||
апостериорная остаточная разность. |
|
|
|
|
|
|
|
|
|
|
|||||||||||
Числовые характеристики для сравнения линейных регрессионных моделей |
σ2 |
||||||||||||||||||||
|
|
Несмещенная |
оценка |
|
значения дисперсии случайной |
|
составляющей |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
T |
|
−Y)t )2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑(Yt |
|
− |
€ |
′ |
− |
€ |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
t =1 |
|
|
|
|
|
|||||
определяется соотношением: s2 = |
|
|
= (Y |
|
Xa) (Y |
|
Xa) , а |
s = + |
s2 - |
||||||||||||
T −k −1 |
|
T −k −1 |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
стандартная ошибка оценки. Она является показателем рассеяния наблюдений относительно регрессионной прямой. Из двух моделей рекомендуется выбирать ту, что имеет меньшее значение s2 .
В качестве инструмента для сравнения линейных регрессионных модели традиционно нередко рассматривают коэффициент детерминации

|
T |
)€ |
|
|
|
2 |
|
|
|
|
) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
−Y ) |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
R2 = |
∑(Yt |
|
|
|
|
|
|
Y −Y |
|
|
|
|
|
|
|
|
e'e |
|
|
. Фактически это доля дисперсии Y, |
||||||
t =1 |
|
|
|
|
|
= |
|
|
|
|
|
|
|
|
|
=1 |
− |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
T |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
2 |
|||||
|
|
|
|
)2 |
|
|
|
|
|
Y −Y |
|
|
|
|
|
|
|
Y −Y |
|
|
||||||
|
∑(Yt −Y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
t =1
"объясненная" регрессией Y на X’. Заметим, что всегда R2 растет с ростом числа регрессоров. Постепенно усложнение модели за счет роста ее размерности перестает быть адекватным росту ее качества. Поэтому, кроме коэффициента
детерминации |
используют |
так |
же |
скорректированный |
R2 |
- |
|||
adj R2 =1 −(1 − R2 ) |
T |
Его величина начинает снижаться при превышении |
|||||||
T − k |
|||||||||
|
|
|
|
|
|
|
|
размерностью модели некоторого порогового значения, которое и принимается за истинное. Рекомендуется выбирать модель, которая обеспечивает максимальное значение этой характеристики.
Альтернативой adjR2 являются критерии Акаики и Шварца. Критерий Акаике реализует «принцип экономии» (parsimony) и основан на статистике
AIC = 2lnT s2 + 2Tk . В различных статистических пакетах вид статистики может
различаться. Главное, что первое слагаемое отвечает за точность подгонки модели к данным, а второе за сложность модели. При выборе модели следует стремиться к минимизации этой величины. Второе слагаемое в приведенном выражении не позволяет повышать точность подгонки за счет излишнего усложнения модели.
В аналогичном критерии Шварца (байесовский информационный критерий) используется больший штраф за увеличение количества параметров
модели: BIC = 2lnT s2 + k lnT T .
Нечисловые методы сравнения моделей. Нормальная кривая
Одной из наиболее важных характеристик модели является близость закона распределения случайной составляющей модели к нормальному. При выполнении гипотезы о нормальности и небольшом числе измерений становится корректным использование таких важных критериев, как t-критерий Стьюдента проверки значимости оценки значения параметра линейной регрессии. Полноценное решение этой задачи выходит за рамки данной работы. Здесь необходимо только качественно оценить близость этого закона распределения к нормальному и охарактеризовать отличия. Поскольку, как правило, количество наблюдений не очень велико, такие числовые характеристики, как коэффициенты асимметрии и эксцесса часто не отражают реальную ситуацию. В связи с этим особое значение приобретают непараметрические методы решения данной задачи, в частности нормальная кривая.
Из теоремы Гливенко – Кантелли следует, что эмпирическая функция распределения Fn равномерно сходится с вероятностью 1 к истинной - F при