Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка Построение линейной регрессионной модели .pdf
Скачиваний:
67
Добавлен:
20.05.2014
Размер:
2.86 Mб
Скачать

Таблица 6 Значения статистик для критерия проверки гипотезы о равенстве нулю

коэффициента корреляции для не чистопородных коров.

 

Статистика критерия

p-уровень

fat

-4.027663

6.43E-05

fat_m

-1.881449

0.031797

weight

7.421412

5.78E-11

yield_m

3.446009

0.000457

Для вероятности ошибки первого рода 5% границы критической области равны примерно ±1.98 . Таким образом, в сделанных предположениях все оценки коэффициентов корреляции значимы на 5% уровне, т.е. p-уровень их t- статистик менее 0.05.

Интерпретация результатов

Данный пункт не является обязательным.

Теперь вспомним о сделанных в начале предположениях и сопоставим их с полученными результатами. Значимый и отрицательный коэффициент корреляции между удоем и жирностью подтверждает предположение 2 о том, что величина удоя уменьшается с увеличением жирности молока. Отметим также на аналогичную зависимость для матери коровы. Довольно большой и значимый коэффициент корреляции между удоем и весом указывает на сильно выраженную линейную составляющую взаимозависимость между весом коровы и ее продуктивностью. Этот факт подтверждает предположение 3. Наследственные характеристики (величина продуктивности и жирности молока матери) так же имеют значимые корреляции с показателем продуктивности потомства. Положительный характер взаимозависимости между удоем матери и потомства можно интерпретировать следующим образом: корова, дающая много молока, сможет лучше кормить теленка, а, следовательно, тот вырастет более крупным и здоровым. Отметим, что коэффициент корреляции между весом потомства и количеством молока матери достаточно большой (примерно 0.36 Таблицы 1, 2, 3), в значимости оценки убедиться несложно. Таким образом, можно предположить, что продуктивность матери оказывает влияние, как на вес, так и на продуктивность потомства, что подтверждает сформулированное выше предположение. Отрицательный коэффициент корреляции между продуктивностью коровы и жирностью молока матери может свидетельствовать в пользу предположения, что на выработку молока большой жирности требуется много ресурсов организма, что идет в ущерб продуктивности потомства. Это наблюдение дополняет предположение 2. Видимо, это связано не столько с тем, что молоко жирнее, столько с тем, что его вырабатывается меньше.

Построение линейной регрессионной модели

Следующая часть работы посвящена построению регрессионных моделей, основанных на результатах корреляционного анализа:

«Зависимая» переменная Удой имеет достоверную линейную зависимость от всех «независимых» переменных.

Так как все «независимые» переменные коррелируют друг с другом, при построении моделей, содержащих больше одной «независимой» переменной, необходимо учитывать взаимодействия между ними.

Теоретические основания Модель линейной регрессии

В матричной форме линейная регрессионная модель имеет вид Y = Xa +υ ,

где

 

1

X

11

L X

k1

 

 

 

 

 

 

 

 

 

 

X =

1

X12

L X k 2

 

, a = (a

,..., a )' – вектор параметров линейной

M

M

O M

 

 

0

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X1T

 

 

 

 

 

 

1

L X kT

 

 

регрессии, а υ = (υ1,...,υT ) – вектор значений случайной составляющей.

Основные предположения регрессионного анализа: X – детерминированная матрица ранга k.

Е(υ) = 0 и Е(υυ) = D(υ) = σ2Ik , где Ik – единичная матрица k x k.

Этих предположений достаточно для выполнения теоремы Гаусса – Маркова. [6, 9] В соответствии с ней наиболее эффективной в классе линейных несмещенных оценок является оценка методом наименьших квадратов (МНК – оценка), который заключается в минимизации суммы квадратов отклонений величины S относительно значений ‘a’:

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S = (Yt a0 a1X1t ... ak X kT )2 = (Y Xa)'(Y Xa)

 

 

 

 

 

 

 

 

 

 

t =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

 

помощью

 

непосредственных

вычислений

можно

убедиться,

что

 

S(a)

 

 

Приравнивая

производную

к

 

нулю,

получим

 

a

 

 

 

 

= −2X Y + 2X Xa .

 

YX

 

)

)

 

1

 

МНК – оценок значений параметров

 

= a' X X , т.е.

a

= (X X )

 

X Y – вектор

линейной регрессии.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y = Xa) - подогнанные

значения

«зависимой»

переменной, а

e =Y Y -

апостериорная остаточная разность.

 

 

 

 

 

 

 

 

 

 

Числовые характеристики для сравнения линейных регрессионных моделей

σ2

 

 

Несмещенная

оценка

 

значения дисперсии случайной

 

составляющей

 

 

 

 

 

 

 

 

 

 

 

T

 

Y)t )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Yt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t =1

 

 

 

 

 

определяется соотношением: s2 =

 

 

= (Y

 

Xa) (Y

 

Xa) , а

s = +

s2 -

T k 1

 

T k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

стандартная ошибка оценки. Она является показателем рассеяния наблюдений относительно регрессионной прямой. Из двух моделей рекомендуется выбирать ту, что имеет меньшее значение s2 .

В качестве инструмента для сравнения линейных регрессионных модели традиционно нередко рассматривают коэффициент детерминации

 

T

)

 

 

 

2

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y )

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 =

(Yt

 

 

 

 

 

 

Y Y

 

 

 

 

 

 

 

 

e'e

 

 

. Фактически это доля дисперсии Y,

t =1

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

)2

 

 

 

 

 

Y Y

 

 

 

 

 

 

 

Y Y

 

 

 

(Yt Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t =1

"объясненная" регрессией Y на X’. Заметим, что всегда R2 растет с ростом числа регрессоров. Постепенно усложнение модели за счет роста ее размерности перестает быть адекватным росту ее качества. Поэтому, кроме коэффициента

детерминации

используют

так

же

скорректированный

R2

-

adj R2 =1 (1 R2 )

T

Его величина начинает снижаться при превышении

T k

 

 

 

 

 

 

 

 

размерностью модели некоторого порогового значения, которое и принимается за истинное. Рекомендуется выбирать модель, которая обеспечивает максимальное значение этой характеристики.

Альтернативой adjR2 являются критерии Акаики и Шварца. Критерий Акаике реализует «принцип экономии» (parsimony) и основан на статистике

AIC = 2lnT s2 + 2Tk . В различных статистических пакетах вид статистики может

различаться. Главное, что первое слагаемое отвечает за точность подгонки модели к данным, а второе за сложность модели. При выборе модели следует стремиться к минимизации этой величины. Второе слагаемое в приведенном выражении не позволяет повышать точность подгонки за счет излишнего усложнения модели.

В аналогичном критерии Шварца (байесовский информационный критерий) используется больший штраф за увеличение количества параметров

модели: BIC = 2lnT s2 + k lnT T .

Нечисловые методы сравнения моделей. Нормальная кривая

Одной из наиболее важных характеристик модели является близость закона распределения случайной составляющей модели к нормальному. При выполнении гипотезы о нормальности и небольшом числе измерений становится корректным использование таких важных критериев, как t-критерий Стьюдента проверки значимости оценки значения параметра линейной регрессии. Полноценное решение этой задачи выходит за рамки данной работы. Здесь необходимо только качественно оценить близость этого закона распределения к нормальному и охарактеризовать отличия. Поскольку, как правило, количество наблюдений не очень велико, такие числовые характеристики, как коэффициенты асимметрии и эксцесса часто не отражают реальную ситуацию. В связи с этим особое значение приобретают непараметрические методы решения данной задачи, в частности нормальная кривая.

Из теоремы Гливенко – Кантелли следует, что эмпирическая функция распределения Fn равномерно сходится с вероятностью 1 к истинной - F при