Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книжка----11.06-2.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
5.5 Mб
Скачать

Оценка модели линейной множественной регрессии в целом. Коэффициент детерминации

Для такой оценки используется F-тест. При построении статистики используются следующие вспомогательные переменные:

1) полная вариация

, (4.33)

2) объясненная вариация

, (4.34)

3) остаточная вариация

. (4.35)

Наиболее часто в практических расчетах для оценки качества всего уравнения в целом применяется коэффициент детерминации, т.е. доля объясненной вариации в полной вариации. Считается, что чем больше эта доля, тем лучше уравнение регрессии описывает изучаемое явление.

Имеет место тождество

, (4.36)

откуда получаем

.

Коэффициент детерминации обозначается и определяется следующим соотношением:

. (4.37)

Для проверки гипотезы о значимости модели в целом вводится -статистика

. (4.38)

Статистика (4.39) подчиняется распределению Фишера с и степенями свободы.

Сформулируем правила проверки гипотезы:

Если < , при заданном уровне значимости модель в целом не значима.

Если > , при заданном уровне значимости модель в целом значима.

Здесь – правосторонняя критическая граница распределения Фишера.

В случае множественной регрессии -тест и -тест не эквивалентны (как это было в случае парной регрессии). Может оказаться значимой модель со всеми «незначимыми» коэффициентами.

Отметим связь коэффициента детерминации с коэффициентами парной корреляции:

. (4.39)

Для доказательства воспользуемся равенствами

Возводя в квадрат и суммируя по , получаем

(4.40)

Записывая в виде и учитывая, что (см. условия ортогональности (4.14)), получаем (4.40) в виде

,

откуда

В случае парной регрессии эта формула совпадает с (3.109). Число называют выборочным коэффициентом множественной корреляции.

Использование только одного коэффициента детерминации для выбора наилучшего уравнения регрессии может оказаться недостаточным. На практике встречаются случаи, когда плохо определенная модель регрессии может дать сравнительно высокий коэффициент . Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и необязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный коэффициент детерминации . Чем больше число объясняющих переменных, тем меньше скорректированный коэффициент детерминации по сравнению с .

Скорректированный коэффициент детерминации

Скорректированный коэффициент детерминации определяется следующим соотношением:

. (4.41)

При введении в модель новой переменной скорректированный коэффициент детерминации (в отличие от ) возрастает тогда и только тогда, когда -статистика коэффициента при новой переменной по абсолютной величине оказывается больше единицы.

Интервальный прогноз в случае множественной регрессии. Оценка качества прогноза

Точечный прогноз

Точечный прогноз по уравнению регрессии осуществляется путем подстановки значений независимых переменных в оценку детерминированной составляющей ( = ( , …, )):

, (4.42)

где  прогнозное значение объясняющей переменной с номером j.

Этот прогноз является несмещенным, так как несмещенными являются оценки параметров регрессии:

. (4.43)

Интервальный прогноз

Интервальный прогноз строится так же, как интервальная оценка для параметров регрессии: за середину доверительного интервала выбираем точечную оценку детерминированной составляющей , а затем отступаем от середины на величину, пропорциональную стандартному отклонению оценки , с коэффициентом пропорциональности, равным двусторонней критической границе распределения Стьюдента , отвечающей уровню значимости α.

Необходимо оценить значение объясняемой переменной в точке . представляет собой вектор прогнозных значений объясняемых переменных:

. (4.44)

Для того чтобы получить прогнозное значение объясняемой переменной, нужно подставить вектор (4.44) в следующее выражение:

. (4.45)

В свою очередь, детерминированная составляющая описывается соотношением

, (4.46)

где – вектор истинных значений параметров модели. Отсюда

. (4.47)

т.е. – случайная величина, имеющая нормальное распределение с математическим ожиданием, совпадающим с детерминированной составляющей.

Вычислим дисперсию :

(4.48)

Используя равенства , и получаем

.

Таким образом,

. (4.49)

Отсюда при заданном уровне значимости получаем теоретический интервальный прогноз

(4.50)

и практический интервальный прогноз

, (4.51)

где

; (4.52)

. (4.53)

Из неравенств (4.50) и (4.51) следует, что качество прогноза (длина доверительного интервала) меняется с удалением от средних значений объясняющих переменных. При этом длина доверительного интервала увеличивается, вследствие чего качество прогноза падает.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]