Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика / Регрессия.doc
Скачиваний:
116
Добавлен:
19.02.2016
Размер:
947.71 Кб
Скачать

3. Анализ осгатков

Остатки представляют собой отклонения наблюдаемых значений У, от выровненных У, на основе регрессионной модели:

Если модель адекватна исследуемой зависимости, то в ряду остатков отсутствует систематическая составляющая (ряд не имеет закономерности, его элементы случайны), последовательные остатки независимы между собой, имеют нормальный закон распределения с нулевым математическим ожиданием и постоянной дисперсией.

Щелкнув по кнопке Анализ остатков, выведем на экран окно с результатами исследования.

Группа опций Статистики выводит результаты анализа остатков в виде электронных таблиц.

Нажатие на кнопку Остатки и предсказанные вызовет на экран таблицу с рассчитанными статистиками для каждого наблюдения, основанными на остатках. Графы этой таблицы имеют следующее назначение:

  • Наблюдаемые значения — эмпирические значения зависи-мой переменной У.

  • Предсказанные значения — значения зависимой перемен-ной, выровненные с помощью регрессионной модели.

  • Остатки — наблюдаемые значения минус предсказанные по уравнению регрессии (обратите внимание на показатель Среднее данной графы, нулевое значение свидетель-ствует о правильном построении регрессионной модели).

  • Стандартные предсказанные значения — стандартизован-ные, рассчитанные по уравнению регрессии значения за-висимой переменной.

  • Стандартные остатки — стандартизованные значения остатков, вычисленные как разница между наблюдаемыми значениями и предсказанными, деленная на остаточную среднеквадратическую ошибку.

  • Стандартные ошибки предсказанных значений — ошибки нестандартизованных предсказанных значений.

  • Расстояние Махаланобиса — расстояние от наблюдаемой точки до центра тяжести в пространстве, определенном независимыми переменными. Если независимые перемен-ные не коррелируют между собой, расстояние Махалано-биса совпадает с обычным евклидовым расстоянием. Эта мера позволяет определить — является или нет данное наблюдение выбросом по отношению к остальным.

  • Удаленные остатки — стандартизованное значение остатка, которое имело бы данное наблюдение, если его значение не учитывать при расчетах регрессионного уравнения. Если удаленный остаток значительно отличается от соответствующего стандартизованного значения остатка, то возможно, что это наблюдение является выбросом, поскольку его исключение изменяет уравнение регрессии.

  • Расстояние Кука — мера влияния соответствующего наблюдения на регрессионное уравнение, которая показывает различие между вычисленными значениями нестандартизованных коэффициентов регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. Все расстояния Кука должны иметь примерно одинаковую величину; если это не так, то соответствующее наблюдение (или наблюдения) смещает оценки регрессионных коэффициентов.

Целью всех описанных выше статистик является обнаружение выбросов. Известно, что при N меньших 100 оценки коэффициентов регрессии не являются устойчивыми в силу того, что отдельные аномальные наблюдения могут оказать на них значительное влияние. Следовательно, желательно всегда просматривать эти статистики, используя данную опцию, и после удаления всех выбросов повторить полный регрессионный анализ.

Таблицу с предсказанными значениями и остатками можно эхранить обычным способом через опцию Сохранить остатки предсказанные.

Проверить условие независимости остатков между собои (отсутствие автокорреляции в остатках) можно с помощью критерия Дарбина-Уотсона, для этого выберем опцию Статистика Дарбина-Уотсона.

Коэффициент изменяется от 0 до 4, близость к крайним значениям говорит о плохом качестве модели. Чем ближе к 0, тем вероятнее существование положительной автокорреляции, к 4 — отрицательной. Значение коэффициента Дарбина-Уотсона равное 2 говорит об отсутствии автокорреляции в остатках и адекватности построенного уравнения. В нашем примере он равен__________, что позволяет судить о построенной модели, как ______________.

Рассмотрим графические возможности анализа остатков.

Группа Построчные графики объединяет ряд опций, которые выводят изображения исследуемых элементов в виде некоей модификации таблицы.

Например, опция Графики остатков откроет таблицу результатов, в которой остатки изображены построчно в крайнем левом столбце. Предварительно следует выбрать тип анализируемых остатков: исходные остатки, стандартизованные, расстояния Махаланобиса, удаленные остатки или расстояния Кука. Одновременно в остальных столбцах таблицы вычисляются значе-ния всех статистик остатков.

Опция Графики выбросов позволяет просмотреть имеющиеся аномальные наблюдения. Их состав зависит от предварительной пользовательской настройки:

  • только наблюдения, для которых абсолютное значение стандартизированного остатка больше +2;

  • 100 наиболее удаленных наблюдений, отсортированных в порядке убывания одной из следующих статистик: стандартизованных предсказанных значений, стандартизованных остатков, расстояний Махаланобиса, удаленных остатков, расстояний Кука.

Выберем первый режим настройки и рассмотрим выбросы нашего примера.

Анализ полученной электронной таблицы показывает, что наблюдение № 16 является аномальным, и его значения могли сместить полученные оценки наших регрессионных коэффицитов.

Когда мы строили регрессионное уравнение, то предполагали, что значения остатков распределены нормально, и функция регрессии линейна. Если какое-либо из этих предположений ущественно нарушается, то может получиться завышение или занижение оценок коэффициентов регрессии, а также смещение значимости критериев. Если же модель адекватна данным, то можно ожидать, что значения остатков распределены нормально.

Нормальный вероятностный график, получаемый с помощью опции Нормальный, обеспечивает быстрый способ визуальной проверки того, в какой мере выполняется это условие. Если остатки имеют распределение, отличное от нормального, то точки на графике будут отклоняться от прямой.

На этом графике также становятся заметны выбросы. Если модель плохо согласуется с наблюдениями, и данные располагаются специальным образом около прямой линии (например, имеют S-образный вид), то, возможно, требуется нелинейное преобразование зависимой переменной, например логарифми-рование или извлечение квадратного корня.

Полунормальный вероятностный график строится так же, как и нормальный за исключением того, что рассматривается лишь положительная часть распределения и только положительные нормальные значения изображаются на оси V. Этот график используется в тех случаях, когда исследователя не интересует знак остатка и определяющую роль играют только абсолютные значения.

Проверить условие нормальности остатков можно и с помо-цью опции График остатков группы Гистограммы.

Опция Предсказанные и остатки группы Диаграммы рассеяния показывает расположение остатков в несколько иной форме: по оси X — предсказанные уравнением регрессии значения Y, по оси Y — соответствующие им нестандартизованные остатки. Этот график может оказаться полезным при проверки вредположения о линейности связи между зависимой и незавимыми переменными. Если зависимость линейна, то значения остатков образуют однородное «облако» около центральной линии, при нелинейности расположение точек будет от него отличаться. Например, схожесть с перевернутой буквой U около центральной линии показывает, что предсказанные уравнением регрессии значения устойчиво завышаются на краях ин-тервала и занижаются в центральной части. В этом случае целесообразным является попробовать построить полиномиальную регрессию, а именно, включить в уравнение квадраты и кубы исходных независимых переменных (Х**2, Х**3 и т.д.) Ниже по данным нашего примера приводится график остатков, полученный с помощью рассматриваемой опции.

Опция Предсказанные и квадраты остатков позволяет визу-ально более ярко выделить наиболее отклоняющиеся остатки (на оси Y располагаются их квадраты) и обнаружить выбросы.

Графики Наблюдаемые и остатки и Наблюдаемые и квадраты остатков выполняют ту же функцию обнаружения выбросов и групп наблюдений, предсказанные значения для которых постоянно завышаются или занижаются.

Насколько хорошо построенная модель описывает рассмат-риваемое явление можно судить, построив график линейной зависимости предсказанных значений от наблюдаемых (опция Предсказанные и наблюдаемые):

Следующая опция Остатки и удаленные остатки графически показывает расхождения между удаленными остатками и обыч-ными стандартизованными остатками.

Напомним, что под удалетыми остатками понимаются стандартизованные остатки, которые получились бы при исключении соответствующего наблюдения из процедуры оценивания коэффициентов регрессионного уравнения. Таким образом, если имеются большие расхождения между удаленными и обычными остатками, то можно заключить, что значения регрессионных коэффициентов не являются достаточно устойчивыми и зависят от отдельных наблюдений, которые, судя по всему, являются выбросами.

Если исследуемая регрессионная модель проверена на качезо и признана адекватной, естественным является ее испольэвание в прогнозных целях. Для этого вернемся к окну Реультаты множественной регрессии и выберем кнопку Предскаать зависимую переменную.

В появившемся диалоговом окне введем значения независимых переменных и нажмем ОК.

На экране появится таблица с результатами вычисления значения независимой переменной на основе построенного уравнения регрессии

Для предсказанного значения также вычисляются доверитель-ные границы, обозначаемые в таблице результатов ДГ, или границы для предсказания — ГП, в зависимости от того, какой режим Доверительные границы для средних или Границы для предсказания выбран в диалоговом окне Результаты множе-ственной регрессии. Кроме того, можно поменять доверитель-ную вероятность, введя в поле Уровень значимости свой α-уровень