- •5.1. Простая линейная регрессия
- •5.1.1. Назначение простой линейной регрессии
- •5.1.2. Вызов процедуры
- •5.1.3. Установка параметров
- •5.1.4. Вид результатов
- •5.2.2.2. Метод пошагового исключения (backward elimination)
- •5.2.2.3. Метод пошагового включения (forward selection)
- •5.2.2.4. Метод пошагового отбора (stepwise selection)
- •5.2.2.5. "Оптимальное" число независимых переменных
- •5.2.3. Вид результатов расчета множественной линейной регрессии
- •5.3. Нелинейная регрессия
- •5.3.1. Подгонка кривых
- •5.3.2. Использование фиктивных переменных
- •5.3.2.1. Модели нелинейные по переменным
- •5.3.2.2. Модели нелинейные по параметрам
- •5.4. Анализ остатков
- •5.4.1. Назначение анализа остатков
- •5.4.2. Понятие остатков
- •5.4.3. Проверка линейности
- •5.4.3.1. График остатков по экспериментальным значениям у
- •5.4.3.3. График остатков по независимой переменной
- •5.4.4. Однородность дисперсий
- •5.4.5. Независимость ошибок
- •5.4.6. Нормальность остатков
- •5.4.6.1. Построение гистограммы остатков
- •5.4.6.2. Построения графика остатков на нормальной вероятностной бумаге
- •5.4.7. Выявление выбросов
- •5.4.7.1. Проверка на выбросы зависимой переменной
- •5.4.7.2. Проверка на выбросы независимой переменной
- •5.4.8. Выявление существенных наблюдений
- •5.4.8.1. Включение и исключение подозрительного наблюдения
- •5.4.8.2. Вычисление расстояния Кука
- •5.4.9. Некоррелированность независимых переменных.
- •5.4.9.1. Вычисление фактора "вздутия" вариации
- •5.4.9.2. Вычисление собственных чисел
5.2.3. Вид результатов расчета множественной линейной регрессии
Представим результаты расчета для параметров, приведенных на рис.5-8.
Рис. 5-8. Множественная регрессия с методом пошагового включения и выключения переменных в модель
Рис.5-9. Общие параметры
Рис.5-10. Суммарные характеристики модели по шагам
Рис.5-11. Коэффициенты моделей по шагам
Рис.5-12. Изменение модели по шагам
Рис.5-13. Исключенные из моделей переменные по шагам
Детальный анализ результатов произведем на практическом занятии. Заметим только, что переменные Wag_R_M и RTRD имеют положительную корреляция с зависимой переменной, а IPCDE и IMQ – отрицательную.
5.3. Нелинейная регрессия
Регрессия, парная или множественная, совсем не обязательно должна быть линейной. Существует много других, нелинейных, форм для ее выражения. В SPSS для формирования нелинейной регрессии предусмотрены следующие технологии:
подгонка кривых;
использование фиктивных переменных,
собственно нелинейная регрессия.
Кроме того, предусмотрены методы расчета специфических форм регрессии.
5.3.1. Подгонка кривых
Подгонка кривых предназначена, в первую очередь, для вычисления парной нелинейной регрессии. Косвенно, с некоторыми усложнениями, она может быть использована и для расчета множественной нелинейной регрессии. Эта процедура позволяет вычислять статистики и строить графики для различных типовых регрессионных моделей. Можно также сохранять предсказанные значения, остатки и интервалы прогнозирования в виде новых переменных.
Предлагаемые модели соответствуют следующим типам (выражаемым посредством формул) - см. табл. 5.1.
Таблица 5.1
Типы моделей
Модель |
Формула |
Линейная |
у = b0 + b1*х |
Логарифмическая |
y = b0 + b1*lnx |
Обратная (гиперболическая) |
y = b0+b1/x |
Квадратичная |
у=b0 + b1*х + b2*х2 |
Кубическая |
у = b0 + b1*х + b2*х2 + b3*х3 |
Степенная |
у = b0*xb1 |
Показательная |
у=b0*b1x |
S |
у=еb0+b1*x |
Логистическая |
у=1/(1/u+b0(b1x)) |
Рост |
у = e(b0+b1x) |
Экспоненциальная |
у=b0(eb1x) |
Требования к данным:
зависимые и независимые переменные должны быть количественными;
если в качестве независимой переменной выбрано Время, а не переменная из исходного файла данных, зависимая переменная должна представлять собой временной ряд.
Исходные допущения:
остатки должны представлять собой случайные величины и распределяться по нормальному закону.
При использовании линейной модели предъявляются такие же требования, как и для обычной линейной регрессии.
Прежде чем запустить выполнение процедуры, полезно ознакомиться с расположением исходных точек на графике, чтобы определить наиболее подходящие кривые. Хотя, это не обязательно.
Выполним последовательность команд Chart/Legacy Dialogs (рис.5-14). В окне Scatter/Dot (рис. 5-15) установим флажок в ячейке Простая. Затем в следующем диалоговом окне Диаграмма рассеяния (рис. 5-16) укажем показатели для осей графика.
Рис.5-14. Выбор команд просмотр графика рассеяния
Рис.5-15. Уточнение типа графика
Рис.1-16. Установка параметров графика
Рис.5-17. Облако исходных точек по годам
В результате получим облако рассеяния исходных точек (рис. 5-17).
Предполагаем, что наилучшее приближение к этому облаку может обеспечить одна из следующих моделей: логарифмическая, квадратичная, кубическая, гиперболическая.
Теперь обратимся к процедуре подгонка кривых, для чего выполним последовательность команд Анализ >• Регрессия >■ Подгонка кривых (рис.5-18).
Рис.5-18. Выбор команд по подбору кривых
В окне Подгонка кривых (рис. 5-19) активизируем отобранные модели. Кроме того, установим флажки в ячейках Включать константу (в формуле для каждой модели), Графики моделей (для вывода графических зависимостей), Вывести таблицу дисперсионного анализа (для фиксации оценок качества регрессии). В результате получатся графики отобранных функций и, дополнительно, график аппроксимации наблюденных значений.
Рис. 5-19. Окно Подгонка кривых
Сравнение всех этих кривых (рис.5-20) показывает, что наилучшее приближение к множеству исходных точек дает кубическая модель:
Индекс РТС = b0+ b1(Время) + b2*( Время)^2 + b3*( Время)^3.
Оснований для такого утверждения два:
это видно из подобия кривых кубической модели и реальных значений (рис. 5-20);
данный вывод подтверждается результатами дисперсионного анализа для кубической модели (рис. 5-21), согласно которым R2 = 0,915, F=468,860, что говорит о хорошем приближении. Данный анализ проводится для каждой из сравниваемых моделей, и для кубической модели значения являются наибольшими.
Параметры кубической модели:
b0=957,535;
b1=113,857;
b2=-2,913;
b3=0,022.
Рис.5-20. Графики подогнанных кривых и исходные точки
Рис.5-21. Суммарные характеристики моделей