Скачиваний:
106
Добавлен:
21.01.2014
Размер:
645.12 Кб
Скачать

Взвешенная регрессия

Пусть прогнозируется вес ребенка в зависимости от его возраста. Ясно, что дисперсия веса для четырехлетнего младенца будет значительно меньше, чем дисперсия веса 14-летнего юноши. Таким образом, дисперсия остатка i зависит от значений X, а значит условия для оценки регрессионной зависимости не выполнены. Проблема неоднородности дисперсии в регрессионном анализе называется проблемой гетероскедастичности.

В SPSS имеется возможность корректно сделать соответствующие оценки за счет приписывания весов слагаемым минимизируемой суммы квадратов. Эта весовая функция должна быть равна 1/σ2(x), где σ2(x) - дисперсия y как функция от x. Естественно, чем меньше дисперсия остатка на объекте, тем больший вес он будет иметь. В качестве такой функции можно использовать ее оценку, полученную при фиксированных значениях X.

Например, в приведенном примере на достаточно больших данных можно оценить дисперсию для каждой возрастной группы и вычислить необходимую весовую переменную. Увеличение влияния возрастных групп с меньшим возрастом в данном случае вполне оправдано.

В диалоговом окне назначение весовой переменной производится с помощью кнопки WLS (Weighed Least Squares - метод взвешенных наименьших квадратов).

Команда построения линейной модели регрессии

В меню - это команда Linear Regression. В диалоговом окне команды:

  • Назначаются независимые и зависимая переменные,

  • Назначается метод отбора переменных. STEPWISE - пошаговое включение/удаление переменных. FORWARD - пошаговое включение переменных. BACKWARD - пошаговое исключение переменных. При пошаговом алгоритме назначаются значимости включения и исключения переменных (OPTIONS). ENTER - принудительное включение.

  • Имеется возможность отбора данных, на которых будет оценена модель (Selection). Для остальных данных могут быть оценены прогнозные значения функции регрессии, его стандартные отклонения и др.

  • Назначения вывода статистик (Statistics) - доверительные коэффициенты коэффициентов регресии, их ковариационная матрица, статистики Дарбина-Уотсона и пр.

  • Задаются графики рассеяния остатков, их гистограммы (Plots)

  • Назначаются сохранение переменных(Save), порождаемых регрессией.

  • Если используется пошаговая регрессия, назначаются пороговые значимости для включения (PIN) и исключения (POUT) переменных (Options).

  • Если обнаружена гетероскедастичность, назначается и весовая переменная.

Пример построения модели

Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в Руководстве по применению SPSS. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию.

Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому, прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную - квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного).

Compute v9_2=v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD=ENTER v9 v9_2

/SAVE PRED MCIN ICIN.

*регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений.

Таблица 5.1 показывает, что уравнение объясняет всего 4.5% дисперсии зависимой переменной (коэффициент детерминации R2=.045), скорректированная величина коэффициента равна 0.042, а коэффициент множественной корреляции равен 0.211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно понять, рассматривая таблицу 6.2.

Таблица 6.1. Общие характеристики уравнения

R

R Square

Adjusted R Square

Std. Error of the Estimate

.211

.045

.042

.5277

a Predictors: (Constant), V9_2, V9 Возраст

b Dependent Variable: LNV14M логарифм промедианного дохода

Результаты дисперсионного анализа уравнения регрессии показывает, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.

Таблица 6.2. Дисперсионный анализ уравнения

Sum of Squares

df

Mean Square

F

Sig.

Regression

8.484

2

4.242

15.232

.000

Residual

181.298

651

.278

Total

189.782

653

a Predictors: (Constant), V9_2, V9 Возраст

b Dependent Variable: LNV14M логарифм промедианного дохода

Таблица 6.3. Коэффициенты регрессии.

Unstandardized Coefficients

Standardized Coefficients

T

Sig.

B

Std. Error

Beta

(Constant)

-1.0569

0.1888

-5.5992

0.0000

V9 Возраст

0.0505

0.0093

1.1406

5.4267

0.0000

V9_2

-0.0006

0.0001

-1.0829

-5.1521

0.0000

Регрессионные коэффициенты представлены в таблице 6.3. В соответствии с ними, уравнение регрессии имеет вид

Лог.промед.дохода = -1.0569+0.0505*возраст-0.0006*возраст2

Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения -t статистики, по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию - коэффициенты бета по абсолютной величине больше единицы. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика.

Рисунок 6.1 показывает линию регрессии и доверительные границы для M(y) - матожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной - прогнозом, с переменными - доверительными границами:

GRAPH /SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).

Границы для M(y) значительно уже, чем для y, так как последние должны охватывать больше 95% точек графика.

На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной - возраста. Некоторое сужение рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.

Соседние файлы в папке Учебник по SPSS, учебное пособие