Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив WinRAR / Rost SPSS.doc
Скачиваний:
51
Добавлен:
15.05.2015
Размер:
8.1 Mб
Скачать

6.1.6. Взвешенная регрессия

Пусть прогнозируется вес ребенка в зависимости от его возраста. Ясно, что дисперсия веса для четырехлетнего ребенка будет значительно меньше, чем дисперсия веса 14-летнего юноши. Таким образом, дисперсия остатка iзависит от значенийx, а значит, условия для оценки регрессионной зависимости не выполнены. Проблема неоднородности дисперсии в регрессионном анализе называется проблемой гетероскедастичности.

Гетероскедастичность для сгруппированных данных может быть обнаружена с помощью сравнения дисперсий в группах (критерий Ливиня), визуально или на основании содержания задачи (как в описанном выше примере).

В SPSS имеется возможность корректно сделать соответствующие оценки за счет приписывания весов слагаемым минимизируемой суммы квадратов. Эта весовая функция должна быть равна 1/σ2(x), где σ2(x) – дисперсияyкак функция отx. Естественно, чем меньше дисперсия остатка на объекте, тем больший вес он будет иметь. В качестве такой функции можно использовать ее оценку, полученную при фиксированных значенияхx.

Например, в приведенном примере на достаточно больших данных можно оценить дисперсию для каждой возрастной группы и вычислить необходимую весовую переменную. Увеличение влияния возрастных групп с меньшим возрастом в данном случае вполне оправданно.

В диалоговом окне назначение весовой переменной производится с помощью кнопки WLS(Weighed Least Squares– метод взвешенных наименьших квадратов).

В SPSS имеется возможность оценить весовую переменную как степенную функцию переменной, с которой, по предположению, может быть связан вес. Для этого используется команда Weight Estimationиз раздела менюRegression.

6.1.7. Команда построения линейной модели регрессии

В меню это команда Linear Regression. В диалоговом окне команды:

  • Назначаются независимые и зависимая переменные;

  • Назначается метод отбора переменных. Stepwise – пошаговое включение/удаление переменных.Forward– пошаговое включение переменных.Backward– пошаговое исключение переменных. При пошаговом алгоритме назначаются значимости включения и исключения переменных (Optios).Enter– принудительное включение.

  • Имеется возможность отбора данных, на которых будет оценена модель (Selection). Для остальных данных могут быть оценены значения функции регрессии, их стандартные отклонения и др.

  • Имеется возможность назначения вывода статистик (Statistics) – доверительные коэффициенты коэффициентов регрессии, их ковариационная матрица, статистика Дарбина  Уотсона (для проверки независимости остатков) и пр.

  • Задаются графики рассеяния остатков, их гистограммы (Plots);

  • Назначается сохранение переменных (Save), порождаемых регрессией;

  • Если используется пошаговая регрессия, назначаются пороговые значимости для включения (PIN) и исключения (POUT) переменных (Options);

  • Если обнаружена гетероскедастичность, назначается и весовая переменная.

6.1.8. Пример построения модели

Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в [7]. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию.

Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного).

COMPUTE v9_2 = v9**2.

*квадрат возраста.

REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2

/SAVE PRED MCIN ICIN.

*регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений.

В табл. 6.1 показано, что уравнение объясняет всего 4,5 % дисперсии зависимой переменной (коэффициент детерминации R2 = 0,045), скорректированная величина коэффициента равна 0,042, а коэффициент множественной корреляции равен 0,211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно определить на основании табл. 6.2.

Таблица 6.1