Скачиваний:
106
Добавлен:
21.01.2014
Размер:
645.12 Кб
Скачать

Значимость включения переменной в регрессию

При последовательном подборе переменных в SPSS предусмотрена автоматизация, основанная на значимости включения и исключения переменных. Рассмотрим, что представляет собой эта значимость.

Обозначим коэффициент детерминации, полученный при исключении из правой части уравнения переменнойxk (зависимая переменная y). При этом мы получим уменьшение объясненной дисперсии, на величину

.

Для оценки значимости включения переменной xk используется статистика , имеющая распределение Фишера при нулевом теоретическом приросте. Вообще, если из уравнения регрессии исключаютсяq переменных, статистикой значимости исключения будет .

Пошаговая процедура построения модели

Основным критерием отбора аргументов должно быть качественное представление о факторах, влияющих на зависимую переменную, которую мы пытаемся смоделировать. В SPSS очень хорошо реализован процесс построения регрессионной модели: на машину переложена значительная доля трудностей в решении этой задачи. Возможно построение последовательное построение модели добавлением и удалением блоков переменных. Но мы рассмотрим только работу с отдельными переменными.

По умолчанию программа включает все заданные переменные (метод ENTER).

Метод включения и исключения переменных (STEPWISE) состоит в следующем.

Из множества факторов, рассматриваемых исследователем как возможные аргументы регрессионного уравнения, отбирается один xk, который более всего связан корреляционной зависимостью с y. Для этого рассчитываются частные коэффициенты корреляции остальных переменных с y при xk, включенном в регрессию, и выбирается следующая переменная с наибольшим частным коэффициентом корреляции. Это равносильно следующему: вычислить регрессионный остаток переменной y; вычислить регрессионный остаток независимых переменных по регрессионным уравнениям их как зависимых переменных от выбранной переменной (т.е. устранить из всех переменных влияние выбранной переменной); найти наибольший коэффициент корреляции остатков и включить соответствующую переменную x в уравнение регрессии. Далее проводится та же процедура при двух выбранных переменных, при трех и т.д.

Процедура повторяется до тех пор, пока в уравнение не будут включены все аргументы выделенные исследователем, удовлетворяющие критериям значимости включения.

Замечание: во избежание зацикливания процесса включения/исключения значимость включения устанавливается меньше значимости исключения.

Переменные, порождаемые регрессионным уравнением

Сохранение переменных, порождаемых регрессией, производится подкомандой SAVE.

Благодаря полученным оценкам коэффициентов уравнения регрессии могут быть оценены прогнозные значения зависимой переменной , причем они могут быть вычислены и там, где значенияy определены, и там где они не определены. Прогнозные значения являются оценками средних, ожидаемых по модели значений Y, зависящих от X.

Поскольку коэффициенты регрессии - случайные величины, линия регрессии также случайна. Поэтому прогнозные значения случайны и имеют некоторое стандартное отклонение , зависящее отX. Благодаря этому можно получить и доверительные границы для прогнозных значений регрессии (средних значений y).

Кроме того, с учетом дисперсии остатка могут быть вычислены доверительные границы значений Y (не средних, а индивидуальных!).

Для каждого объекта может быть вычислен остаток ei=. Остаток полезен для изучения адеквантности модели данным. Это означает, что должны быть выполнены требования о независимости остатков для отдельных наблюдений, дисперсия не должна зависеть отX.

Для изучения отклонений от модели удобно использовать стандартизованный остаток - деленный на стандартную ошибку регрессии.

Случайность оценки прогнозных значений Y вносит дополнительную дисперсию в регрессионный остаток, из-за этого дисперсия остатка зависит от значений независимых переменных (). Стьюдентеризованный остаток - это остаток деленный на оценку дисперсии остатка:.

Таким образом, мы можем получить: оценку (прогнозную) значений зависимой переменной Unstandardized predicted value), ее стандартное отклонение (S.E. of mean predictions), доверительные интервалы для среднего Y(X) и для Y(X) (Prediction intervals - Mean, Individual).

Это далеко не полный перечень переменных, порождаемых SPSS.

Соседние файлы в папке Учебник по SPSS, учебное пособие