Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 5-Регрессия.doc
Скачиваний:
7
Добавлен:
08.09.2019
Размер:
611.33 Кб
Скачать

18

Лекция 5. Регрессионный анализ 5-

Лекция 5. Регрессионный анализ

Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.

Содержание

5.1. Простая линейная регрессия 1

5.1.1. Назначение простой линейной регрессии 1

5.1.2. Вызов процедуры 2

5.1.3. Установка параметров 2

5.1.4. Вид результатов 4

5.2. Простая множественная регрессия 5

5.2.1. Назначение простой множественной регрессии 5

Наиболее распространенный метод решения - Метод наименьших квадратов (МНК) получения коэффициентов модели 5

5.2.2. Отбор переменных во множественной регрессии 5

5.2.2.1. Назначение отбора переменных 5

5.2.2.2. Метод пошагового исключения (backward elimination) 5

5.2.2.3. Метод пошагового включения (forward selection) 5

5.2.2.4. Метод пошагового отбора (stepwise selection) 6

5.2.2.5. "Оптимальное" число независимых переменных 6

5.2.3. Вид результатов расчета множественной линейной регрессии 7

5.3. Нелинейная регрессия 9

5.3.1. Подгонка кривых 9

5.3.2. Использование фиктивных переменных 13

5.3.2.1. Модели нелинейные по переменным 13

5.3.2.2. Модели нелинейные по параметрам 13

5.4. Анализ остатков 14

5.4.1. Назначение анализа остатков 14

5.4.2. Понятие остатков 14

5.4.3. Проверка линейности 15

5.4.3.1. График остатков по экспериментальным значениям У 15

5.4.3.3. График остатков по независимой переменной 15

5.4.4. Однородность дисперсий 15

5.4.5. Независимость ошибок 15

5.4.6. Нормальность остатков 15

5.4.6.1. Построение гистограммы остатков 16

5.4.6.2. Построения графика остатков на нормальной вероятностной бумаге 16

5.4.7. Выявление выбросов 16

5.4.7.1. Проверка на выбросы зависимой переменной 16

5.4.7.2. Проверка на выбросы независимой переменной 16

5.4.8. Выявление существенных наблюдений 17

5.4.8.1. Включение и исключение подозрительного наблюдения 17

5.4.8.2. Вычисление расстояния Кука 17

5.4.9. Некоррелированность независимых переменных. 17

5.4.9.1. Вычисление фактора "вздутия" вариации 17

5.4.9.2. Вычисление собственных чисел 17

5.1. Простая линейная регрессия

5.1.1. Назначение простой линейной регрессии

Основная цель построения регрессии - это стремление, используя некий набор «наблюдений», получить количественные и качественные зависимости для различных соотношений. Очевидно, что мы не можем просчитать влияние абсолютно всех факторов - мы осознанно упрощаем действительность, строя модель. Таким образом, мы работаем уже с некоторой эконометрической моделью, которая выражается в достаточно простой математической форме. Отличительной особенностью эконометрической модели будет являться наличие случайной (стохастической) составляющей (ei), учитывающей возможные ошибки при сборе данных, построении выборки и ее обработки.

Простейшей эконометрической моделью является простая линейная регрессия, имеющая вид:

Yj = а + bXi + ei, где

Yj- является зависимой переменной;

Xi - регрессором (объясняющей переменной);

а и b – коэффициенты;

еi - случайная составляющая.

Для нахождения неизвестных коэффициентов SPSS использует метод наименьших квадратов (МНК). Введем основные предпосылки:

1. Yj = а + bXi + еi - спецификация модели.

2. Xi-детерминированная величина.

3. ∑(еi)=0

4. Var(ei)=cr2

5. ∑ (еi, ej) = 0, при i≠j - некоррелированность ошибок для разных наблюдений.

Суть метода заключается в следующем. У нас есть набор наблюдений Yi, Xi и требуется подобрать функцию Y = f(X), наилучшим образом описывающую зависимость у от х (рис.5-1).

Фактически задача сводится к наилучшему подбору коэффициентов с тем, чтобы сумма квадратов отклонений была минимальной.

Рис.5-1. Графическая интерпретация простой линейной регрессии

Решая стандартную задачу минимизации, получаем, что

5.1.2. Вызов процедуры

Для вызова процедуры линейной регрессии необходимо выполнить следующую последовательность действий:

в командной строке окна ввода данных открыть меню Analyze , далее подменю Regression и затем Linear.

5.1.3. Установка параметров

После вызова процедуры появится диалоговое окно Linear Regression (рис.5-2):

Рис.5- 2. Вид диалогового окна Linear Regression

1.В строку Dependent должна быть занесена зависимая переменная (yi) в строку Independent- независимая.

2. Независимые переменные могут задаваться двумя способами: блоками и путем выбора метода (меню Method) формирования группы.

В списке Method имеются следующие возможности:

  • Enter - простейший способ - все данные формируются в единую группу.

  • Remove - это метод, который позволяет отбрасывать переменные в процессе определения конечной модели.

  • Stepwise - это метод, который позволяет добавлять и удалять отдельные переменные в соответствии с параметрами, установленными в окне Options.

  • Backward - данный метод позволяет последовательно удалять переменные из модели в соответствии с параметрами в окне Options, до того момента, пока это возможно (например по критерию значимости).

  • Forward - данный метод позволяет последовательно добавлять переменные в модель в соответствии с параметрами в окне Options, до того момента, пока это возможно.

Рассмотрим другие клавиши диалогового окна:

WLS - взвешенный метод наименьших квадратов - присваивает наблюдениям различные веса, чтобы компенсировать различную точность измерений.

Statistics - параметры вывода (диалоговое окно представлено на рис 5-3).

Рис.5-3. Вид диалогового окна Statistics

В диалоговом окне Statistics имеются следующие возможности:

  • Estimates- выводит непосредственно оценки коэффициентов.

  • Confidence intervals - доверительный интервал для коэффициентов (уровень значимости)

  • Covariance matrix - выводит ковариационную матрицу оценок коэффициентов.

  • Model fit - включает множественный R, R-квадрат, нормированный R-квадрат, стандартную ошибку оценки и таблицу анализа дисперсии (TSS, RSS).

  • R squared change - включает R, R-квадрат, F-статистику и их изменения при добавлении-удалении переменных.

  • Descriptives – выдается число наблюдений без пропущенных значений, среднее значение и стандартное отклонение для каждой анализируемой переменной. Также выводится корреляционная матрица с односторонним уровнем значимости и число наблюдений для каждой корреляции.

  • Part and partial correlations - выдаются корреляции нулевого порядка (те. Обычные парные), частные и частичные корреляции.

  • Collinearity diagnostics – выдаются собственные значения масштабированной и нецентрированной матрицы сумм перекрестных произведений, числа обусловленности, доли в разложении дисперсии, коэффициенты разбухания дисперсии (VIF – variance inflation factor), толерантности для отдельных переменных.

  • Durbin-Watson - тест для выявления автокорреляции. Если DW больше 2 -отрицательная автокорреляция, меньше 2 - положительная.

Plots - графическая иллюстрация. При ее активизации выводится диалоговое окно (рис.5-4).

В диалоговом окне Plots имеются возможности:

Типы переменных:

  • DEPENDNT - зависимая переменная;

  • ZPRED - предсказываемые значения зависимой переменной (экстраполяция). Может быть стандартизирована с математическим ожиданием 0 и стандартным отклонением 1;

  • ZRESID - отклонение: еii- Y^ ;

  • DRESID - исключенные остатки (разности) ;

  • ADJPRED - нормированные предсказанные значения;

  • SRESID - остатки, стандартизованные на оценку их стандартного отклонения.

Produce all partial plots - строит точечную диаграмму остатков независимых переменных.

Рис.5-4. Вид диалогового окна Plots

Save - каждый пункт добавляет одну или более переменных в файл данных Predicted Values

  • Standardized - экстраполирование зависимой переменной;

  • Adjusted - экстраполирование для случая, который выбрасывается при вычислении коэффициентов регрессии;

  • S.E. of mean pred. value - оценка стандартного отклонения среднего значения зависимой переменной для случая, когда независимые переменные имеют такие же значения Residuals;

  • Unstandardized - отклонение: еi = Yi - Y^;

  • Deleted - исключенные остатки (разности).

Options - настройка для пошагового метода:

  • Use probability of F - уровень значимости (для ввода должен быть меньше, чнм для удаления);

  • Use P value - использование Р-значений;

  • Exclude cases listwise - использование только тех ячеек, которые содержат верные (корректные) значения;

  • Exclude cases painwise - рассчитывает каждый коэффициент корреляции, используя все ячейки с корректными значениями;

  • Replace with mean - замещает недостающее значение средним значением переменной.