Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив WinRAR / Rost SPSS.doc
Скачиваний:
51
Добавлен:
15.05.2015
Размер:
8.1 Mб
Скачать

6.1. Классическая линейная модель регрессионного анализа

В линейной модели предполагается, что зависимая переменная yсвязана со значениями независимых показателейxk(факторов) формулой2

.

Традиционные названия «зависимая» для yи «независимые» дляxkотражают не столько статистический смысл, сколько их содержательную интерпретацию.

Величина iназывается ошибкой регрессии. В классической модели предполагается, что регрессионные ошибки независимы и распределены нормально с параметрамиN(0,σ2). Кроме того, в данной модели мы рассматриваем переменныеxкак неслучайные значения. Такое на практике получается, когда идет активный эксперимент, в котором задают значенияx(например, назначили зарплату работнику), а затем измеряют y(оценили, какой стала производительность труда). Поэтому зависимую переменную иногда называют откликом. Теория регрессионных уравнений со случайными независимыми переменными сложнее, но известно, что при большом числе наблюдений использование метода, разработанного для случайныхX, корректно.

Для получения выборочных оценок bk коэффициентовBkрегрессии минимизируется сумма квадратов ошибок регрессии:

.

Решение задачи сводится к решению системы линейных уравнений относительно bk.

На основании оценок регрессионных коэффициентов рассчитываются оценки значений y:

.

По сути дела, эти оценки являются оценками математического ожидания Yпри заданных значенияхX.

О качестве полученного уравнения регрессии можно судить, исследовав – оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле.

Величина Sназывается стандартной ошибкой регрессии. Чем меньше величинаS, тем лучше уравнение регрессии описывает независимую переменнуюy.

Так как мы ищем оценки bk, используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:

  1. Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?

  2. Существенно ли влияние на зависимую переменную отдельных независимых переменных?

В пакете вычисляются статистики, позволяющие решить эти задачи.

6.1.1. Существует ли линейная регрессионная зависимость?

Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:

.

В этом разложении обычно обозначают:

– общую сумму квадратов отклонений;

– сумму квадратов регрессионных отклонений;

– разброс по линии регрессии.

Статистика в условиях гипотезы равенства нулю регрессионных коэффициентов имеет распределение Фишера, и, естественно, по этой статистике проверяют, являются ли коэффициентыB1, …,Bpодновременно нулевыми. Если наблюдаемая значимость статистики Фишера мала (например, sigF = 0,003), то это означает, что данные распределены вдоль линии регрессии и гипотеза отвергается; если значимость велика (например, Sign F = 0,12), то, следовательно, данные не связаны такой линейной связью, гипотеза не отвергается.

6.1.2. Коэффициенты детерминации и множественной корреляции

При анализе качества регрессии нужно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg SStпредставляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной, объясненной уравнением регрессии, называется коэффициентом детерминации. В двумерном случае коэффициент детерминации совпадает с квадратом коэффициента корреляции.

Корень из коэффициента детерминации называется коэффициентом множественной корреляции(он является коэффициентом корреляции междуyи). Оценкой коэффициента детерминации () являетсяR2 = 1 –SSres / SSt. Соответственно, величинаRявляется оценкой коэффициента множественной корреляции. Следует иметь в виду, чтоR2является смещенной оценкой. Корректированная оценка коэффициента детерминации получается по формуле

.

В этой формуле используются несмещенные оценки дисперсий регрессионного остатка и зависимой переменной.