Лабораторная работа № 3 Регрессионный анализ
Задачи
|
|
|
|
План проведения лабораторной работы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. Теоретическая часть
1.1 Построение регрессионной модели и оценка её адекватности
Регрессионный анализ – это один из наиболее известных статистических методов, применяемых для решения задач такого рода. Основная цель регрессионного анализа состоит в определении связи между некоторой характеристикой У наблюдаемого явления или объекта и величинами jch х2,..., хт, которые обусловливают, объясняют изменения у. Переменная называется зависимой переменной (откликом), объясняющие переменные дс„ х2,..., хт называются предикторами, регрессорами или факторами.
Рассмотрим пример расчета простой линейной регрессии с небольшим объемом данных. Исходные данные: результаты наблюдений зависимой переменной (у) и фактора (х) размещены в табл.1.1.
Таблица 1.1
Исходные данные для построения регрессионной модели
у |
х |
4,0 |
5,5 |
5,6 |
8,1 |
5,7 |
8,5 |
3,6 |
5,9 |
4,0 |
7,8 |
Откроем новый файл данных. В таблице удалим ненужные столбцы и строки наблюдений. Дадим имена переменным: у – зависимая переменная, х – фактор (независимая переменная). В ячейки таблицы введём данные.
Рис.1.1. Внешний вид окна для построения регрессионной модели
Построим график исходных данных. Для этого можно воспользоваться меню «Графика» и выбрать необходимый тип графика. В нашем примере мы воспользуемся двумерными диаграммами рассеяния.
Рис.1.2. Внешний вид окна для построения двумерной диаграммы рассеяния
В диалоговом окне при помощи кнопки «Переменные» выберем необходимые переменные, которые хотим отобразить графически и необходимый тип графика. Диаграмма рассеяния с прямой регрессии у на х показана на рис. 1.3.
В меню «Анализ» выберем модуль «Множественная регрессия» (рис.1.4). После запуска модуля на экране откроется стартовая панель модуля (рис.1.5). Далее выберем переменные для анализа (воспользуйтесь кнопкой «Переменные»). В качестве зависимой переменной выберите у, в качестве независимой – х. После определения зависимых и независимых переменных на стартовой панели нажмите ОК. Появится окно с результатами вычислений (рис.1.6).
Рис.1.3. Диаграмма рассеяния и прямая регрессии у на х
Рис.1.4. Выбор модуля «Множественная регрессия»
Рис.1.5. Стартовая панель модуля «Множественная регрессия»
Рис.1.6. Окно результатов множественной регрессии
В диалоговом окне «Результаты множ. регрессии» просмотрим результаты оценивания. Результаты можно просмотреть в численном и графическом виде. Окно результатов анализа имеет следующую структуру: верх окна – информационный. Он состоит из двух частей: в первой части содержится основная информация о результатах оценивания, во второй высвечиваются значимый стандартизованный регрессионный коэффициент х бета=,793; стандартизованный коэффициент регрессии вычисляется но формуле
, (1.1)
где sx и sy — оценки среднеквадратических отклонений для переменных х и у.
Внизу окна «Результаты множественной регрессии» во вкладках «Дополнительно» и «Остатки/предсказательные/наблюдательные значения» находятся функциональные кнопки, позволяющие всесторонне рассмотреть результаты анализа.
Рассмотрим вначале информационную часть окна. В ней содержатся краткие сведения о результатах анализа. А именно:
«Зав.перем.» – имя зависимой переменной (у);
«Число набл.» – число наблюдений (объем выборки, п), по которым построена регрессия (п = 5);
«Множеств. R» – коэффициент множественной корреляции (описывает степень линейной зависимости между у и факторами); в случае простой линейной регрессии равен модулю коэффициента корреляции;
R2 – квадрат коэффициента множественной корреляции (коэффициент детерминации). Если регрессионная модель значима, то коэффициент детерминации равен той доле дисперсии ошибок наблюдений, которая объясняется регрессионной моделью.
Коэффициент детерминации, вычисляется по формуле
; (1.2)
«скоррект. R2» – скорректированный коэффициент детерминации
, (1.3)
где п – число наблюдений, а k – число оцениваемых параметров регрессионной модели; для простой линейной регрессии k = 2, так как определяются оценки двух параметров β0 и β1;
«Стандартная ошибка оценки» – среднее квадратическое отклонение ошибок наблюдений
; (1.4)
«Своб.член» – оценка свободного члена регрессии (р0);
«Ст.ошибка»
–
стандартная
ошибка оценки свободного члена
;
t и p – выборочное значение t-статистики и вычисленного уровня значимости р.
t-статистика используется для проверки гипотезы Н0: β0 = 0:
. (1.5)
Уровень значимости р = Р[Т(п - k)>|tb|], где Т(п -к) – случайная величина, имеющая распределение Стьюдента с (п-k) степенями свободы, tb – выборочное значение t-статистики.
Если р>а, где α – заданный уровень значимости, то гипотеза H0 > β0 = 0 принимается.
В данном случае р = 0,823749, следовательно гипотеза H0 > β0 = 0 принимается.
F – выборочное значение F-статистики, Fb.
F-статистика используется для проверки гипотезы H0 > β1 = 0.
Если гипотеза H0 > β1 = 0 верна, то статистика F имеет распределение Фишера с (k - 1) и (п - k) степенями свободы.
Гипотеза H0 принимается на уровне значимости α, если выборочное значение статистики F, Fb меньше F1-α(k - 1,n - k) – квантили распределения Фишера порядка 1 - α. Если гипотеза H0 > β1 = 0 принимается, то регрессионная модель незначима.
сс – число степеней свободы F-статистики: (k - 1; п - k).
р – вычисленный уровень значимости.
Вычисленный уровень значимости р : р = P[F(k - 1; n - k) > Fn], где Fb — выборочное значение F-статистики.
Если р < а, то гипотеза H0 > β1 = 0 отклоняется; если р> α, то гипотеза H0 > β1 = 0 принимается.
В данном примере р = 0,109278, следовательно гипотеза H0 > β1 = 0 принимается на уровне значимости α = 0,05. Регрессионная модель незначима.
Функциональные кнопки. При нажатии кнопки «Итоговая таблица регрессии» на экране появится следующая таблица с результатами анализа (рис. 6.5.):
Во втором столбце таблицы (БETA) выводится стандартизованный коэффициент регрессии β01:
,
где sx и sy – оценки среднеквадратических отклонений для переменных х и у.
Рис. 1.6. Результаты регрессии
Стандартизированные коэффициенты регрессии – безразмерные величины.
В случае множественной регрессии стандартизованные коэффициенты регрессии используются для сравнения влияния на зависимую переменную факторов, имеющих различную размерность.
В четвертом столбце
(В)
приведены
МНК-оценки коэффициентов регрессии:
и
.
В пятом столбце
(Ст.Ош. В)
– их стандартные
отклонения
В шестом столбце – t-статистики для проверки гипотезы H0 > β1 = 0:
В седьмом столбце — соответствующие уровни значимости
р = Р[T(n - k) > |ti|]. (1.6)
В данном случае гипотеза H0 > β1 = 0 принимается на уровне значимости α = 0,05.
Вычисленный уровень значимости р > α. Это означает, что регрессионная модель незначима. Гипотеза H0 > β1 = 0 также принимается при α = 0,05.
Чтобы просмотреть и проанализировать остатки, войдите в меню «Анализ остатков», нажав соответствующую кнопку во вкладке «Остатки/предсказанные/наблюдаемые значения» (рис.1.7).
Рис.1.7. Меню «Анализ остатков»
Рис.1.8. Меню для анализа остатков
Это меню представлено на рис.1.8.
Чтобы просмотреть
остатки и их график, нажмите во вкладке
«Предсказанные» кнопку «Построчный
график». Таким образом получим график
остатков, наблюдаемые значения зависимой
переменной у,
предсказанные значения, остатки и
стандартизированные остатки вычисляемые
по формуле
,
где S
– оценка
среднеквадратического отклонения
ошибок наблюдений, S
≈ 0,7 (рис.1.9).
Рис.1.9. График остатков (слева) и их значения (справа)
Остаточная сумма квадратов Qe, сумма квадратов, обусловленная регрессией QR и сумма квадратов отклонений зависимой переменной У от среднего Qy вычисляются при нажатии кнопки «Дисперсионный анализ» на вкладке «Дополнительно» (рис. 1.10). Результаты дисперсионного анализа приведены на рис.1.11.
Рис.1.10. Меню «Дисперсионный анализ»
Рис.1.11. Результаты дисперсионного анализа
В этой же таблице приведены соответствующие значения числа степеней свободы (сс), средние квадраты, F-статистика для проверки гипотезы о незначимости регрессионной модели и вычисленный уровень значимости р.
В данном примере гипотеза о незначимости регрессионной модели по F-критерию также принимается, т.к. р ≈ 0,11, что больше обычно задаваемого уровня значимости α = 0,05.
