Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР_3.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
5.06 Mб
Скачать

20

Лабораторная работа № 3 Регрессионный анализ

Задачи

  1. Научиться строить корреляционно-регрессионные модели для выявления возможной связи между показателями и получения моделей для прогнозирования с помощью метода экстраполяции.

  1. Оценка адекватности моделей, построение графиков остатков регрессионной модели.

План проведения лабораторной работы

  1. Ознакомление с теоретической частью ЛР:

  1. построение модели простой линейной регрессии и оценка её адекватности;

  2. построение модели множественной линейной регрессии и оценка её адекватности.

  1. Выполнение практической части ЛР.

  1. Ответы на контрольные вопросы.

  1. Защита ЛР.

1. Теоретическая часть

1.1 Построение регрессионной модели и оценка её адекватности

Регрессионный анализ – это один из наиболее известных статистических методов, применяемых для решения задач такого рода. Основная цель рег­рессионного анализа состоит в определении связи между некоторой харак­теристикой У наблюдаемого явления или объекта и величинами jch х2,..., хт, которые обусловливают, объясняют изменения у. Переменная называется зависимой переменной (откликом), объясняющие переменные дс„ х2,..., хт на­зываются предикторами, регрессорами или факторами.

Рассмотрим пример расчета простой линейной регрессии с небольшим объемом данных. Исходные данные: результаты наблюдений зависимой переменной (у) и фактора (х) размещены в табл.1.1.

Таблица 1.1

Исходные данные для построения регрессионной модели

у

х

4,0

5,5

5,6

8,1

5,7

8,5

3,6

5,9

4,0

7,8

Откроем новый файл данных. В таблице удалим ненужные столбцы и строки наблюдений. Дадим имена переменным: у зависимая переменная, х – фактор (независимая переменная). В ячейки таблицы введём данные.

Рис.1.1. Внешний вид окна для построения регрессионной модели

Построим график исходных данных. Для этого можно воспользоваться меню «Графика» и выбрать необходимый тип графика. В нашем примере мы воспользуемся двумерными диаграммами рассеяния.

Рис.1.2. Внешний вид окна для построения двумерной диаграммы рассеяния

В диалоговом окне при помощи кнопки «Переменные» выберем необходимые переменные, которые хотим отобразить графически и необходимый тип графика. Диаграмма рассеяния с прямой регрессии у на х показана на рис. 1.3.

В меню «Анализ» выберем модуль «Множественная регрессия» (рис.1.4). После запуска модуля на экране откроется стартовая панель модуля (рис.1.5). Далее выберем переменные для анализа (воспользуйтесь кнопкой «Переменные»). В качестве зависимой переменной выберите у, в качестве независимой х. После определения зависимых и независимых переменных на стартовой панели нажмите ОК. Появится окно с результатами вычислений (рис.1.6).

Рис.1.3. Диаграмма рассеяния и прямая регрессии у на х

Рис.1.4. Выбор модуля «Множественная регрессия»

Рис.1.5. Стартовая панель модуля «Множественная регрессия»

Рис.1.6. Окно результатов множественной регрессии

В диалоговом окне «Результаты множ. регрессии» просмотрим результаты оценивания. Результаты можно просмотреть в численном и графическом виде. Окно результатов анализа имеет следующую структуру: верх окна – информационный. Он состоит из двух частей: в первой части содержится основная информация о результатах оценивания, во второй высвечиваются значимый стандартизованный регрессионный коэффициент х бета=,793; стандартизованный коэффициент регрессии вычисляется но формуле

, (1.1)

где sx и syоценки среднеквадратических отклонений для переменных х и у.

Внизу окна «Результаты множественной регрессии» во вкладках «Дополнительно» и «Остатки/предсказательные/наблюдательные значения» находятся функциональные кнопки, позволяющие всесторонне рассмотреть результаты анализа.

Рассмотрим вначале информационную часть окна. В ней содержатся краткие сведения о результатах анализа. А именно:

«Зав.перем.» – имя зависимой переменной (у);

«Число набл.» число наблюдений (объем выборки, п), по которым построена регрессия (п = 5);

«Множеств. R»коэффициент множественной корреляции (описывает степень линейной зависимости между у и факторами); в случае простой линейной регрессии равен модулю коэффициента корреляции;

R2 – квадрат коэффициента множественной корреляции (коэффициент детерминации). Если регрессионная модель значима, то коэффициент детерминации равен той доле дисперсии ошибок наблюдений, которая объясняется регрессионной моделью.

Коэффициент детерминации, вычисляется по формуле

; (1.2)

«скоррект. R – скорректированный коэффициент детерминации

, (1.3)

где п – число наблюдений, а k число оцениваемых параметров регрессионной модели; для простой линейной регрессии k = 2, так как определяются оценки двух параметров β0 и β1;

«Стандартная ошибка оценки» среднее квадратическое отклонение ошибок наблюдений

; (1.4)

«Своб.член» оценка свободного члена регрессии (р0);

«Ст.ошибка» стандартная ошибка оценки свободного члена ;

t и p выборочное значение t-статистики и вычисленного уровня значимости р.

t-статистика используется для проверки гипотезы Н0: β0 = 0:

. (1.5)

Уровень значимости р = Р[Т(п - k)>|tb|], где Т(п -к) – случайная величина, имеющая распределение Стьюдента с (п-k) степенями свободы, tbвыборочное значение t-статистики.

Если р>а, где α – заданный уровень значимости, то гипотеза H0 > β0 = 0 принимается.

В данном случае р = 0,823749, следовательно гипотеза H0 > β0 = 0 принимается.

F выборочное значение F-статистики, Fb.

F-статистика используется для проверки гипотезы H0 > β1 = 0.

Если гипотеза H0 > β1 = 0 верна, то статистика F имеет распределение Фишера с (k - 1) и (п - k) степенями свободы.

Гипотеза H0 принимается на уровне значимости α, если выборочное значение статистики F, Fb меньше F1-α(k - 1,n - k) – квантили распределения Фишера порядка 1 - α. Если гипотеза H0 > β1 = 0 принимается, то регрессионная модель незначима.

сс число степеней свободы F-статистики: (k - 1; п - k).

р – вычисленный уровень значимости.

Вычисленный уровень значимости р : р = P[F(k - 1; n - k) > Fn], где Fbвыборочное значение F-статистики.

Если р < а, то гипотеза H0 > β1 = 0 отклоняется; если р> α, то гипотеза H0 > β1 = 0 принимается.

В данном примере р = 0,109278, следовательно гипотеза H0 > β1 = 0 принимается на уровне значимости α = 0,05. Регрессионная модель незначима.

Функциональные кнопки. При нажатии кнопки «Итоговая таблица регрессии» на экране появится следующая таблица с результатами анализа (рис. 6.5.):

Во втором столбце таблицы ETA) выводится стандартизованный ко­эффициент регрессии β01:

,

где sx и sy – оценки среднеквадратических отклонений для переменных х и у.

Рис. 1.6. Результаты регрессии

Стандартизированные коэффициенты регрессии – безразмерные величины.

В случае множественной регрессии стандартизованные коэффициенты регрессии используются для сравнения влияния на зависимую переменную факторов, имеющих различную размерность.

В четвертом столбце (В) приведены МНК-оценки коэффициентов регрессии: и .

В пятом столбце (Ст.Ош. В) – их стандартные отклонения

В шестом столбце – t-статистики для проверки гипотезы H0 > β1 = 0:

В седьмом столбце — соответствующие уровни значимости

р = Р[T(n - k) > |ti|]. (1.6)

В данном случае гипотеза H0 > β1 = 0 принимается на уровне значимости α = 0,05.

Вычисленный уровень значимости р α. Это означает, что регрессионная модель незначима. Гипотеза H0 > β1 = 0 также принимается при α = 0,05.

Чтобы просмотреть и проанализировать остатки, войдите в меню «Анализ остатков», нажав соответствующую кнопку во вкладке «Остатки/предсказанные/наблюдаемые значения» (рис.1.7).

Рис.1.7. Меню «Анализ остатков»

Рис.1.8. Меню для анализа остатков

Это меню представлено на рис.1.8.

Чтобы просмотреть остатки и их график, нажмите во вкладке «Предсказанные» кнопку «Построчный график». Таким образом получим график остатков, наблюдаемые значения зависимой переменной у, предсказанные значения, остатки и стандартизированные остатки вычисляемые по формуле , где Sоценка среднеквадратического отклонения ошибок наблюдений, S ≈ 0,7 (рис.1.9).

Рис.1.9. График остатков (слева) и их значения (справа)

Остаточная сумма квадратов Qe, сумма квадратов, обусловленная регрессией QR и сумма квадратов отклонений зависимой переменной У от среднего Qy вычисляются при нажатии кнопки «Дисперсионный анализ» на вкладке «Дополнительно» (рис. 1.10). Результаты дисперсионного анализа приведены на рис.1.11.

Рис.1.10. Меню «Дисперсионный анализ»

Рис.1.11. Результаты дисперсионного анализа

В этой же таблице приведены соответствующие значения числа степе­ней свободы (сс), средние квадраты, F-статистика для проверки гипотезы о незначимости регрессионной модели и вычисленный уровень значимости р.

В данном примере гипотеза о незначимости регрессионной модели по F-критерию также принимается, т.к. р ≈ 0,11, что больше обычно задаваемого уровня значимости α = 0,05.