Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Обучающий практикум.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.34 Mб
Скачать
  1. Линейные регрессионные модели.

Используемые обозначения

  • y – зависимая (эндогенная) переменная;

  • - объясняющие (экзогенные, независимые) переменные, регрессоры;

  • по каждой переменной n наблюдений: ; ; ;

  • - ошибка, ошибка модели, случайная составляющая;

  • - предсказанное по модели значение y, прогноз, прогнозное значение;

  • - остаток, ошибка прогноза.

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели. В регрессионных моделях зависимая (объясняемая) переменная y может быть представлена в виде функции f ( ), где - независимые (объясняющие) переменные, или факторы.

В то время как зависимая переменная должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как «пол» или «тип применяемого препарата».

Функция , описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии.

В зависимости от количества включенных в модель факторов x модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

В зависимости от вида функции модели делятся на линейные и нелинейные.

Рассмотрим две переменные x и y. Между x и y существует регрессионная зависимость, если найдется функция такая, что имеет место равенство , в котором случайная величина, отражает тот факт, что изменение будет неточно описываться изменением х – присутствуют другие факторы, неучтенные в данной модели. Рассмотрим случай, для которого функция линейна относительно описываемых параметров:

(2.1).

Слагаемое называется функцией или уравнением регрессии y на x.

Предположим, что для оценки линейной регрессии (2.1) взята выборка, состоящая из n пар значений переменных где i=1,2,…n . Тогда можно представить в виде:

, (2.2)

Где - параметры регрессии, которые должны быть определены по выборочным данным, с помощью метода наименьших квадратов (МНК).

Согласно принципу метода наименьших квадратов, оценки находятся путем минимизации суммы квадратов

(2.3)

по всем возможным значениям при заданных (наблюдаемых) значениях . Задача сводится к математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производных функции по переменным .

Оценки МНК параметров имеют вид

(2.4).

Оценки называют оценками наименьших квадратов. Обратим внимание на полученное выражение для параметра . Используя формулы для вычисления выборочной дисперсии и коэффициента парной корреляции (формулы 1.3 -1.4), параметр можно получить следующим образом:

= =

= (2.5)

Оценка параметров модели множественной регрессии с помощью метода наименьших квадратов.

Формулу для вычисления параметров регрессионного уравнения приведем без вывода

(2.6),

где

y = , X = , =

Используемые обозначения

- Сумма квадратов остатков (Residual Sum of Squares),

- Общая сумма квадратов (Total Sum of Squares),

- Объясненная сумма квадратов (Explained Sum of Squares).

Качество модели регрессии проверяется на основе анализа остатков регрессии . Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов.

При анализе качества модели регрессии, в первую очередь, используется коэффициент детерминации, который определяется следующим образом:

, (2.7)

где - среднее значение зависимой переменной,

- предсказанное (рассчитанное по уравнению регрессии) значение зависимой переменной.

Коэффициент детерминации показывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т. е. определяет, ка­кая доля вариации признака Y учтена в модели и обусловлена влия­нием на него факторов, включенных в модель.

Чем ближе к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также ис­пользовать коэффициент множественной корреляции (индекс корреляции) R

R = = (2.8)

Данный коэффициент является универсальным, так как он отра­жает тесноту связи и точность модели, а также может использовать­ся при любой форме связи переменных.

Важным моментом является проверка значимости построенного уравнения в целом и отдельных параметров.

Для проверки значимости модели регрессии используется F-критерий Фишера. Если расчетное значение с 1= k и 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

(2.9)

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отно­шение суммы квадратов уровней остаточной компоненты к величи­не (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины ( ) называется стандартной ошибкой:

(2.10)

Также для оценки качества регрессионных моделей целесообразно ис­пользовать среднюю ошибку аппроксимации(%):

(2.11) Чем меньше рассеяние эмпирических точек вокруг теоре­тической линии регрессии, тем меньше средняя ошиб­ка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

значимость отдельных коэффициентов регрессии проверяется по t-статистике пу­тем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

, (2.12)

где — это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj. Величина представляет собой квадратный корень из произ­ведения несмещенной оценки дисперсии и j -го диагонального эле­мента матрицы, обратной матрице системы нормальных уравнений.

(2.13)

где - диагональный элемент матрицы .

Если расчетное значение t-критерия с (n - k - 1) степенями сво­боды превосходит его табличное значение при заданном уровне зна­чимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует ис­ключить из модели (при этом ее качество не ухудшится).

Если модель адекватна и достаточно точна, то её можно использовать для анализа и прогнозирования. Анализ на основе регрессионных моделей проводят, во-первых, для выявления факторов, наиболее сильно влияющих на зависимую переменную, а, во-вторых, с целью ранжирования объектов по степени их эффективности. Выбор факторов, наиболее сильно влияющих на зависимую переменную важен для принятия решений по улучшению результатов деятельности исследуемой системы. Значительную роль при оценке влияния факторов играют коэффициен­ты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени ко­леблемости. Для устранения таких различий при интерпретации применяются средние частные коэффициенты эластичности бета-коэффициенты (j) или коэффициенты регрессии в стандартизированном масштабе и дельта - коэффициенты.

Эластичность y по отношению к определяется как процентное изменение Y, отнесенное к соответствующему процентному изменению x. В общем случае эластичности не постоянны, они различаются, если измерены для различных точек на линии регрессии. По умолчанию стандартные программы, оценивающие эластичность, вычисляют ее в точках средних значений:

(2.14)

Коэффициент эластичности показывает, на сколько процентов изменится зависимая переменная при изменении j-го фактора на 1%.

Эластичность не нормирована и может изменяться от - до + . Высокий уровень эластичности означает сильное влияние независимой переменной на объясняемую переменную.

Однако средний частный коэффициент эластичности не учитывает степени колеблемости факторов, которая может значительно различаться у отдельных факторов. Поэтому для устранения различий в измерении и степени колеблемости факторов используется другой показатель - коэффициент регрессии в стандартизированном масштабе (бета-коэффициент).

(2.15)

где Sxj среднеквадратическое отклонение фактора j

где .

Он показывает, на какую часть величины среднего квадратического отклонения изменяется среднее значение зависимой переменной с изменением соответствующей независимой переменной на одно среднее квадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных.

Долю влияния фактора в суммарном влиянии всех факторов мож­но оценить по величине дельта - коэффициентов  (j):

(2.16)

где — коэффициент парной корреляции между фактором j и зависимой переменной.

В практических задачах при корректно проведенном анализе величины дельта - коэффициентов положительны, то есть все коэффициенты регрессии имеют тот же знак, что и соответствующие парные коэффициенты корреляции. Указанные характеристики позволяют упорядочить факторы по степени влияния факторов на зависимую переменную.

Уравнение регрессии применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза.

Для линейной модели множественной регрессии при прогнозировании индивидуальных значений доверительный интервал рассчи­тывается по формуле (2.17) для этого оценивается величина отклонения от линии регрессии (обозначим ее U):

, (2.17) где .

т.е. .

Для модели парной регрессии формула (2.17) может быть записана в следующем виде

(2.18)