Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_po_OMM (1).docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
1.99 Mб
Скачать
  1. Коэффициент детерминации r2 линейной регрессионной модели. Скорректированный r2. Значимость коэффициента детерминации.

Коэффициент детерминации. Рассчитав параметры уравнения регрессии, описывающего зависимость объясняемой величины от значения объясняющей, нужно каким-либо образом оценить взаимосвязь между этими переменными. Определение характеристик связи между ними и есть задача корреляционного анализа. Фактически с его помощью оценивается, насколько вариация значений показателя-результата непосредственно определяется показателем-фактором.

Для оценки степени соответствия линии регрессии выборочным данным обычно применяется коэффициент детерминации R?.

Для того, чтобы иметь возможность его рассчитать, надо найти: общую сумму квадратов отклонений, сумму квадратов отклонений, объясняемую регрессией. Кроме того, для характеристики степени соответствия значений Y, рассчитанных с помощью найденного уравнения регрессии, действительной динамике зависимой переменной определяют и остаточную сумму квадратов отклонений.

Общая сумма квадратов отклонений (ОСК) – это сумма квадратов разностей между выборочными (наблюдаемыми) значениями зависимой переменной Yi и средней из наблюдений в выборке Yср.:

ОСК = ?(Yi – Yср.)2. (2.35) Сумма квадратов отклонений, объяснимая регрессией (СКР) – это сумма квадратов разностей между прогнозируемыми на основе найденного уравнения регрессии значениями Yi’ и средней из наблюдений в выборке Yср.:

СКР = ?(Yi’ – Yср.)2. (2.36) Остаточная сумма квадратов (СКО) – это сумма квадратов разностей между выборочными (наблюдаемыми) значениями Yi и рассчитанными на основе найденного уравнения регрессии Yi’:

СКО = ?(Yi – Yi’)2. (2.37) Для этих величин верно равенство

ОСК = СКО + СКР. (2.38) Отношение СКР к ОСК показывает пропорцию изменения Y, объясняемого изменением X, и называется коэффициент детерминации R?: R? = = СКР ?(Yi’ – Yср.)2 ОСК ?(Yi – Yср.)2

или . (2.39) = 1 – R? = 1 – СКО ?( Yi – Yi’)2 ОСК ?(Yi – Yср.)2

В случае парной регрессии R? представляет собой квадрат коэффициента корреляции зависимой и независимой переменными. Коэффициент детерминации принимает значения от 0, когда факторы X не оказывают никакого влияния на зависимую переменную, до 1, когда изменения зависимой переменной Y полностью объяснимы влиянием факторов модели.

Рассчитаем R? для наших примеров с зависимостью между производством молока и поголовьем крупного рогатого скота в Тюменской области (полином 1-ой степени) и с зависимостью между уровнем естественного прироста и уровнями брачности и смертности в области. Для первой зависимости R? равен

? 0,8837. R? = ? ?(Yi’ – Yср.)2 115455,75 ?(Yi – Yср.)2 130648,49

Данное значение коэффициента детерминации показывает, что для данной выборки в Тюменской области изменение объема производства молока в значительной степени объяснимо изменением поголовья крупного рогатого скота: в 88,37 % случаев. Поскольку эта регрессионная зависимость парная, то извлекши корень из показателя R?, можно найти коэффициент корреляции между этими двумя рядами данных, он примерно равен 0,9401.

Рассчитаем коэффициент детерминации для второй зависимости: ? 0,9462.  R? = ? ?(Yi’ – Yср.)2 695,56 ?(Yi – Yср.)2 735,11

Полученное значение коэффициента детерминации показывает, что изменение уровня естественного прироста в довольно сильной степени объяснимо изменением уровней брачности и смертности в области: в 94,62 % случаев.

Однако в многофакторной регрессии коэффициент детерминации корректируют с учетом числа независимых переменных, рассчитывают скорректированный R? – R?’: R?’ = 1 – (1 – R?) n – 1 n – m

где n – число наблюдений, m – число независимых переменных. Рассчитаем R?’ для нашей двухфакторной модели:

? 0,9432. R?’ = 1 – (1 – 0,9462)• 20 – 1 20 – 2

Величина скорректированного R? может служить одним из критериев включения независимой переменной в модель: он должен уменьшится по сравнению с R?’ модели, где отсутствует переменная, добавленная позже, если добавленная в модель переменная незначима, или увеличится при ее значимости. Однако рациональной основой для включения или невключения переменной в модель служат теоретические предпосылки, на базе которых строится модель, и переменная, которая должна быть включена в модель в соответствии с ними, должна быть учтена в модели.

Коэффициент детерминации является R? случайной величиной, поскольку Y – случайная переменная. Критерий проверки значимости R? имеет F-распределение. Это распределение обладает двумя степенями свободы: одно значение в числителе критерия проверки (обозначается v1), второе – в знаменателе (v2). В критерии проверки для R? числителю соответствует степень свободы 1 и знаменателю – n – 2 степеней свободы. Сам критерий проверки для R? рассчитывается так:? 316,5725. (2.41) (2.40)  ? 0,9462 ? R? ? 1 – R? 1 – 0,9462 n – 2 18

Табличное критическое значение в F-таблице для степеней свободы v1 = 1 и v2 = 18 при уровне значимости 0,001 (0,1 %) равно 15,38, следовательно, данное значение R? является значимым при данном уровне значимости. Для скорректированного R? критерий проверки вычисляется так:

? 316,5725. (2.42)  •  ? •  F = R? n – k 0,9462 20 – 2 1 – R? k –1 0,0538 2 – 1

где n – число наблюдений, k – число независимых переменных в уравнении регрессии. Этот критерий проверки имеет F- распределение с со степенями свободы v1 = k – 1 и v2 = n – k. Критическое значение F-критерия со степенями свободы 1 и 18 при уровне значимости 0,001 (0,1 %) равен 15,38, что меньше полученного нами, поэтому наш скорректированный R? является значимым.

Также для множественной регрессии имеет смысл рассчитать частные коэффициенты детерминации dx1 и dx2. Но перед этим определим парные коэффициенты корреляции между переменными модели: ryx1, ryx2, rx1x2. Их рассчитывают для определения тесноты связи между переменными модели и делается это предварительно, поскольку на основе значения парных коэффициентов корреляции можно принять решение о включении или невключении факторной переменной в модель (см темы 4, 10). Парные линейные коэффициенты корреляции определяются на основе формулы:

r = (xy)ср. – xср.уср. ?х•?у

где ?х и ?у – среднеквадратические отклонения выборочных значений показателей х и у, для которых рассчитывается коэффициент корреляции, от выборочной средней. Величина среднеквадратического отклонения выборочного значения какого-либо показателя (например, х), как вы помните из курса статистики, равна квадратному корню из его дисперсии:

?х = v?х2 = v ?(x – xср)2 n

Зная это, определим парные коэффициенты корреляции между показателями естественного прироста, брачности и смертности: ryx1=0,9435; ryx2 = –0,7196; rx1x2 = –0,5537.

После этого можно для зависимости одной результирующей переменной от двух факторных рассчитать коэффициент множественной корреляции по следующей формуле: Ryx1x2 = v ryx1 + ryx2 – 2 ryx1 ryx2 rx1x2 1 – rx1x2 Этот коэффициент колеблется в пределах от 0 до 1 (колебания значений переменной Y абсолютно не зависят или полностью зависят от изменения значений факторов X), чем его значение ближе к 1, тем полнее учтены все факторы, влияющие на Y.

В общем случае формула коэффициента множественной корреляции выглядит так:

То есть величину Ryx1x2 можно узнать путем извлечения квадратного корня из R2: Ryx1x2 = ? 0,9727.

Теперь мы можем рассчитать частные коэффициенты детерминации для нашей двухфакторной модели. В многофакторных моделях с их помощью анализируется теснота связи между результативной и одной из факторных переменных при неизменном значении остальных факторов. Он показывает, на сколько в процентном соотношении изменится значение зависимой переменной при изменении данного фактора и неизменных прочих:, (2.46) dxj = ryxj · aj · ?xj  ?у

где ryxj – парный коэффициент корреляции факторной переменной j и зависимой переменной Y, aj – оценка соответствующего коэффициента регрессии при данном факторе в уравнении регрессии, ?xj и ?у – среднеквадратические отклонения значений рассматриваемого фактора и Y.

Таким образом, частные коэффициенты детерминации для нашей модели равны:

? 0,7416, ? 0,9435 · 2,8316 · dx1 = ryx1 · a1 · ?x1 1,7267 ?у 6,2201

? 0,2046. ? –0,7196 · (–1,3318) ·  dx2 = ryx2 · a2 · ?x2 1,3280 ?у 6,2201

То есть при неизменной смертности изменение естественного прироста на 74,16 % объясняется изменением брачности, а при неизменной брачности 20,46 % изменения естественного прироста объяснимо изменением смертности. В этих формулах величины

?xj = aj · (2.47) ?xj  ?у

– это так называемые частные бетта-коэффициенты, показывающие, на какую долю своего среднеквадратического отклонения изменится в среднем результирующая переменная при изменении одного из факторов на величину его среднеквадратического отклонения и неизменных прочих факторах.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]