- •Мультиколлинеарность факторов
- •Лекция 6. Частные уравнения регрессии. Множественная корреляция. Частная корреляция. Оценка надежности результатов множественной регрессии и корреляции. Предпосылки метода наименьших квадратов (мнк).
- •Множественная регрессия. Множественная корреляция.
- •Максимальный парный индекс корреляции
- •Частная корреляция.
- •Лекция 7. Регрессионные модели с переменной структурой. Фиктивные переменные во множественной регрессии.
- •Тест ранговой корреляции Спирмена.
- •Обобщенный метод наименьших квадратов.
Максимальный парный индекс корреляции
При неверном включении факторов в регрессионный анализ индекс множественной корреляции существенно отличается от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции.
Так, если y рассматривается как функция x и z и получен индекс множесвенной корреляции Ryzx=0,85, а индекс парной корреляции при этом более Ryx=0,82 и Ryz=0,75, то уравнение парной регрессии y=f(x) охватывало 67,2% колеблемости результативного признака под влиянием фактора x, а дополнительное включение в анализ фактора z увеличило долю объясненной вариации до 72,3%, т.е. уменьшилась доля остаточной вариации на 5,1 процентного пункта (с 32,8 до 27,7).
Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:
Индекс множественной корреляции:
При линейной зависимости признаков он называется линейным коэффициентом множественной регрессии или совокупным коэффициентом корреляции:
где - стандартизованные коэффициенты регрессии;
- парные коэффициенты корреляции результата с каждым фактором.
При линейной зависимости возможно выражение через матрицу парных коэффициентов корреляции:
где - определитель матрицы парных коэффициентов корреляции;
- определитель матрицы межфакторной корреляции.
Для уравнения определитель матрицы коэффициентов парной корреляции имеет вид:
1 …
Δr =
1 …
… ……………………………
… 1
П ри вычеркивании первой строки и первого столбца получаем минор, который соответствует матрице коэффициентов парной корреляции между факторами:
1 …
Δr11 =
… ……… … … … … …
… 1
При трех переменных для двухфакторного уравнения регрессии данная формула совокупного коэффициента корреляции приводится к виду:
Индекс множественной корреляции равен совокупному коэффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, как и в парной регрессии, имеет место и для криволинейной зависимости, нелинейной по переменным.
Так, если для фирмы модель прибыли y имеет вид
где x1 – удельные расходы на рекламу;
x2 – капитал фирмы;
x3 – доля продукции фирмы в общем объеме продаж данной группы товаров по региону;
x4 – процент увеличения объема продаж фирмы по сравнению с предыдущим годом.
Тогда независимо от того, что фактор x1 задан линейно, а факторы x2, x3, x4 – в логарифмах, оценка тесноты связи может быть произведена с помощью линейного коэффициента множественной корреляции. Так, если рассматриваемая модель в стандартизованном виде оказалась следующей:
а парные коэффициенты корреляции прибыли с каждым из её факторов составили
,
то коэффициент множественной детерминации окажется равным:
Тот же результат даст и индекс множественной детерминации, определенный через отношение остаточной и общей дисперсии результативного признака.
Иначе обстоит дело с криволинейной регрессией, нелинейной по оцениваемым параметрам. Рассмотрим производственную функцию Кобба-Дугласа:
где P – объем продукции;
L – затраты труда;
K – величина капитала;
b1+b2=1.
Логарифмируя её, получим линейное в логарифмах уравнение:
Оценив параметры этого уравнения по МНК, найдем теоретические значения объема продукции и остаточную сумму квадратов затем индекс детерминации (корреляции):
Важно, что МНК применяется не к исходным данным продукции, а к их логарифмам.
Индекс детерминации для нелинейных по оцениваемым параметрам функций в некоторых работах по эконометрике называют "квази – R2". Для его определения по функциям, использующим логарифмические преобразования (степенная, экспонента), сначала находят теоретические значения (в примере ), затем трансформируют их через антилогарифмы: антилогарифм т.е. находят теоретические значения результативного признака и далее определяют индекс детерминации как "квази – R2" по формуле
"квази – R2"=
Остаточная дисперсия имеет систематическую ошибку в сторону преуменьшения тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений n. Если число параметров при xj равно m и приближается к объему наблюдений, то и коэффициент (индекс) корреляции 1 даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной регрессии, который содержит поправку на число степеней свободы:
где - остаточная ∑ КО;
- общая ∑ КО;
n-m-1 – df остаточной вариации;
n-1 – df в целом по совокупности;
m – число параметров при переменных x;
n – число наблюдений.
Другая форма
Чем больше m, тем сильнее различия и При заданном объеме наблюдений при прочих равных условиях с увеличением числа параметров скорректированный коэффициент множественной детерминации убывает.
при слабых связях результата с факторами, в этом случае он должен считаться равным нулю. При небольшом n имеет тенденцию переоценивать долю вариации y, связанную с влиянием факторов.
Пример. Пусть при n=30 для линейного уравнения регрессии с четырьмя факторами а с учетом корректировки на число df
Чем больше n, тем меньше различаются и .
Так, при n=50 при том же и m величина