- •Корреляционный анализ
- •Предпосылки корреляционного анализа
- •Понятие "корреляционная зависимость"
- •Двумерная корреляционная модель
- •Коэффициент корреляции как мера стохастической связи
- •Уравнение линейной парной регрессии
- •Замечание
- •Парный коэффициент детерминации
- •Замечание
- •Точечные оценки параметров двумерного распределения
- •Выборочное уравнение линейной парной регрессии
- •Проверка основной гипотезы корреляционного анализа
- •Корреляционная матрица
- •Выборочная корреляционная матрица
- •Частные коэффициенты корреляции
- •Выборочные частные коэффициенты корреляции
- •Множественные коэффициенты корреляции
- •Уравнение линейной регрессии
- •Проверка значимости коэффициентов связи
- •Определение ди для частного коэффициента корреляции
- •Регрессионный анализ
- •Замечание
- •Задачи регрессионного анализа
- •Аддитивная модель регрессии
- •Множественная линейная модель регрессии
- •Предпосылки регрессионного анализа
- •Замечание
- •Уравнение множественной линейной регрессии
- •Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
- •Анализ качества модели множественной линейной регрессии
- •Проверка значимости уравнения регрессии
- •Несмещенная точечная оценка остаточной дисперсии
- •Пример. Двумерная аддитивная модель регрессии
Предпосылки регрессионного анализа
Для каждого наблюдения распределение остаточной компоненты не зависит от значений предикторов.
Математическое ожидание остаточной компоненты во всяком наблюдении равно нулю:
.
Такое требование естественно полагать выполненным, поскольку функциональная компонента регрессионной модели должна учитывать любую систематическую тенденцию в изменении значений переменной Y.
Дисперсия остаточной компоненты одинакова для всех наблюдений:
.
Для любых двух наблюдений остаточные компоненты не коррелированы:
.
Для каждого наблюдения распределение вероятностей остаточной компоненты подчинено закону Гаусса.
Данное допущение часто основывается на центральной предельной теореме, состоящей в том, что если случайная величина обусловлена взаимодействием большого числа других случайных величин, причем ни одна из них не оказывает доминирующего влияния на общий результат, то распределение результирующей случайной величины близко к нормальному.
Из условий Гаусса - Маркова непосредственно следует, что:
для i-го наблюдения критериальная переменная Y подчинена нормальному закону распределения вероятностей с математическим ожиданием , являющимся функцией только предикторов, и дисперсией , не зависящей от реализаций случайного вектора (X1, X2,…, Xk);
для произвольных двух наблюдений остаточные компоненты стохастически не независимы.
Замечание
При проведении расчетов оценок параметров множественной линейной модели регрессионного анализа с помощью МНК рекомендуется, чтобы n - число наблюдений - превосходило k+1 - число параметров модели - не менее чем в три раза.
Уравнение множественной линейной регрессии
Определяя на основании модельного уравнения (1) условное математическое ожидание критериальной переменной Y в предположении, что предикторы X1, X2, …, Xk приняли соответственно некоторые конкретные значения x1, x2,…, xk, принимая во внимание, что в этом случае β0+β1x1+β2x2+…+βjxj+…+βkxk есть константа, учитывая также, что согласно второй предпосылке регрессионного анализа M( ) равно нулю, получаем уравнение регрессии:
M(Y/x1,x2,…,xk)=β0+β1x1+β2x2+…+βjxj+…+βkxk |
(5) |
Следовательно, функциональная составляющая исходной регрессионной модели представляет собой функцию регрессии.
Конкретизируя на основании имеющихся статистических данных n выборок: (yi, xi1, xi2,…, xij,…, xik) вид уравнения регрессии (5) для каждого произведенного наблюдения, приходим к системе n равенств:
, |
(6) |
где символом обозначено M(Y/xi1,xi2,…,xik) - условное математическое ожидание переменной Y в i-ом наблюдении.
В матричной форме система уравнений (6) приобретает вид
, |
(7) |
здесь - вектор-столбец размерности n с элементами .
Итак,
. |
(8) |
Из соотношения (8) вытекает представление вектора остатков:
. |
(9) |
Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
Согласно этому методу в качестве оценки неизвестного вектора принимают тот вектор , который минимизирует квадрат длины вектора - остаточную сумму квадратов отклонений фактических значений критериальной переменной Y от соответствующих расчетных значений, найденных на основе уравнения регрессии Y на (X1, X2,…, Xk):
,
т.е. искомый вектор должен удовлетворять требованию
.
Необходимые и достаточные условия минимума квадратичной формы Qост, рассматриваемой как функция аргументов β0, β1, β2,…, βj,…, βk, известны из математического анализа:
.
Осуществляя дифференцирование функции
отдельно по каждому из параметров β0, β1, β2,…, βj,…, βk, и приравнивая производные нулю, получаем k+1 соотношение для b0, b1, b2,…, bj,…, bk - МНК-оценок искомых параметров модели:
. |
(10) |
Данная система в матричной форме записываются так:
. |
(11) |
где ХТ – матрица, транспонированная к матрице X.
Если - невырожденная матрица, то умножая слева обе части уравнения (11) на обратную матрицу , находим матричное выражение, определяющее МНК-оценку параметров модели множественной линейной регрессии как вектор-функцию выборочных данных:
. |
(12) |