
- •Корреляционный анализ
- •Предпосылки корреляционного анализа
- •Понятие "корреляционная зависимость"
- •Двумерная корреляционная модель
- •Коэффициент корреляции как мера стохастической связи
- •Уравнение линейной парной регрессии
- •Замечание
- •Парный коэффициент детерминации
- •Замечание
- •Точечные оценки параметров двумерного распределения
- •Выборочное уравнение линейной парной регрессии
- •Проверка основной гипотезы корреляционного анализа
- •Корреляционная матрица
- •Выборочная корреляционная матрица
- •Частные коэффициенты корреляции
- •Выборочные частные коэффициенты корреляции
- •Множественные коэффициенты корреляции
- •Уравнение линейной регрессии
- •Проверка значимости коэффициентов связи
- •Определение ди для частного коэффициента корреляции
- •Регрессионный анализ
- •Замечание
- •Задачи регрессионного анализа
- •Аддитивная модель регрессии
- •Множественная линейная модель регрессии
- •Предпосылки регрессионного анализа
- •Замечание
- •Уравнение множественной линейной регрессии
- •Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
- •Анализ качества модели множественной линейной регрессии
- •Проверка значимости уравнения регрессии
- •Несмещенная точечная оценка остаточной дисперсии
- •Пример. Двумерная аддитивная модель регрессии
Предпосылки регрессионного анализа
Для каждого наблюдения распределение остаточной компоненты не зависит от значений предикторов.
Математическое ожидание остаточной компоненты во всяком наблюдении равно нулю:
.
Такое требование естественно полагать выполненным, поскольку функциональная компонента регрессионной модели должна учитывать любую систематическую тенденцию в изменении значений переменной Y.
Дисперсия остаточной компоненты одинакова для всех наблюдений:
.
Для любых двух наблюдений остаточные компоненты не коррелированы:
.
Для каждого наблюдения распределение вероятностей остаточной компоненты подчинено закону Гаусса.
Данное допущение часто основывается на центральной предельной теореме, состоящей в том, что если случайная величина обусловлена взаимодействием большого числа других случайных величин, причем ни одна из них не оказывает доминирующего влияния на общий результат, то распределение результирующей случайной величины близко к нормальному.
Из условий Гаусса - Маркова непосредственно следует, что:
для i-го наблюдения критериальная переменная Y подчинена нормальному закону распределения вероятностей с математическим ожиданием
, являющимся функцией только предикторов, и дисперсией
, не зависящей от реализаций случайного вектора (X1, X2,…, Xk);
для произвольных двух наблюдений остаточные компоненты стохастически не независимы.
Замечание
При проведении расчетов оценок параметров множественной линейной модели регрессионного анализа с помощью МНК рекомендуется, чтобы n - число наблюдений - превосходило k+1 - число параметров модели - не менее чем в три раза.
Уравнение множественной линейной регрессии
Определяя
на основании модельного уравнения (1)
условное математическое ожидание
критериальной переменной Y
в предположении, что предикторы X1,
X2,
…, Xk
приняли соответственно некоторые
конкретные значения x1,
x2,…,
xk,
принимая во внимание, что в этом случае
β0+β1x1+β2x2+…+βjxj+…+βkxk
есть константа, учитывая также, что
согласно второй предпосылке регрессионного
анализа M(
)
равно нулю, получаем уравнение
регрессии:
M(Y/x1,x2,…,xk)=β0+β1x1+β2x2+…+βjxj+…+βkxk |
(5) |
Следовательно, функциональная составляющая исходной регрессионной модели представляет собой функцию регрессии.
Конкретизируя на основании имеющихся статистических данных n выборок: (yi, xi1, xi2,…, xij,…, xik) вид уравнения регрессии (5) для каждого произведенного наблюдения, приходим к системе n равенств:
|
(6) |
где символом
обозначено M(Y/xi1,xi2,…,xik)
- условное математическое ожидание
переменной Y в
i-ом
наблюдении.
В матричной форме система уравнений (6) приобретает вид
|
(7) |
здесь
- вектор-столбец размерности n
с элементами
.
Итак,
|
(8) |
Из соотношения (8) вытекает представление вектора остатков:
|
(9) |
Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
Согласно этому методу в качестве оценки
неизвестного вектора
принимают тот вектор
,
который минимизирует квадрат длины
вектора
- остаточную сумму квадратов отклонений
фактических значений критериальной
переменной Y от
соответствующих расчетных значений,
найденных на основе уравнения регрессии
Y на (X1,
X2,…,
Xk):
,
т.е. искомый вектор
должен удовлетворять требованию
.
Необходимые и достаточные условия минимума квадратичной формы Qост, рассматриваемой как функция аргументов β0, β1, β2,…, βj,…, βk, известны из математического анализа:
.
Осуществляя дифференцирование функции
отдельно по каждому из параметров β0, β1, β2,…, βj,…, βk, и приравнивая производные нулю, получаем k+1 соотношение для b0, b1, b2,…, bj,…, bk - МНК-оценок искомых параметров модели:
|
(10) |
Данная система в матричной форме записываются так:
|
(11) |
где ХТ – матрица, транспонированная к матрице X.
Если
- невырожденная матрица, то умножая
слева обе части уравнения (11) на обратную
матрицу
,
находим матричное выражение, определяющее
МНК-оценку параметров модели множественной
линейной регрессии как вектор-функцию
выборочных данных:
|
(12) |