
- •Корреляционный анализ
- •Предпосылки корреляционного анализа
- •Понятие "корреляционная зависимость"
- •Двумерная корреляционная модель
- •Коэффициент корреляции как мера стохастической связи
- •Уравнение линейной парной регрессии
- •Замечание
- •Парный коэффициент детерминации
- •Замечание
- •Точечные оценки параметров двумерного распределения
- •Выборочное уравнение линейной парной регрессии
- •Проверка основной гипотезы корреляционного анализа
- •Корреляционная матрица
- •Выборочная корреляционная матрица
- •Частные коэффициенты корреляции
- •Выборочные частные коэффициенты корреляции
- •Множественные коэффициенты корреляции
- •Уравнение линейной регрессии
- •Проверка значимости коэффициентов связи
- •Определение ди для частного коэффициента корреляции
- •Регрессионный анализ
- •Замечание
- •Задачи регрессионного анализа
- •Аддитивная модель регрессии
- •Множественная линейная модель регрессии
- •Предпосылки регрессионного анализа
- •Замечание
- •Уравнение множественной линейной регрессии
- •Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
- •Анализ качества модели множественной линейной регрессии
- •Проверка значимости уравнения регрессии
- •Несмещенная точечная оценка остаточной дисперсии
- •Пример. Двумерная аддитивная модель регрессии
Корреляционный анализ
- математико-статистический метод выявления наличия корреляционной зависимости между компонентами многомерной случайной величины, определения силы и направления их связи.
Предпосылки корреляционного анализа
При построении корреляционных моделей исходят из выполнения условий случайности результатов наблюдений и нормальности закона распределения анализируемой многомерной генеральной совокупности.
Понятие "корреляционная зависимость"
Корреляционной зависимостью случайной величины Y от случайных величин X1, X2,…, Xk называется функциональная зависимость условного математического ожидания M(Y/x1,x2,…,xk) величины Y от значений x1, x2,…, xk переменных X1, X2,…, Xk:
M(Y/x1,x2,…,xk)=f(x1,x2,…,xk).
Функция f(x1,x2,…,xk), устанавливающая зависимость условного математического ожидания M(Y/x1,x2,…,xk) случайной величины Y от значений x1, x2,…, xk случайных переменных X1, X2,…, Xk, называется функцией регрессии случайной величины Y на случайный вектор (X1, X2,…, Xk).
Аналитическое представление корреляционной зависимости в виде M(Y/x1,x2,…,xk)=f(x1,x2,…,xk) называется уравнением регрессии случайной величины Y на случайный вектор (X1,X2,…,Xk).
Двумерная корреляционная модель
Исследуется зависимость между признаками X, Y. Предполагается, что распределение случайного вектора (X,Y) подчинено закону Гаусса: плотность совместного распределения случайных величин X, Y определяется формулой:
.
Параметры двумерного нормального распределения имеют следующий теоретико-вероятностный смысл:
μx - математическое ожидание величины X;
μy - математическое ожидание величины Y;
σx – среднее квадратическое отклонение величины X;
σy - среднее квадратическое отклонение величины Y;
ρ - коэффициент корреляции между признаками X, Y.
Коэффициент корреляции как мера стохастической связи
Если ρxy=0, то плотность распределения вектора (X,Y) приобретает вид:
,
т.е. φX,Y(x,y)=φX(x)φY(y), что означает независимость случайных величин X, Y.
Таким образом, в рамках корреляционного анализа понятия некоррелированности и независимости эквивалентны, что дает основание рассматривать коэффициент корреляции ρxy в качестве меры стохастической связи признаков X, Y.
Уравнение линейной парной регрессии
Из курса теории вероятностей известно, что
,
При этом условная плотность величины Y определяется на основании выражения:
.
Используя представления φX,Y(x,y), φX(x) для нормально распределенных случайных величин (X,Y), X и осуществляя соответствующее интегрирование, получаем уравнение линейной парной регрессии Y на X:
или
,
где
- коэффициент регрессии Y
на X.
Из вида уравнения линейной парной регрессии следует, что график функции регрессии есть прямая линия.
Замечание
В
случае
,
т.е. некоррелированности X,
Y,
прямая линия регрессии Y
на X
параллельна координатной оси
.
Положительный
знак коэффициента корреляции означает,
что прямые линии регрессии имеют в
координатной плоскости
положительный тангенс угла наклона, с
увеличением (или уменьшением) значения
X
пропорционально в среднем возрастает
(соответственно убывает) значение
переменной Y.
Отрицательный знак коэффициента корреляции указывает на обратную тенденцию.
Парный коэффициент детерминации
Степень рассеяния значений Y относительно линии регрессии Y на X характеризуют условная дисперсия:
.
Расчет по этой формуле дает следующее выражение:
.
Квадрат коэффициента корреляции называется парным коэффициентом детерминации.