- •Корреляционный анализ
- •Предпосылки корреляционного анализа
- •Понятие "корреляционная зависимость"
- •Двумерная корреляционная модель
- •Коэффициент корреляции как мера стохастической связи
- •Уравнение линейной парной регрессии
- •Замечание
- •Парный коэффициент детерминации
- •Замечание
- •Точечные оценки параметров двумерного распределения
- •Выборочное уравнение линейной парной регрессии
- •Проверка основной гипотезы корреляционного анализа
- •Корреляционная матрица
- •Выборочная корреляционная матрица
- •Частные коэффициенты корреляции
- •Выборочные частные коэффициенты корреляции
- •Множественные коэффициенты корреляции
- •Уравнение линейной регрессии
- •Проверка значимости коэффициентов связи
- •Определение ди для частного коэффициента корреляции
- •Регрессионный анализ
- •Замечание
- •Задачи регрессионного анализа
- •Аддитивная модель регрессии
- •Множественная линейная модель регрессии
- •Предпосылки регрессионного анализа
- •Замечание
- •Уравнение множественной линейной регрессии
- •Оценка параметров модели множественной линейной регрессии по методу наименьших квадратов
- •Анализ качества модели множественной линейной регрессии
- •Проверка значимости уравнения регрессии
- •Несмещенная точечная оценка остаточной дисперсии
- •Пример. Двумерная аддитивная модель регрессии
Определение ди для частного коэффициента корреляции
Например, при нахождении границ доверительного интервала для :
выполняется прямое преобразование Фишера:
;
определяется квантиль , исходя из условия ;
вычисляются значения и ;
с помощью обратного преобразования Фишера находятся границы искомого ДИ:
и .
Регрессионный анализ
- математико-статистический метод исследования зависимости одной случайной величины (критериальной переменной) от конечного числа независимых случайных или неслучайных переменных (предикторов, регрессоров).
Замечание
Термин «зависимость» понимается здесь как «математическая зависимость», которой в определенном смысле наилучшим образом отвечают имеющиеся статистические данные, и не означает в общем случае наличие причинно-следственных связей между наблюдаемыми переменными.
В математической статистике понятия «корреляция» и «регрессия» неотделимы от понятия «стохастическая зависимость», вместе с тем они имеют четкое различие, отраженное в целях соответствующих исследований: собственно корреляционный анализ ориентирован на обнаружение корреляционной зависимости между рассматриваемыми признаками и оценку тесноты их связи, тогда как регрессионный анализ предполагает выявление и исследование формы зависимости критериальной переменной от предикторов.
Задачи регрессионного анализа
Выбор предикторов, оказывающих статистически значимое влияние на критериальную переменную.
Установление вида модели регрессии в соответствии с сущностью постигаемого явления.
Оценка параметров регрессионной модели, статистическая проверка их значимости.
Оценка статистической надежности уравнения регрессии.
Оценка адекватности и точности регрессионной модели.
Аддитивная модель регрессии
При описании исследуемой зависимости с помощью математической символики она обычно представляется как уравнение вида , где
– - выражение функциональной зависимости значения y критериальной переменной Y от возможных значений x1, x2,…, xk предикторов X1, X2,…, Xk,
– ε - остаточная компонента (возмущение), численно характеризующая суммарное влияние совокупности всех случайных факторов на значение переменной Y.
На основании имеющихся данных наблюдений над значениями переменных X1, X2,…, Xk, Y в определенном классе многомерных функций подбирается такая функция , при которой остаточная компонента ε будет минимальной по некоторой статистической мере, т.е. находится аналитическое выражение, наиболее полно в рамках применяемой модели и выбранного критерия оптимальности отражающее математическую зависимость переменной Y от переменных X1, X2,…, Xk.
Множественная линейная модель регрессии
y=β0+β1x1+β2x2+…+βjxj+…+βkxk+ε. |
(1) |
Исходным статистическим материалом при регрессионном анализе служит выборка объема n из (k+1)-мерной генеральной совокупности реализаций случайного вектора (Y, X1, X2,…, Xk).
Каждое из n осуществленных наблюдений над значениями указанных переменных характеризуется определенной числовой последовательностью вида:
(yi, xi1, xi2,…, xij,…, xik),
в которой
yi – значение переменной Y в i-ом наблюдении,
xij - значение переменной Xj в i-ом наблюдении.
Таким образом, при построении регрессионной модели используется n(k+1) выборочных значений:
.
Согласно модельному уравнению (1) данные значения связаны между собой следующими соотношениями:
|
(2) |
здесь - вклад остаточной компоненты ε в значение для i-го наблюдения.
При выполнении дальнейших выкладок удобны матричные представления соответствующих систем равенств, обладающие компактностью записи и наглядностью результатов совершаемых математических операций.
В матричной форме система уравнений (2) приобретает вид
|
(3) |
или
, |
(4) |
где - вектор-столбец размерности n, сформированный из фактических значений критериальной переменной Y;
X - матрица размерности [nx(k+1)], содержащая выборочные значения предикторов. Элементы данной матрицы по изложенным выше причинам рассматриваются как неслучайные величины;
- вектор-столбец размерности k+1 неизвестных параметров модели (коэффициентов регрессии);
- вектор-столбец так называемых остатков для произведенных n наблюдений:
; ; ; .
Для нахождения параметров регрессионной модели обычно используется метод наименьших квадратов (МНК), позволяющий получить несмещенные оценки параметров при следующих условиях Гаусса - Маркова.