
Корреляционный и регрессионный анализ
АНАЛИЗ ПАРНЫХ ВЗАИМОСВЯЗЕЙ
Основные понятия
• Связь как синхронность (согласованность) – корреляционный анализ.
• Связь как зависимость (влияние) – регрессионный анализ (причинно-следственные связи).
Основные понятия
• В регрессионном анализе один из признаков зависит от другого.
• Первый (зависимый) признак называется в регрессионном анализе результирующим , второй (независимый) – факторным .
• Не всегда можно однозначно определить, какой из признаков является независимым, а какой – зависимым. Часто связь может рассматриваться как двунаправленная.
Этапы анализа
• Выявление наличия взаимосвязи между признаками;
• Определение формы связи;
• Определение силы (тесноты) и направления связи.
Выявление наличия связи между признаками
Диаграммы рассеяния
Диаграмма рассеяния ( scatterplot )
Определение формы связи
Линейная связь
Форма связи
• Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели .
• Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.
Линия регрессии и уравнение регрессии
Диаграмма рассеяния
Линия регрессии
Линия регрессии
• Вычисляемая с помощью метода наименьших квадратов прямая линия называется линией регрессии . Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).
• Линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.
Уравнение парной линейной регрессии
• Как известно, прямая линия описывается уравнением вида:
Y = kX + b
где Y – результирующий признак, X – факторный признак, k и b – числовые параметры уравнения.
• Коэффициент k в уравнении регрессии называется коэффициентом регрессии .
Смысл коэффициента регрессии
• В общем случае коэффициент регрессии k показывает, как в среднем изменится результативный признак ( Y ), если факторный признак ( X ) увеличится на единицу .
Пример уравнения регрессии
• На диаграмме рассеяния показаны не только точки-объекты и теоретическая линия регрессии, но и уравнение этой (прямой) линии:
Y = 8 . 761 e 4 + 2. 984 e 3 * X
• Это уравнение записано в необычной форме, которая читается следующим образом:
Y = 87610 + 2984 X
Пример интерпретации коэффициента регресии
• В уравнении Y = 87610 + 2984 X коэффициент регрессии равен +2984. Что это означает?
• В данном случае смысл коэффициента регрессии состоит в том, что увеличение числа рабочих на 1 чел. приводит в среднем к увеличению объема годового производства на 2984 руб.
Свойства коэффициента регрессии
• Коэффициент регрессии принимает любые значения.
• Коэффициент регрессии не симметричен , т.е. изменяется, если X и Y поменять местами.
• Единицей измерения коэффициента регрессии является отношение единицы измерения Y к единице измерения X ([ Y ] / [ X ]).
• Коэффициент регрессии изменяется при изменении единиц измерения X и Y .
Пример единицы измерения коэффициента регрессии
• В уравнении Y = 87610 + 2984 X коэффициент регрессии равен 2984. В каких единицах он измеряется?
• Поскольку результативный признак Y измеряется в рублях, а факторный признак X в количестве рабочих (чел.), то коэффициент регрессии измеряется в рублях на человека (руб. / чел.)
Сравнение коэффициентов корреляции и регрессии
Коэффициент корреляции
• Принимает значения в диапазоне от -1 до +1
• Безразмерная величина
• Показывает силу связи между признаками
• Знак коэффициента говорит о направлении связи
Коэффициент регрессии
• Может принимать любые значения
• Привязан к единицам измерения обоих признаков
• Показывает структуру связи между признаками
• Знак коэффициента говорит о направлении связи