
- •Лабораторная работа №5. Корреляционно-регрессионный анализ
- •1. Общие понятия и определения
- •2. Оценка силы корреляционной связи
- •3.Оценка коэффициента корреляции по данным выборки
- •4. Оценка значимости коэффициента корреляции
- •Примеры решения задач
- •Варианты заданий
- •5. Парная линейная регрессия.
- •6. Расчет теоретической линии прямой регрессии
- •7. Обратная регрессия
- •Алгоритм расчета оптимальной формы связи
- •Примеры решения задач
- •Варианты заданий
Лабораторная работа №5. Корреляционно-регрессионный анализ
1. Общие понятия и определения
Рассмотрим взаимосвязь двух случайных величин Х и Y.
Стохастической называется такая связь двух случайных величин, когда каждому значению одной случайной величины соответствует множество значений другой случайной величины, или, если одна случайная величина реагирует на изменение другой случайной величины изменением своей функции (или плотности) распределения вероятности.
Например, связь между объемом продажи товара и затратами на рекламную кампанию, урожаем и внесенными удобрениями, между численностью персонала фирмы и уровнем ее доходов и т.п.
Корреляционной называется частный случай стохастической связи, когда одна случайная величина реагирует на изменение другой случайной величины изменением своего математического ожидания, т.е.
М [Y/Х=х] = f(х) или М[Х/Y=у] = f(у), где М [Y/Х=х] - математическое ожидание случайной величины Y при условии, что случайная величина Х приняла конкретное значение х , т.е. условное математическое ожидание случайной величины Y, М[Х/Y= у] - условное математическое ожидание случайной величины Х .
Функция f(х) называется функцией регрессии Y на X, а ее график - линией регрессии Y на X, соответственно f(у) - функция регрессии Х на Y.
Функция регрессии может быть линейной М [Y/Х=х] = а+bх или нелинейной. Соответственно различают линейную и нелинейную корреляционную связь.
Существует еще одна достаточно важная характеристика корреляционных связей с точки зрения количества взаимодействующих случайных величин. Если характеризуется связь двух случайных величин, то ее принято называть парной. Если изучается взаимосвязь более чем двух переменных, то рассматривают множественную корреляционную связь.
По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи.
В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая - регрессионный анализ.
Задачи собственно корреляционного анализа сводятся к измерению силы связи между варьирующими случайными величинами (признаками), определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.
2. Оценка силы корреляционной связи
Для этого служит коэффициент корреляции KXY, определяемый как KXY=М[XY]-М[X]М[Y]. Он является числовой характеристикой силы линейной корреляционной связи двух случайных величин Х и Y.
Если случайные величины Х и Y независимы, то KXY = 0. Следовательно, если KXY0, то Х и Y - зависимые случайные величины. Знак KXY указывает на направление корреляционной связи. Если KXY>0, то с возрастанием Х возрастает в среднем и Y, т.е. корреляция между величинами X и Y положительная. Если KXY<0, то при возрастании X величина Y в среднем убывает, т.е. корреляция отрицательная.
Числовые значения KXY зависят от выбора единиц измерения случайных величин X и Y, что затрудняет сравнение коэффициентов корреляции различных пар случайных величин.
Вследствие этого
вводят другую числовую характеристику
линейной связи между X
и Y,
лишенную этого недостатка – нормированный
коэффициент корреляции XY:
. (1)
Из свойств нормированного коэффициента корреляции отмечают:
1. Нормированный коэффициент корреляции принимает значения в интервале от -1 до 1: -1XY1. (2)
2. Если XY = 0, то Х и Y не связаны линейной корреляционной зависимостью, т.е. некоррелированы, но могут быть зависимы, даже связаны функционально, но только не линейной связью.
3. Если Х и Y - нормально распределенные случайные величины, то из XY=0 следует, что Х и Y - независимые случайные величины.
4. Если |XY| = 1, то связь линейная функциональная.
Если |XY| 1, но близок к 1, то корреляционная зависимость будет близка к линейной.
Абсолютное значение |XY| используется как характеристика силы линейной связи между двумя случайными величинами Х и Y, т.е. степени близости корреляционной зависимости к линейной. Если |XY| 0,7, то линейная связь сильная, если 0,3 |XY| < 0,7 - средняя, если 0 < |XY| < 0,3 - слабая.
Для линий регрессии, не являющихся прямыми, XY может лишь с некоторым приближением рассматриваться как показатель силы связи между Х и Y.
Модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию значений коэффициента корреляции XY.
Е
сли
XY=0,
то значения хi,
уi,
полученные из двумерной нормальной
совокупности, располагаются на
графике в координатах х,
у в пределах
области, ограниченной окружностью
(рис. 1.а). В этом случае между случайными
величинами Х
и Y
отсутствует корреляция, и они называются
некоррелированными. Для двумерного
нормального распределения некоррелированность
означает одновременно и независимость
случайных величин Х
и Y.
Рис. 1
При XY=1 или XY=-1 между случайными величинами X и Y существует линейная функциональная зависимость. В этом случае говорят о полной корреляции (рис. 1.б). При XY=1 значения хi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при XY=-1 прямая имеет отрицательный наклон (с увеличением yi значение xi уменьшается).
В промежуточных случаях (-1<XY<1) точки, соответствующие значениям xi,уi, попадают в область, ограниченную некоторым эллипсом (рис. 1.в, г), причем при XY>0 имеет место положительная корреляция (с увеличением хi значения уi имеют тенденцию к возрастанию), при XY<0 корреляция отрицательная. Чем ближе XY к ± 1, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.