Исследование корреляционных связей
Определение 15.3. Корреляционная связь анализирует зависимость среднего значения результативного признака у от изменения факторного признака х.
Исследование корреляционных зависимостей включает в себя ряд этапов:
предварительный анализ свойств совокупности;
установление факта наличия связи, определение ее направления и формы;
измерение степени тесноты связи между признаками;
оценка связи, полученной по выборочным данным для всей генеральной совокупности.
Прежде чем определять зависимости между различными признаками, необходимо повести анализ сути изучаемой связи. В некоторых случаях признаки возрастают и убывают одновременно, однако это не является показателем причинно-следственной связи.
Например, если произвести выборку сведений о количестве больных и количестве врачей в разных городах, то очевидно, что чем крупнее город, тем больше людей могут заболеть, врачей в более крупных городах тоже больше. По выборке двух признаков: количество больных, количество врачей — получим, что с возрастанием количества врачей больных становится тоже больше. Однако сделать вывод о том, что чем больше врачей, тем больше люди болеют, нельзя, так как у них есть общая причина — величина города. Такую корреляцию называют ложной.
Итак, прежде чем обратиться к выборочным данным по нескольким признакам с целью исследования корреляционных связей, следует оценить возможность причинно-следственной связи между ними.
Для оценки корреляционной связи между признаками, заданными рядом наблюдений, существуют различные методы. По направлению различают прямую и обратную связь. Чтобы определить связь, иногда используют предварительный анализ: параллельное сравнение данных, графический метод (построение поля корреляции).
Определение 15.4. Полем корреляции называется совокупность точек результативного и факторного признаков.
Для построения поля корреляции по оси абсцисс откладываются значения факторного признака, а по оси ординат — соответствующие значения результативного. На их пересечении ставится точка. Множество точек и образует поле корреляции, по которому можно судить о величине разброса значений и о наличии и направлении связи.
Для более точной числовой оценки наличия и тесноты связи между признаками используются разные критерии: коэффициент Фехнера, критерий Пирсона, коэффициент корреляции. Наиболее точный вывод о наличии или отсутствии корреляционной связи позволяет сделать линейный коэффициент корреляции, вычисленный и оцененный в соответствии со специальным алгоритмом.
Расчет коэффициента корреляции производится по формуле:
(15.1)
где п — объем выборки;
хi, yi — выборочные значения соответствующих признаков;
— средние
арифметические выборочных значений
соответствующих признаков; сх
и
ау
—
средние квадратические отклонения
выборочных значений соответствующих
признаков.
Определение 15.5. Коэффициент корреляции принимает значения в интервале [-1; 1], причем близость расчетного коэффициента к -1 свидетельствует о наличии тесной обратной связи между исследуемыми признаками. Коэффициент корреляции, приближающийся по своему значению к +1, свидетельствует о прямой зависимости одного признака от другого.
Незначительное отклонение коэффициента корреляции от нуля означает отсутствие связи.
Как же оценить близость или удаленность коэффициента корреляции, рассчитанного по выборочным данным к единице во всей генеральной совокупности? Ведь вывод о наличии связи зависит и от размера выборочной совокупности, и от точности, с которой мы хотим получить результат, и от величины самого выборочного коэффициента корреляции.
Так, если мы получили коэффициент корреляции (например, 0,92), который рассчитан для выборочной совокупности из шести единиц, и сравниваем его значение с таким же значением, которое было рассчитано для совокупности из двадцати единиц, то во втором случае мы более уверены, что связь в генеральной совокупности — линейная. Шанс получения выборочной совокупности, в которой связь линейная, из генеральной совокупности, в которой связь нелинейная, уменьшается по мере увеличения размера выборки.
Коэффициент корреляции оценивают с помощью t-критерия (критерия Стьюдента) для оценки значимости коэффициента корреляции с использованием алгоритма статистической проверки гипотез.
Проверка критерия осуществляется по следующему алгоритму:
Выдвигается гипотеза Н0: коэффициент корреляции r=0, т.е. между переменными х и у не существует линейной связи, иначе говоря, независимая переменная х не помогает в предсказании значений зависимой переменной у.
Альтернативная гипотеза Н1: коэффициент корреляции r близок к ±1, между переменными х и у существует некая линейная связь, х помогает в прогнозировании у.
Для оценки этих двух альтернативных гипотез используем критерий Стьюдента, имеющий для оценки коэффициента корреляционный такой вид:
(15.2)
Расчетное значение критерия сравниваем с табличным значением t-распределения Стьюдента для уровня значимости α=1-γ (где γ — вероятность, с которой мы хотим получить оценку) и числа степеней свободы k=п-2 для двух переменных (где п — объем выборочной совокупности — число пар значений выборки).
Если
,
то с вероятностью γ=1- α можно утверждать,
что гипотеза Н0
отклоняется в пользу альтернативной,
а это означает значимость коэффициента
корреляции для генеральной совокупности,
значит, между переменными х
и
у
существует
некая линейная связь, и переменная х
помогает
в прогнозировании переменной у.
Если
,
значит, с вероятностью ү
нулевая
гипотеза принимается, и между
переменными х
и
у
не
существует линейной связи, а отличие
коэффициента корреляции от нуля
произошло благодаря случайным колебаниям
выборки.
Для расчета коэффициента корреляции можно построить дополнительную таблицу, позволяющую упростить вычисления (пример 15.2) или использовать возможности табличного процессора MS Excel.
