Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ.doc
Скачиваний:
15
Добавлен:
10.09.2019
Размер:
631.81 Кб
Скачать

Исследование корреляционных связей

Определение 15.3. Корреляционная связь анализирует зависимость среднего значения результативного признака у от изменения факторного признака х.

Исследование корреляционных зависимостей включает в себя ряд этапов:

  1. предварительный анализ свойств совокупности;

  2. установление факта наличия связи, определение ее на­правления и формы;

  3. измерение степени тесноты связи между признаками;

  4. оценка связи, полученной по выборочным данным для всей генеральной совокупности.

Прежде чем определять зависимости между различными признаками, необходимо повести анализ сути изучаемой связи. В некоторых случаях признаки возрастают и убыва­ют одновременно, однако это не является показателем при­чинно-следственной связи.

Например, если произвести выборку сведений о количе­стве больных и количестве врачей в разных городах, то оче­видно, что чем крупнее город, тем больше людей могут за­болеть, врачей в более крупных городах тоже больше. По выборке двух признаков: количество больных, количество врачей — получим, что с возрастанием количества врачей больных становится тоже больше. Однако сделать вывод о том, что чем больше врачей, тем больше люди болеют, нельзя, так как у них есть общая причина — величина го­рода. Такую корреляцию называют ложной.

Итак, прежде чем обратиться к выборочным данным по нескольким признакам с целью исследования корреляци­онных связей, следует оценить возможность причинно-след­ственной связи между ними.

Для оценки корреляционной связи между признаками, заданными рядом наблюдений, существуют различные ме­тоды. По направлению различают прямую и обратную связь. Чтобы определить связь, иногда используют предва­рительный анализ: параллельное сравнение данных, гра­фический метод (построение поля корреляции).

Определение 15.4. Полем корреляции называется совокуп­ность точек результативного и факторного признаков.

Для построения поля корреляции по оси абсцисс от­кладываются значения факторного признака, а по оси орди­нат — соответствующие значения результативного. На их пересечении ставится точка. Множество точек и образует поле корреляции, по которому можно судить о величине разброса значений и о наличии и направлении связи.

Для более точной числовой оценки наличия и тесноты связи между признаками используются разные критерии: коэффициент Фехнера, критерий Пирсона, коэффициент кор­реляции. Наиболее точный вывод о наличии или отсутствии корреляционной связи позволяет сделать линейный коэффи­циент корреляции, вычисленный и оцененный в соответствии со специальным алгоритмом.

Расчет коэффициента корреляции производится по фор­муле:

(15.1)

где п — объем выборки;

хi, yi — выборочные значения соответствующих призна­ков;

— средние арифметические выборочных значе­ний соответствующих признаков; сх и ау — средние квадратические отклонения выбо­рочных значений соответствующих признаков.

Определение 15.5. Коэффициент корреляции принимает значения в интервале [-1; 1], причем близость расчетного коэффициента к -1 свидетельствует о наличии тесной обратной связи между исследуемыми признаками. Коэф­фициент корреляции, приближающийся по своему зна­чению к +1, свидетельствует о прямой зависимости одно­го признака от другого.

Незначительное отклонение коэффициента корреляции от нуля означает отсутствие связи.

Как же оценить близость или удаленность коэффициента корреляции, рассчитанного по выборочным данным к еди­нице во всей генеральной совокупности? Ведь вывод о на­личии связи зависит и от размера выборочной совокупнос­ти, и от точности, с которой мы хотим получить результат, и от величины самого выборочного коэффициента корре­ляции.

Так, если мы получили коэффициент корреляции (напри­мер, 0,92), который рассчитан для выборочной совокупно­сти из шести единиц, и сравниваем его значение с таким же значением, которое было рассчитано для совокупности из двадцати единиц, то во втором случае мы более уверены, что связь в генеральной совокупности — линейная. Шанс получения выборочной совокупности, в которой связь ли­нейная, из генеральной совокупности, в которой связь нели­нейная, уменьшается по мере увеличения размера выборки.

Коэффициент корреляции оценивают с помощью t-кри­терия (критерия Стьюдента) для оценки значимости коэф­фициента корреляции с использованием алгоритма статис­тической проверки гипотез.

Проверка критерия осуществляется по следующему ал­горитму:

  1. Выдвигается гипотеза Н0: коэффициент корреляции r=0, т.е. между переменными х и у не существует линейной связи, иначе говоря, независимая переменная х не помогает в предсказании значений зависимой переменной у.

  2. Альтернативная гипотеза Н1: коэффициент корреляции r близок к ±1, между переменными х и у существует некая линейная связь, х помогает в прогнозировании у.

Для оценки этих двух альтернативных гипотез используем критерий Стьюдента, имеющий для оценки коэффициента корреляционный такой вид:

(15.2)

Расчетное значение критерия сравниваем с табличным значением t-распределения Стьюдента для уровня значимо­сти α=1-γ (где γ — вероятность, с которой мы хотим по­лучить оценку) и числа степеней свободы k=п-2 для двух переменных (где п — объем выборочной совокупности — число пар значений выборки).

Если , то с вероятностью γ=1- α можно ут­верждать, что гипотеза Н0 отклоняется в пользу альтерна­тивной, а это означает значимость коэффициента корреля­ции для генеральной совокупности, значит, между перемен­ными х и у существует некая линейная связь, и переменная х помогает в прогнозировании переменной у.

Если , значит, с вероятностью ү нулевая ги­потеза принимается, и между переменными х и у не суще­ствует линейной связи, а отличие коэффициента корреля­ции от нуля произошло благодаря случайным колебаниям выборки.

Для расчета коэффициента корреляции можно построить дополнительную таблицу, позволяющую упростить вычис­ления (пример 15.2) или использовать возможности таблич­ного процессора MS Excel.