Решение:
1. Для построения графика необходимо первоначально определиться, какой из двух предложенных факторов является независимой переменной (х) и изображается по оси абсцисс, а какой - зависимой переменной (у) и изображается по оси ординат. В данном примере наполняемость гостиницы зависит от ее расстояния до пляжа, поэтому наполняемость, % – у, а расстояние, км. – х. Далее в координатной плоскости откладываются точки.
Полученная совокупность точек, не соединенных между собой, называется полем корреляции или корреляционным облаком. По форме облака можно предварительно судить о тесноте и направлении связи.
2. Количественно тесноту и направление связи между двумя коррелируемыми признаками (в случае наличия между ними линейной зависимости) характеризует линейный коэффициент корреляции Пирсона. Это безразмерная величина, которая изменяется в интервале от -1 до +1.
Необходимые расчеты оформляются в виде вспомогательной таблицы:
х |
У |
ху |
х² |
у² |
0,1 |
92 |
9,2 |
0,01 |
8464 |
0,1 |
95 |
9,5 |
0,01 |
9025 |
0,2 |
96 |
19,2 |
0,04 |
9216 |
0,3 |
90 |
27,0 |
0,09 |
8100 |
0,4 |
89 |
35,6 |
0,16 |
7921 |
0,4 |
86 |
34,4 |
0,16 |
7396 |
0,5 |
90 |
45,0 |
0,25 |
8100 |
0,6 |
83 |
49,8 |
0,36 |
6889 |
0,7 |
85 |
59,5 |
0,49 |
7225 |
0,7 |
80 |
56,0 |
0,49 |
6400 |
0,8 |
78 |
62,4 |
0,64 |
6084 |
0,8 |
76 |
60,8 |
0,64 |
5776 |
0,9 |
72 |
64,8 |
0,81 |
5184 |
0,9 |
75 |
67,5 |
0,81 |
5625 |
Σх=7,4 |
Σу=1187 |
Σху=600,7 |
Σх²=4,96 |
Σу²=101405 |
По направлению выделяют связь прямую и обратную. При прямой связи (коэффициент корреляции больше нуля) с увеличением факторного признака увеличивается и результативный, и наоборот, с уменьшением факторного признака уменьшается и результативный признак; при обратной (коэффициент корреляции меньше нуля) увеличение факторного признака приводит к уменьшению результативного.
В данном примере связь обратная тесная, т.е. увеличение расстояния от гостиницы до пляжа в 94 случаях из 100 приведет к снижению наполняемости гостиницы.
3. Значимость коэффициента корреляции можно проверить по общему правилу проверки статистических гипотез:
- если tр tкр, нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь (то есть r = 0), нельзя отклонить на заданном уровне значимости .
- если tр tкр, нулевая гипотеза отклоняется в пользу альтернативной о том, что коэффициент корреляции значимо отличается от нуля (r 0), то есть между X и Y существует линейная корреляционная зависимость.
Расчетное значение критерия tр подчиняется закону распределения Стьюдента с (n - 2) степенями свободы:
.
Критическое значение определяется по таблице распределения Стьюдента по уровню значимости и числу степеней свободы k = n – 2. По условию задачи уровень значимости 0,05 и число степеней свободы 14-2=12, в этом случае = 2,18. Таким образом, , следовательно, определенно можно сказать, что между наполняемостью гостиницы и расстоянием от нее до пляжа существует связь.
4. В случае, если коэффициент корреляции является значимым, можно построить уравнение регрессии, которое позволяет определить, каким в среднем будет значение результативного признака Y при том или ином значении факторного признака X, если остальные факторы, влияющие на Y и не связанные с X, рассматривались неизменными. Уравнение регрессии имеет вид:
Коэффициент регрессии () показывает, на сколько единиц изменится следствие (у ) при изменении причины (х) на одну единицу.
При увеличении расстояния до пляжа на 1 км. наполняемость гостиницы снизится на 25,5%. Свободный член уравнения регрессии:
Уравнение регрессии:
5. По уравнению регрессии можно спрогнозировать, какова будет наполняемость гостиницы, если расстояние от нее до пляжа 1 км.
Для этого необходимо подставить известное значение независимой переменой х (х=1) и вычислить соответствующее значение у.
Если расстояние от гостиницы до пляжа будет 1 км., то среднегодовая наполняемость номеров в гостинице составит 72,8%.
Контрольные задания к теме «Анализ взаимосвязей»
Вариант 1
Врач выясняет зависимость площади пораженной части легких у людей, заболевших эмфиземой легких, от числа лет курения. Собранные им статистические данные имеют следующий вид:
Число лет курения |
25 |
36 |
22 |
15 |
48 |
39 |
42 |
31 |
28 |
33 |
Площадь пораженной части легкого, % |
55 |
60 |
50 |
30 |
75 |
70 |
70 |
55 |
30 |
35 |
Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при =0,05. Постройте уравнение регрессии и дайте интерпретацию полученных результатов. Если человек курил 30 лет, сделайте прогноз о степени поражения легких у случайно выбранного пациента, больного эмфиземой?