Вариант 4
Десять спортсменов-бегунов проранжированы по двум признакам: X— рост спортсмена,Y— скорость бега (табл. 8.4).
Таблица 8.4
Таблица рангов для варианта 4
Ранг X |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Ранг Y |
5 |
6 |
10 |
7 |
9 |
4 |
3 |
1 |
8 |
2 |
РЕШЕНИЕ
Ранговая корреляция
Близость двух рядов рангов отражает величина
Она принимает наименьшее возможное значение тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее возможное значениевеличинаSпринимает, когда эти последовательности полностью противоположны. Поэтому в качестве меры монотонной зависимости признаковXиYрассматриваюткоэффициент ранговой корреляции Спирмена:
Коэффициент по абсолютной величине ограничен единицей:и принимает значенияв случаях полной предсказуемости одной ранговой последовательности по другой. Проверка значимости коэффициента корреляции Спирмена проводится с помощью той же статистики, что и для коэффициента корреляции Пирсона.
По данным примера рассчитаем коэффициент корреляции Спирмена.
Ранговые последовательности
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
5 |
6 |
10 |
7 |
9 |
4 |
3 |
1 |
8 |
2 |
|
-4 |
-4 |
-7 |
-3 |
-4 |
2 |
4 |
7 |
1 |
8 |
|
16 |
16 |
49 |
9 |
16 |
4 |
16 |
49 |
1 |
64 |
В последней строке таблицы указана разность рангов
Величина S равна
Коэффициент корреляции Спирмена рассчитаем по формуле при
Значение коэффициента корреляции Спирмена примерно равно –0,5, поэтому между признаками X и Y можно предполагать наличие некой отрицательной корреляционной связи.
Проверим значимость полученного результата при α = 0,05.
Сформулируем основную и альтернативную гипотезы.
—коэффициент корреляции не значим, т.е. между переменными X и Y нет линейной связи.
—коэффициент корреляции значим, переменные X и Y связаны отрицательной линейной зависимостью.
Проверка значимости коэффициента корреляции Спирмена проводится с помощью той же статистики, что и для коэффициента корреляции Пирсона (табл. 7.1).
Таблица 7.1
Проверка значимости коэффициента корреляции Пирсона
Гипотеза |
|
Предположение |
Двумерная нормальная генеральная совокупность |
Оценки по выборке |
|
Статистика К |
|
Распределение статистики К |
Стьюдента |
Наблюдаемое значение статистики K равно
Определим границу критической области по таблице распределения Стьюдента. По виду альтернативной гипотезы заключаем, что критическая область является левосторонней: Значениенаходим по таблице распределения Стьюдента (приложение 3):
Наблюдаемое значение не попадает в критическую областьпоэтому нет оснований отвергать основную гипотезу в пользу альтернативы: связь между переменнымиX и Y незначима.
Данные наблюдений на уровне значимости 0,05 говорят о том, что рост спортсмена оказывает не существенное влияние на скорость его бега.
Задача 7.Тема: «Линейная корреляция и регрессия».
Для приведенных исходных данных (табл. 8.11 – 8.20) постройте диаграмму рассеяния и определите по ней характер зависимости. Рассчитайте выборочный коэффициент корреляции Пирсона, проверьте его значимость при α = 0.05. Запишите уравнение регрессии и дайте интерпретацию полученных результатов.
РЕШЕНИЕ
Построим поле корреляции (точечную диаграмму), изобразив в прямоугольной системе координат точки с координатами, соответствующими каждой паре наблюдений (xi ,yi ).
X |
20 |
50 |
60 |
70 |
80 |
90 |
100 |
Y |
20 |
25 |
28 |
30 |
35 |
40 |
45 |
На основании поля корреляции можно сделать предположение о наличии между случайными величинами X и Y корреляционной зависимости и о форме этой зависимости.
На основании поля корреляции можно предположить существование между величинами Х и Y линейной корреляционной зависимости с функцией регрессии y = Ax + B.
Вычислить оценки математических ожиданий случайных величин X и Y - средние арифметические
Рабочая таблица
№№п/п |
|
|
|
|
|
|
|
|
|
20 |
20 |
-47,14 |
-11,86 |
2222,45 |
140,59 |
559,08 |
19,17 |
|
50 |
25 |
-17,14 |
-6,86 |
293,88 |
47,02 |
117,58 |
27,23 |
|
60 |
28 |
-7,14 |
-3,86 |
51,02 |
14,88 |
27,56 |
29,92 |
|
70 |
30 |
2,86 |
-1,86 |
8,16 |
3,45 |
-5,32 |
32,60 |
|
80 |
35 |
12,86 |
3,14 |
165,31 |
9,88 |
40,38 |
35,29 |
|
90 |
40 |
22,86 |
8,14 |
522,45 |
66,31 |
186,08 |
37,98 |
|
100 |
45 |
32,86 |
13,14 |
1079,59 |
172,73 |
431,78 |
40,66 |
|
470 |
223 |
0 |
0 |
4342,86 |
454,86 |
1357,14 |
223 |
1.
2.
несмещенные оценки дисперсий:
Оценка коэффициента корреляции Пирсона:
Проверить гипотезу о не значимости коэффициента корреляции.
- нулевая гипотеза о не значимости коэффициента корреляции.
Эмпирическое значение критерия проверки гипотезы:
Критическое значение критерия tТ = 2,57 находится из таблицы распределения Стьюдента (Приложение 3) по уровню значимости α=0,05 и числу степеней свободы k = n – 2 = 5 .
Так как tЭ > tТ, нулевая гипотеза отклоняется и коэффициент корреляции значим.
Получим уравнение регрессии случайной величины Y на X. Нанесем прямую регрессии на график.
-уравнение прямой регрессии;
Параметры уравнения регрессии:
Уравнение регрессии: Нанесем прямую регрессии на график поля корреляции.
Дадим интерпретацию полученных результатов.
Коэффициент a характеризует наклон линии регрессии и его значение a = 0,27 показывает, что при увеличении X на единицу ожидаемое значение Y возрастает на 0,27. Регрессионная модель указывает на то, что при увеличении веса растения на 1 %, вес его семечки увеличивается на 0,27 г. Отсюда a можно интерпретировать как прирост веса семечки растения, который меняется в зависимости от веса самого растения.
Свободный член b в нашем уравнении – это значение Y при X = 0. Можно рассматривать b как меру влияния на вес семечки других факторов, не включенных в уравнение регрессии. Это влияние можно оценить с помощью коэффициента детерминации, который характеризует для линейной модели долю объясняемого моделью разброса экспериментальных данных. В нашем примере ,
следовательно, модель учитывает 69 % изменения веса семян. А 31 % разброса объясняются факторами, не включенными в уравнения регрессии.
Коэффициент эластичности вычислим по формуле ,
то есть при увеличении среднего веса растения на 1 %, вес его семечек возрастет в среднем на 0,57 %.