
- •Элементы теории вероятностей и математической статистики
- •Тверь, 2008
- •§1. Случайные события. Основные определения
- •§2. Классическое определение вероятности
- •§3. Свойства вероятности
- •§4. Статистическое определение вероятности
- •§ 5. Основные определения математической статистики
- •§ 6. Типы выборок
- •§ 7. Ранжирование. Способы задания выборки
- •§ 8. Выборочные числовые характеристики
- •§ 9. Коэффициент корреляции Пирсона. Коэффициент детерминации. Прямая линия регрессии
- •Успеваемость у
- •§ 11. Тетрахорический коэффициент сопряженности качественных признаков Пирсона
- •Список рекомендуемой литературы
§ 9. Коэффициент корреляции Пирсона. Коэффициент детерминации. Прямая линия регрессии
Часто на практике каждый объект в выборке изучается по двум признакам Х и У с целью исследования зависимости между ними.
Пример: Пусть Х – познавательная активность по предмету, У– успеваемость по этому же предмету учеников в классе.
Допустим, сделана выборка объема n =5:
((3,3), (2,4), (1,5), (1,4), (4,3)).
Здесь первое число в каждой паре – познавательная активность по предмету, а второе число в каждой паре есть успеваемость по этому предмету (в баллах). Каждая пара соответствует одному ученику.
С целью графического изображения выборки по двум признакам Х и У строят корреляционное поле: в системе координат ХОУ отмечают точки с координатами (хi, уi). Для нашего примера корреляционное поле выглядит следующим образом:
Успеваемость у
-
5
4
3
2
Познавательная активность
11
2
3
4
5
х
Для изучения зависимости между Х и У вычисляют выборочный коэффициент корреляции Пирсона rв :
rв=
ХУв – Х в Ув
в
(Х) в(У)
Здесь ХУв – выборочная средняя произведения
Х Ув = (х1у1 + х2у2 + … + хnуn),
Хв,Ув – выборочные средние признаков Х,У;
в (Х), в(У) – выборочные средние квадратические отклонения.
Всегда –1< rв <1. Если | r |>0,3, то зависимость сильная, если | r |<0,3 , то зависимость слабая. Если r>0, то зависимость положительная: чем больше Х, тем больше У. Если r<0, то зависимость отрицательная: чем больше Х, тем меньше У.
Найдем выборочный коэффициент корреляции для нашего примера. Вычисления оформим в виде таблицы:
-
№
Х
У
Х2
У2
ХУ
1
3
3
9
9
9
2
2
4
4
16
8
3
1
5
1
25
5
4
1
4
1
16
4
5
4
3
16
9
12
11
19
31
75
38
Отсюда
Х в ==2,2 ; Ув = =3,8 ; Хв2 = = 6,2 ;
У
в2
= =15 ; ХУв
= =7,6
Дв(У)=15
– 3,82
= 0,56; Дв
испр.(У)=
0,56= 0,7; в
испр. (У)
0,84;
Дв (Х) = 6,2 – 2,22 = 1,36; Дв испр. (Х) = 1,36 = 1,7; в испр. (Х)1,30;
rв
=
- 0,8.
Вывод: Зависимость между познавательной активностью и успеваемостью сильная отрицательная: чем выше познавательная активность, тем выше успеваемость.
Определение 6. Коэффициентом детерминации называется квадрат коэффициента корреляции
d в = rв2 .
В нашем примере
d в = 0,64.
Коэффициент детерминации, выраженный в процентах, показывает, какая доля изменчивости переменной У обусловлена изменчивостью переменной X.
В корреляционном поле можно построить прямую линию, к которой точки корреляционного поля «наиболее близки». Эта прямая линия называется прямой линией регрессии. Ее уравнение имеет следующий вид:
.
З десь ух – среднее значение у при данном х ( ух – аналог переменной у в уравнении прямой у=кх+ в ).
В нашем примере уравнение регрессии принимает вид
у
х
= 3,8 + (- 0,8)
(х
– 2,2),
у х = - 0,45х + 4,79.
Построим данную прямую в корреляционном поле по точкам
-
x
0
5
у
4,79
2,54
|
|
|||||||
5
|
||||||||
4
|
||||||||
3
|
||||||||
2
|
||||||||
1
|
||||||||
|
1 |
2 |
3 |
4 |
5 |
|
|
По уравнению прямой регрессии можно вычислить среднее значение

у
–
Ранговая корреляция Спирмена.
=
1-
(*)
Использование коэффициента корреляции Пирсона для изучения зависимости между X и Y предполагает выполнение некоторых условий
на выборку, одно из которых – нормальность совместного распределения переменных X и Y.Поэтому в некоторых случаях
целесообразно использовать ранговую корреляцию Спирмена или Кендалла.
В ранговых корреляциях исследуется зависимость не между значениями переменных X и Y, а между рангами этих значений. Коэффициент ранговой корреляции Спирмена вычисляется по формуле
= 1- ,
Здесь n – объем выборки, а di - разность соответствующих рангов. Для вычислений рангов, разностей рангов и суммы квадратов разностей рангов удобно составлять расчетную таблицу.
Пример. Вычислим коэффициент ранговой корреляции Спирмена для предыдущего примера. Составим расчетную таблицу.
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
1 |
5 |
|
|
|
|
2 |
1 |
4 |
|
|
|
|
3 |
2 |
4 |
|
|
|
|
4 |
3 |
3 |
|
|
|
|
5 |
4 |
3 |
|
|
|
|
В столбцах xi, yi записаны значения из выборки. В столбцах ai, bi мы запишем ранги переменных xi, yi соответственно. Сначала занумеруем значения xi, yi в порядке ухудшения качества: к каждому значению припишем его номер (в той же клетке таблицы).
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
1 1 |
5 1 |
|
|
|
|
2 |
1 2 |
4 2 |
|
|
|
|
3 |
2 3 |
4 3 |
|
|
|
|
4 |
3 4 |
3 4 |
|
|
|
|
5 |
4 5 |
3 5 |
|
|
|
|
В столбцах ai, bi мы запишем ранги: ранг значения равен его номеру, если значение встречается в выборке только один раз и ранг равен среднему арифметическому номеров всех одинаковых значений, если значение встречается несколько раз.
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
1 1 |
5 1 |
1,5 |
1 |
|
|
2 |
1 2 |
4 2 |
1,5 |
2,5 |
|
|
3 |
2 3 |
4 3 |
3 |
2,5 |
|
|
4 |
3 4 |
3 4 |
4 |
4,5 |
|
|
5 |
4 5 |
3 5 |
5 |
4,5 |
|
|
Проверка правильности вычисления рангов: сумма рангов по каждой переменной должна быть равна n(n+1)/2. В нашем примере это число равно 5(5+1)/2=15.Ранги вычислены верно.
В столбце di записываем разности рангов
di= ai - bi.
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
1 1 |
5 1 |
1,5 |
1 |
0,5 |
|
2 |
1 2 |
4 2 |
1,5 |
2,5 |
- 1 |
|
3 |
2 3 |
4 3 |
3 |
2,5 |
0,5 |
|
4 |
3 4 |
3 4 |
4 |
4,5 |
- 0,5 |
|
5 |
4 5 |
3 5 |
5 |
4,5 |
0,5 |
|
В столбце di2 записываем квадраты разностей рангов.
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
1 1 |
5 1 |
1,5 |
1 |
0,5 |
0,25 |
2 |
1 2 |
4 2 |
1,5 |
2,5 |
- 1 |
1 |
3 |
2 3 |
4 3 |
3 |
2,5 |
0,5 |
0,25 |
4 |
3 4 |
3 4 |
4 |
4,5 |
- 0,5 |
0,25 |
5 |
4 5 |
3 5 |
5 |
4,5 |
0,5 |
0,25 |
Находим сумму чисел последнего столбика
di2
=2.
1 Подставляем полученные данные в формулу (*)
=1
-
=1-
=0,7.
Выводы
по коэффициенту ранговой корреляции
аналогичны выводам по
коэффициенту корреляции Пирсона rв.
Всегда
Если коэффициент ранговой корреляции больше нуля, то связь прямая: чем лучше качество по X, тем лучше качество по Y; Если коэффициент ранговой корреляции меньше нуля, то связь обратная: чем лучше качество по X, тем хуже качество по Y. В нашем примере коэффициент ранговой корреляции Спирмена больше нуля, связь прямая: чем выше познавательная активность учащихся, тем выше их успеваемость. Полный вывод: повышение познавательной активности учащихся существенно повышает их успеваемость.
Пример. Проверить согласованность оценок поведения детей родителями (X) и педагогом (Y).Поведение детей оценивалось по десятибалльной шкале (меньше –лучше).
Выполнена выборка объема n=10.
X |
4 |
2 |
3 |
4 |
6 |
7 |
5 |
8 |
8 |
9 |
Y |
3 |
3 |
4 |
5 |
5 |
7 |
7 |
9 |
9 |
10 |
Для исследования согласованности оценок мы
вычислим коэффициент ранговой корреляции Спирмена . Составляем расчетную таблицу:
N
|
xi |
yi |
ai |
bi |
di |
di2 |
1 |
2 1 |
3 1 |
1 |
1.5 |
- 0.5 |
0.25 |
2 |
3 2 |
4 3 |
2 |
3 |
- 1 |
1 |
3 |
4 3 |
3 2 |
3.5 |
1.5 |
2 |
4 |
4 |
4 4 |
5 4 |
3.5 |
4,5 |
- 1 |
1 |
5 |
5 5 |
7 6 |
5 |
6.5 |
- 1.5 |
2.25 |
6 |
6 6 |
5 5 |
6 |
4,5 |
1,5 |
2,25 |
7 |
7 7 |
7 7 |
7 |
6.5 |
0.5 |
0.25 |
8 |
8 8 |
9 8 |
8.5 |
8.5 |
0 |
0 |
9 |
8 9 |
9 9 |
8.5 |
8.5 |
0 |
0 |
10 |
9 10 |
10 10 |
10 |
10 |
0 |
0 |
Выполним
проверку правильности составления
рангов: сумма рангов по каждой переменной должна быть равна 10(10+1)/2=55. Ранги вычислены верно.
Находим сумму чисел последнего столбика
di2 =11.
Подставляем
полученные данные в формулу (*):
=1
-
=1-
=0,93
.
Вывод: Так как коэффициент ранговой корреляции Спирмена близок к единице, то
оценки поведения детей родителями и педагогом очень хорошо согласованы.
Обработка данного примера в среде SPSS: