
- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
4.3. Коэффициенты ранговой корреляции Спирмена и τ Кендалла (Correla-
tions Spearman, Kendall tau)
В этой опции вычисляются непараметрические меры взаимозависимости между двумя случайными переменными, измеренными в порядковой шкале.
Коэффициент ранговой корреляции Спирмена
Пусть (xi , yi ), i = 1, 2, ...., n - выборка наблюдений
непрерывных случайных величин X и Y. Предположим, что среди элементов выборки xi и yi , i = 1,2,..., n нет
совпадающих элементов. Упорядочим элементы xi по возрастанию (т.е. запишем вариационный
ряд x(1) , x(2) ,...., x(n) ) и каждому xi поставим в соответствие ранг xiI - номер элемента xi в вариационном ряду. Очевидно, наименьший элемент выборки x(1) будет иметь ранг 1, а наибольший элемент x(n) - ранг n. Аналогичным образом определим ранги yiI элементов yi , i = 1,2,..., n . Каждой паре (xi , yi )
соответствует пара рангов(xiI , yiI ) . По известной формуле (см. гл.6, п.6.1) вычислим выборочный
96

коэффициент корреляции rs по выборке пар рангов(xiI , yiI ) :
|
r = |
|
å(xiI |
− x I )(yiI − y I ) |
= 1− |
6å(xiI − yiI )2 |
, |
(4.1) |
||||
|
|
|
|
|
|
n(n2 −1) |
||||||
|
s |
å(xiI − x I )2 å(yiI − y I )2 |
|
|
|
|||||||
|
|
n å |
|
n |
å |
|
|
|
|
|
||
где x I |
= |
1 |
|
|
xI , y I = |
1 |
|
yI - средние рангов. |
|
|
||
|
|
|
|
|
|
|
||||||
|
|
|
|
|
i |
|
|
i |
|
|
|
|
Полученное значение rs называется выборочным коэффициентом ранговой корреляции Спирмена ρs .
ρs является непараметрической мерой связи и,
следовательно, может использоваться при произвольном непрерывном распределении генеральной совокупности. Применение коэффициента корреляции Пирсона r, в частности проверка его значимости, предполагает двумерное нормальное распределение генеральной совокупности.
Значимость коэффициента ρs при n ³ 9 проверяется по значению статистики:
|
|
|
|
t = |
|
r |
|
|
n − 2 |
|
. |
|
||||
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
s |
|
|
1− r2 |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
s |
|
|
||
При |
условии, |
что |
гипотеза |
Н0: ρs = 0 |
верна, эта |
|||||||||||
статистика |
имеет |
распределение |
Стьюдента с ( n − 2 ) |
|||||||||||||
степенями |
свободы. |
|
|
Если |
выборочное |
значение |
||||||||||
tв > t1−α |
2 |
(n − 2) , где t1−α |
2 |
(n − 2) |
- квантиль распределения |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Стьюдента с ( n − 2 ) степенями свободы, то гипотеза H0
отклоняется на уровне значимости α, т.е. между X и Y существует ранговая корреляционная зависимость.
97

|
|
Пример 4.4. Вычислить коэффициент ранговой |
|
||||||||
xi |
|
корреляции для следующей выборки: |
|
|
|
|
|||||
68,8 |
63,3 |
75,5 |
67,2 |
71,3 |
72,8 |
76,5 |
63,5 |
69,9 |
|
71,4 |
|
yi |
167 |
113,3 |
159,9 |
153,6 |
150,8 |
181,2 |
173,1 |
115,4 |
125,6 |
|
166, |
Проверить значимость ранговой корреляции при α = 0,10.
Решение. Определим ранги элементов исходной выборки. Предварительно перепишем исходную выборку, упорядочив ее элементы по верхней строке (т.е. по значению хi ), в результате получим:
xi 63,3 63,5 67,2 68,8 69,9 71,3 71,4 |
72,8 75,5 76,5 |
yi 113,3 115,4 153,6 167 125,6 150,8 166,2 181,2 159,9 173,
Определим ранги для значения yi. Вариационный ряд для yi имеет вид:
I 1 2 3 4 5 6 7 8 9 10
yi 113,3 115,4 125,6 150,8 153,6 159,9 166,2 167 173,1 181,
Таким образом, упорядоченной по элементам xi выборке соответствует следующая последовательность
пар рангов и их разностей: |
|
|
|
|
|
|
|||||
|
xiI |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
yiI |
1 |
2 |
5 |
8 |
3 |
4 |
7 |
10 |
6 |
9 |
|
xiI − yiI |
0 |
0 |
–2 |
–4 |
2 |
2 |
0 |
–2 |
3 |
1 |
Оценка рангового коэффициента корреляции по формуле (4.1) равна:
rs ≈ 0,745 .
Чтобы проверить значимость полученного результата, вычислим выборочное значение статистики Стьюдента tв:
tв = 0,745 |
10 − 2 |
|
≈ 3,163 . |
1− (0,745)2 |
|
||
|
|
|
98

Так как выборочное значение tв больше квантили распределения Стъюдента t0,95 (8) = 1,860 , то ранговая
корреляция значима.
Коэффициент ранговой корреляции τ Кендалла
вычисляется по формуле
t = 1- |
4k |
, |
n(n -1) |
где k - число инверсий в ряду рангов второй переменной ( yiI ) (при условии, что ранги первой переменной ( xiI )упорядочены).
В примере 4.4 последовательности рангов следующие:
xiI 1 2 3 4 5 6 7 8 9 10
yiI 1 2 5 8 3 4 7 10 6 9
Найдем число инверсий (нарушений порядка) в последовательности yiI , i = 1, 2, …, 10.
Числа 1 и 2 инверсий не образуют; число 5 образует две инверсии, так как стоит перед числами 3 и 4; 8 образует четыре инверсии с числами 3, 4, 7 и 6; 7 образует одну инверсию; 10 - две. Таким образом число инверсий k = 9.
t = 1- |
|
4 ×9 |
= 0,6. |
10(10 -1) |
Для проверки значимости τ используется статистика
Z = |
|
9n(n -1) |
|
t. |
|
||||
|
|
2(2n + 5) |
При больших значениях n эта статистика имеет (приближенно) стандартное нормальное распределение
N(0,1).
Для примера 4.4 выборочное значение равно
99

|
|
zв = |
|
|
9×10×9 |
|
0,6 » 2,4149. |
|
|
|
2(2×10 + 5) |
|
|||||
|
|
|
|
|
|
|
||
Так |
как |
квантиль |
распределения |
N(0,1) |
||||
u0,95 = 1,645, что |
меньше |
zв, то |
|
коэффициент |
ранговой |
корреляции τ значимо отличается от нуля.
Оба коэффициента ранговой корреляции по модулю не превосходят единицу: rs £ 1 , t £ 1.
Значения ±1 эти коэффициенты принимают в случае, когда последовательности рангов xiI , yiI , i = 1, 2,
…, n, совпадают либо расположены во взаимнообратном порядке.
Если два или более элементов вариационного ряда совпадают, то этим элементам присваивается один и тот же ранг, равный среднему арифметическому их номеров. Например, вариационному ряду 0, 1, 2, 2, 2, 4, 8 будет соответствовать следующая последовательность рангов:
1, 2, 4, 4, 4, 6, 7, так как третьему, четвертому и пятому элементам вариационного ряда (они совпадают и равны
2) присваивается ранг 3 + 4 + 5 = 4.
3
В случае совпадающих рангов для расчета rs ранговых коэффициентов корреляции и τ используют скорректированные формулы. Выборочное значение коэффициента ранговой корреляции Спирмена rs вычисляется по следующей формуле:
|
|
1 |
(n3 - n)- å(xiI - yiI )2 -Tx -Ty |
|
||||||
r = |
|
|
6 |
, |
||||||
|
|
|
|
|
|
|
|
|||
s |
é |
1 |
(n3 |
ù é1 |
(n3 |
ù |
|
|||
|
|
ê |
6 |
- n)- 2Tx ú ê |
- n)- 2Ty ú |
|
||||
|
|
ë |
|
û ë6 |
|
û |
|
100

|
1 |
m |
|
|
1 |
my |
|
|
где Tx = |
åx |
êé(nt )3 |
- nt úù ; Ty = |
åêé(nl )3 - nl úù . |
|
|||
|
|
|
||||||
|
12 t=1 ë |
û |
12 l=1 ë |
û |
|
|||
Здесь mx - число групп |
совпадающих рангов |
в |
||||||
последовательности рангов xI |
; n |
- число совпадающих |
||||||
|
|
|
|
|
i |
t |
|
t, |
рангов |
|
|
в |
группе |
|
с |
номером |
t = 1, 2, …, mx ; my - число групп совпадающих рангов в
последовательности yiI ; nl - число совпадающих рангов в группе с номером l, l = 1, 2…. my .
Скорректированная формула для вычисления коэффициента ранговой корреляции Кендалла имеет вид:
|
|
|
|
t - |
2 |
(Ux +U y ) |
|
|
|
|||||
tI = |
|
|
|
|
n(n -1) |
|
|
|
|
, |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
æ |
- |
2Ux |
öæ |
- |
|
2U y |
ö |
|
||||||
ç1 |
|
|
|
֍1 |
|
|
|
|
÷ |
|
||||
n(n - |
|
n(n - |
|
|||||||||||
è |
|
1) øè |
|
1) ø |
|
где τ - коэффициент ранговой корреляции Кендалла,
вычисленный без поправки; U = 1 mx n n -1 ;
x 2 åt=1 t ( t )
|
1 |
my |
(nl -1). |
U y = |
åånl |
||
|
2 |
l=1 |
|
|
|
|
Пример 4.5. Объемы продаж в двух магазинах бытовой техники в течение 10 дней составили (тыс. руб.):
x |
19 |
15 |
17 |
18 |
17 |
18 |
21 |
21 |
15 |
13 |
y |
19 |
17 |
17 |
17 |
17 |
19 |
20 |
19 |
15 |
14 |
101

Определить коэффициенты ранговой корреляции.
Решение. Определим ранги исходной выборки. Предварительно упорядочим элементы выборки по элементам строки х:
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
x |
13 |
15 |
15 |
17 |
17 |
18 |
18 |
19 |
21 |
21 |
y |
14 |
15 |
17 |
17 |
17 |
17 |
19 |
19 |
19 |
20 |
Cтрока y также оказалась записана в порядке возрастания. Поэтому можно сразу записать последовательность пар рангов, присвоив повторяющимся элементам равные ранги по правилу среднего арифметического:
хI |
1 |
2,5 |
2,5 |
4,5 |
4,5 |
6,5 |
6,5 |
8 |
9,5 |
9,5 |
yI |
1 |
2 |
4,5 |
4,5 |
4,5 |
4,5 |
8 |
8 |
8 |
10 |
xI - yI |
0 |
0,5 |
–2 |
0 |
0 |
2 |
–1,5 |
0 |
1,5 |
–0,5 |
å(xI - yI )2 = 0,25 + 4 + 4 + 2,25 + 2,25 + 0,25 = 13, n = 10;
Tx = 121 éêë(23 - 2)+ (23 - 2)+ (23 - 2)+ (23 - 2)ùúû = 1224 = 2;
|
|
Ty = |
|
1 |
é(43 |
- 4)+ (33 - 3)ù |
= 84 = 7; |
|
|
|
||||
|
|
|
|
|||||||||||
|
|
|
|
|
ê |
|
|
ú |
12 |
|
|
|
||
|
|
|
|
|
12 ë |
|
|
û |
|
|
|
|||
rs = |
|
|
|
1/ 6(103 -10)-13 - 2 - 7 |
|
|
» 0,917. |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
(10 |
3 |
-10)- |
ù é |
(10 |
3 |
-10)- 2 ×7 |
ù |
||||||
é |
|
|
||||||||||||
ê1/ 6 |
|
2 ×2ú ê1/ 6 |
|
ú |
|
|
||||||||
ë |
|
|
|
|
|
û ë |
|
|
|
û |
|
|
Далее вычислим |
коэффициент τ . Так как |
в |
упорядоченной |
по |
xI |
последовательности пар во второй строке ( yI ) инверсий
102