Лекции СТАТИСТИКА
.pdfU-КРИТЕРИЙ МАННА-УИТНИ
Рассмотрим, как один качественный фактор влияет на количественный отклик.
Ограничения критерия
1.Качественный фактор должен иметь строго два значения.
2.Распределение в двух группах, определенных значениями качественного признака, может не подчиняться нормальномузакону.
Постановка задачи
Влияет ли вознаграждение на успешность решения задачи? (Под успешностью подразумевается время решения задачи.) Для этого были обследованы две группы испытуемых: с дополнительной денежной мотивацией – n1 8 человек и n2 9 – без дополнительной мотивации. Были получены следующие исходные данные (Табл. 12).
Табл. 12. Исходные данные
Время |
39 |
38 |
44 |
6 |
25 |
25 |
30 |
43 |
46 |
8 |
50 |
45 |
32 |
41 |
41 |
31 |
55 |
Группа |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
Решение
Так как количество испытуемых в каждой группе не достаточно (менее 30), то говорить о нормальности распределения здесь не целесообразно. Кроме того, не известно, что данные о времени решения задачи извлечены из нормально распределенной совокупности.
Алгоритм использования критерия
1)выдвигается гипотеза H0 об отсутствии различий между группами (т.е. выдвигается гипотеза об отсутствии влияния качественного фактора на количественный отклик);
2)все значения количественного признака ранжируются с учетом принадлежности к группе
(столбцы (1), (2) и (3) в Табл. 13);
3)в столбцах (4) и (5) отмечаются общие ранги из столбца (3), но для каждой группы;
4)в последней строке вычисляют суммы рангов R1 и R2 по группам;
Табл. 13. Расчетная таблица
(1) |
(2) |
(3) |
(4) |
(5) |
Время |
Группа |
Общий ранг |
Ранги для 1 группы |
Ранги для 2 группы |
6 |
1 |
1 |
1 |
|
8 |
2 |
2 |
|
2 |
25 |
1 |
3,5 |
3,5 |
|
25 |
1 |
3,5 |
3,5 |
|
30 |
1 |
5 |
5 |
|
31 |
2 |
6 |
|
6 |
32 |
2 |
7 |
|
7 |
38 |
1 |
8 |
8 |
|
39 |
1 |
9 |
9 |
|
41 |
2 |
10,5 |
|
10,5 |
41 |
2 |
10,5 |
|
10,5 |
43 |
1 |
12 |
12 |
|
44 |
1 |
13 |
13 |
|
45 |
2 |
14 |
|
14 |
46 |
2 |
15 |
|
15 |
50 |
2 |
16 |
|
16 |
55 |
2 |
17 |
|
17 |
Сумма рангов по группам |
55 R1 |
98 R2 |
5) далее находят значения U-критерия для каждой группы:
31
|
|
|
|
|
|
|
|
|
U |
1 |
n n |
2 |
|
n1 n1 1 |
R и U |
2 |
n n |
2 |
|
n2 n2 1 |
|
R |
2 |
. |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
1 |
2 |
|
1 |
1 |
2 |
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
Проверка правильности вычислений – выражение n1n2 |
U1 U2 . |
|
|
|
||||||||||||||||||||||||
6) |
|
фактическое значение критерия Uфакт |
|
- наименьшее из U1 и U2 ; |
|
|
|
|||||||||||||||||||||||
7) |
|
табличное значение Uтабл берется на уровне значимости и числе степеней свободы n1 и n2 ; |
||||||||||||||||||||||||||||
8) |
|
если Uфакт Uтабл , то гипотеза H0 принимается, различий между группами нет, и качествен- |
||||||||||||||||||||||||||||
|
|
ный фактор не действует на отклик. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
Таким образом, значения U-критерия для каждой группы: |
|
|
|
|
|
|
|
|||||||||||||||||||||||
U |
1 |
n n |
2 |
|
n1 n1 1 |
R 8 9 |
8 8 1 |
|
55 53; |
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
1 |
2 |
1 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
U |
2 |
n n |
2 |
|
n2 n2 1 |
R |
2 |
8 9 |
9 9 1 |
98 19. |
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
1 |
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Фактическое значение U-критерия: Uфакт min U1;U2 min 53;19 19.
Табличное значение на уровне значимости 0,05 и числе степеней свободы 8 и 9 равно 15.
Вывод: Uфакт 19 Uтабл 15, что свидетельствует о несущественности влияния денежной мо-
тивации на успешность решения задачи.
КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Рассмотрим, как один количественный фактор влияет на количественный отклик.
Общая схема использования коэффициентов корреляции представлена на Рис. 14.
Да |
Фактор и отклик |
|
нормально |
Нет |
|
|
|
|
|
распределены? |
Коэффициент корреляции |
|
Коэффициент корреляции |
Пирсона |
|
Спирмена |
|
|
|
|
|
|
Рис. 14. Схема использования коэффициентов корреляции
Коэффициент корреляции Пирсона
Особенности использования
1)коэффициент корреляции Пирсона имеет смысл лишь в случае рассмотрения линейной зависимости;
2)число наблюдений фактора и отклика должно быть равно (обозначим N );
3)фактор и отклик должны иметь распределение, близкое к нормальному;
4)формула для расчета (пусть х – фактор, а у – отклик):
r |
|
xy x y |
. |
|||
|
||||||
xy |
|
|
x |
|
y |
|
|
|
|
|
5) значимость коэффициента корреляции выявляется по следующей схеме:
32
выдвигаем гипотезуо незначимости коэффициента корреляции H0 :rxy 0;
вычисляем фактическое значение t-критерия Стьюдента: t |
факт |
|
|
r |
|
|
N 2 |
; |
|
|
|||||||
|
|
|
||||||
|
|
|
xy |
|
|
1 r2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xy |
|
по таблице критических значений t-критерия Стьюдента находим tтабл на уровне значимо-
сти и числе степеней свободы N 2;
если tфакт tтабл , то гипотеза H0 отвергается и связь признается существенной.
Коэффициент раноговой корреляции Спирмена
Особенности использования
1)фактор и отклик могут иметь распределение отличное от нормального;
2)число наблюдений фактора и отклика должно быть равно (обозначим N );
3)формула для расчета:
N
6 di2
rS 1 |
i 1 |
2 |
|
|
N N2 |
1 |
, где di |
- квадрат разности рангов фактора и отклика. |
4)значимость коэффициента корреляции Спирмена выявляется так же, как и для корреляции Пирсона:
выдвигаем гипотезуо незначимости коэффициента корреляции H0 :rS 0;
вычисляем фактическое значение t-критерия Стьюдента: t |
|
|
|
r |
|
|
N 2 |
; |
|
|
|
||||||
|
|
|
|
|||||
|
факт |
|
|
S |
|
|
1 r2 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
S |
|
по таблице критических значений t-критерия Стьюдента находим tтабл на уровне значимо-
сти и числе степеней свободы N 2;
если tфакт tтабл , то гипотеза H0 отвергается и связь признается существенной.
Общее замечание о коэффициентах корреляции
I.В случае выявления существенности влияния количественного признака на количественный, полезно перед расчетами построить диаграмму рассеяния – график, на котором по горизонтальной оси отмечаются значения фактора, а по вертикальной – отклика. Расположение точек подскажет и о силе связи, и о ее характере.
II.Каждый из перечисленных выше коэффициентов корреляции обладает следующими свойствами:
1)изменяется в пределах от -1 до 1;
2)если коэффициент корреляции равен 0, то связь отсутствует;
3)если коэффициент корреляции равен 1 или -1, то связь не корреляционная, а функциональная (полная);
4)если коэффициент больше 0, то связь называется прямой, если меньше 0 – то обратной;
5)сила связи может быть охарактеризована согласно шкале Чеддока:
Теснота связи |
Абсолютное значение |
|
коэффициента корреляции |
||
|
слабая |
0,1 – 0,3 |
умеренная |
0,3 – 0,5 |
заметная |
0,5 – 0,7 |
высокая |
0,7 – 0,9 |
весьма высокая |
0,9 – 0,99 |
33
Пример 1.
Выяснить, влияют ли затраты на рекламу на объем продаж. Исходные данные представлены в Табл. 14. Известно, что данные извлечены из нормально распределенных совокупностей.
Табл. 14. Влияние рекламы на продажи
Год |
Месяц |
Затраты на рекламу, тыс.р |
Продажи, тыс.р |
2003 |
3 |
2510 |
376 |
2003 |
4 |
2588 |
377 |
2003 |
5 |
2452 |
334 |
2003 |
6 |
2476 |
347 |
2003 |
7 |
1956 |
292 |
2003 |
8 |
2252 |
320 |
2003 |
9 |
1808 |
271 |
2003 |
10 |
2356 |
353 |
2003 |
11 |
2660 |
451 |
2003 |
12 |
2571 |
456 |
2004 |
1 |
2432 |
408 |
2004 |
2 |
2376 |
440 |
Решение
Вычислим коэффициент корреляции Пирсона, т.к. известно, что данные извлечены из нормально распределенных совокупностей.
Для начала построим диаграммурассеяния (Рис. 15).
|
500 |
|
|
|
|
|
|
|
400 |
|
|
|
|
|
|
Продажи, тыс. р |
300 |
|
|
|
|
|
|
200 |
|
|
|
|
|
|
|
|
1600 |
1800 |
2000 |
2200 |
2400 |
2600 |
2800 |
|
Затраты на рекламу, тыс. р |
|
|
|
Рис. 15. Диаграмма рассеяния
Для нахождения коэффициента корреляции Пирсона составим расчетную таблицу(Табл. 15).
Табл. 15. Расчетная таблица
|
|
Затраты на рекламу, |
Продажи, |
|
|
|
|
2 |
|
|
|
2 |
|
Год |
Месяц |
xy |
x x |
y y |
|||||||||
тыс.р, x |
тыс.р, y |
|
|
||||||||||
2003 |
3 |
2510 |
376 |
943760 |
19670,06 |
52,56 |
|
||||||
2003 |
4 |
2588 |
377 |
975676 |
47633,06 |
68,06 |
|
||||||
2003 |
5 |
2452 |
334 |
818968 |
6765,06 |
1207,56 |
|||||||
2003 |
6 |
2476 |
347 |
859172 |
11289,06 |
473,06 |
|||||||
2003 |
7 |
1956 |
292 |
571152 |
171189,06 |
5890,56 |
|||||||
2003 |
8 |
2252 |
320 |
720640 |
13865,06 |
2376,56 |
|||||||
2003 |
9 |
1808 |
271 |
489968 |
315563,06 |
9555,06 |
|||||||
2003 |
10 |
2356 |
353 |
831668 |
189,06 |
248,06 |
34
|
|
|
Затраты на рекламу, |
Продажи, |
|
|
|
|
2 |
|
|
|
2 |
Год |
|
Месяц |
xy |
x x |
y y |
||||||||
|
тыс.р, x |
тыс.р, y |
|
|
|||||||||
2003 |
|
11 |
2660 |
451 |
1199660 |
84245,06 |
6765,06 |
||||||
2003 |
|
12 |
2571 |
456 |
1172376 |
40501,56 |
7612,56 |
||||||
2004 |
|
1 |
2432 |
408 |
992256 |
3875,06 |
1540,56 |
||||||
2004 |
|
2 |
2376 |
440 |
1045440 |
39,06 |
|
5076,56 |
|||||
Сумма |
|
|
28437 |
4425 |
10620736 |
714824,25 |
40866,25 |
||||||
Среднее: |
|
2369,75 |
368,75 |
885061,33 |
|
|
|
|
|
|
|
|
Рассчитаем стандартные отклонения для фактора и отклика:
|
|
|
|
x |
|
|
2 |
|
|
|
|
|
|
|
|
||||||||
|
x |
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
714824,25 |
|
|
|
|||||||||||||||||
x |
|
|
|
|
|
|
244, |
||||||||||||||||
12 |
|
||||||||||||||||||||||
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
||||||||||
|
|
|
|
y |
|
|
2 |
|
|
|
|
|
|
|
|
||||||||
|
y |
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
40866,25 |
|
|
|
|
|||||||||||||
y |
|
|
|
|
|
58,36. |
|||||||||||||||||
12 |
|
||||||||||||||||||||||
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
||||||||||
Коэффициент корреляции Пирсона: |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
885061,33 2369,75 368,75 |
0,788. |
||||||||||||
r |
xy |
x |
y |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||
xy |
|
|
x y |
|
|
|
244 58,36 |
Оценим значимость коэффициента корреляции Пирсона.
1)выдвигаем гипотезуо незначимости коэффициента корреляции H0 :rxy 0;
2)вычисляем фактическое значение t-критерия Стьюдента:
t |
|
|
r |
|
|
N 2 |
0,788 |
12 2 |
4,05; |
|
|
||||||||
|
|
|
|
||||||
факт |
|
|
xy |
|
|
1 r2 |
|
1 0,7882 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
xy |
|
|
|
3)по таблице критических значений tтабл 2,228 на уровне значимости 0,05 и числе степе-
ней свободы N 2 12 2 10;
4)tфакт 4,05 tтабл 2,228, значит гипотеза H0 отвергается и связь признается существенной.
Связь прямая, высокая (по шкале Чеддока).
Пример 2.
По группе акционерных коммерческих банков региона имеются следующие данные (Табл. 16):
Табл. 16. Исходные данные
Номер банка |
Активы банка, млн р. |
Прибыль, млн р. |
1 |
866 |
40 |
2 |
328 |
18 |
3 |
207 |
13 |
4 |
185 |
15 |
5 |
109 |
4 |
6 |
104 |
16 |
7 |
327 |
6 |
8 |
113 |
10 |
9 |
91 |
3 |
10 |
849 |
13 |
Выяснить, влияет ли прибыль на размер активов банков. Решение
Так как наблюдений всего 10, то проверять выборки на нормальность не имеет смысла. Для ответа на поставленный вопрос можно воспользоваться оценкой значимости коэффициента корреляции
35
Спирмена.
Для начала построим диаграмму рассения (Рис. 16) и попытаемся сформулировать предварительные выводы.
Активы, млн.р
1000
800
600
400
200
0
0 |
10 |
20 |
30 |
40 |
50 |
Прибыль, млн.р
Рис. 16. Диаграмма рассеяния
По графикуможно предположить наличие связи междуфактором и откликом.
Построим расчетную таблицу (Табл. 17):
Табл. 17. Расчетная таблица |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Номер |
|
Активы банка, |
Прибыль, |
Ранг 1 |
Ранг 2 |
Разность рангов |
d2 |
||
|
|
банка |
|
|
млн. р |
|
млн. р |
|
|
d |
|
|
|
1 |
|
|
91 |
|
40 |
1 |
10 |
-9 |
81 |
|
|
2 |
|
|
104 |
|
18 |
2 |
9 |
-7 |
49 |
|
|
3 |
|
|
109 |
|
13 |
3 |
5,5 |
-2,5 |
6,25 |
|
|
4 |
|
|
113 |
|
15 |
4 |
7 |
-3 |
9 |
|
|
5 |
|
|
185 |
|
4 |
5 |
2 |
3 |
9 |
|
|
6 |
|
|
207 |
|
16 |
6 |
8 |
-2 |
4 |
|
|
7 |
|
|
327 |
|
6 |
7 |
3 |
4 |
16 |
|
|
8 |
|
|
328 |
|
10 |
8 |
4 |
4 |
16 |
|
|
9 |
|
|
849 |
|
3 |
9 |
1 |
8 |
64 |
|
|
10 |
|
|
866 |
|
13 |
10 |
5,5 |
4,5 |
20,25 |
|
|
|
|
|
|
|
|
|
|
Сумма: |
274,5 |
Значение коэффициента: |
|
|
|
|
|
|
|||||
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
6 di2 |
|
|
6 274,5 |
|
|
|
|
|
|
r |
1 |
i 1 |
1 |
0,664. |
|
|
|
|
|||
N N2 1 |
10 102 1 |
|
|
|
|
||||||
S |
|
|
|
|
|
|
|
|
|
Оценим значимость коэффициента корреляции Спирмена:
1)выдвигаем гипотезуо незначимости коэффициента корреляции H0 :rS 0;
2)вычисляем фактическое значение t-критерия Стьюдента:
t |
|
|
r |
|
|
N 2 |
|
|
0,664 |
|
|
10 2 |
|
2,51 |
; |
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|||||||||||
факт |
|
|
S |
|
|
1 rS2 |
|
|
|
|
|
1 0,664 2 |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
||||||
3) по таблице: |
tтабл |
2,306 на |
уровне |
значимости 0,05 и числе степеней свободы |
||||||||||||
N 2 10 2 8; |
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
36 |
4) tфакт 2,51 tтабл 2,306 , значит гипотеза H0 отвергается и связь признается существенной.
Связь обратная, заметная (по шкале Чеддока).
ИЗМЕРЕНИЕ СВЯЗИ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
Рассмотрим, как один качественный фактор влияет на качественный отклик.
Постановка задачи
Был проведен опрос 215 посетителей спортивного магазина. Главная цель исследования – повысить эффективность рекламы магазина по продаже спортивной одежды во время трансляции футбольных матчей. Кроме прочих, респондентам было задано два вопроса: «Ваш пол?» и «Занимаетесь ли Вы активно спортом?». В качестве подзадачи требуется выяснить, влияет ли пол на активность занятий спортом.
Решение
После первичной обработки исходных данных были получены следующие результаты – таблица сопряженности (Табл. 18):
Табл. 18. Исходные данные
|
|
Занимаетесь ли Вы активно спортом? |
Всего |
|
|
|
Да |
Нет |
|
|
|
|
||
Пол респондента |
М |
34 |
53 |
87 |
|
Ж |
75 |
53 |
128 |
Всего |
|
109 |
106 |
215 |
Если бы количество опрошенных М и Ж было равно, то связь была бы очевидной. В нашем случае почти все значения в таблице различаются, поэтому по анализу такой таблицы однозначных выводов сделать нельзя. Более того, необходимо выразить численно тесноту связи этих качественных признаков и оценить ее значимость.
Для оценки существенности связи обычно использует критерий 2 -Пирсона.
Алгоритм использования критерия
1)находим теоретические частоты (для случая, когда фактор не оказывает влияния на результат):
' nr nc ,
N
где nr - сумма по строке, nc - сумма по столбцу, N – объем выборки;
2) находим фактическое значение критерия Пирсона:
факт2 |
|
|
' 2 |
; |
' |
|
|||
|
|
|
|
|
3)по таблице критических значений критерия Пирсона находим табл2 на уровне значимости
и числе степеней свободы (r 1)(c 1);
4)если факт2 табл2 , то связь существенна.
Численное значение, характеризующее тесноту связи, может быть найдено, например, через коэффициент Чупрова:
|
2 |
|
KЧ |
факт |
. |
|
||
|
N факт2 |
Очевидно, что 0 КЧ 1.
Для описания показателя тестоны связи может быть использована шкала Чеддока.
Проиллюстрируем использование критерия на примере Табл. 18:
37
1)находим теоретические частоты (для случая, когда фактор не оказывает влияния на результат). Общая формула:
' nr nc ,
N
где nr - сумма по строке, nc - сумма по столбцу, N – объем выборки.
В нашем случае:
для М занимающихся спортом: М' ,Да 87 109 44,1; 215
для М не занимающихся спортом: М' ,Нет 87 106 42,9; 215
для Ж занимающихся спортом: Ж' , Да 128 109 64,9; 215
для Ж не занимающихся спортом: Ж' ,Нет 128 106 63,1. 215
Таким образом, получили таблицу сопряженности с фактическими и теоретическими частотами:
Занимаетесь ли Вы активно спортом?
Всего
Да Нет
М |
34 |
53 |
87 |
|
44,1 |
42,9 |
|||
Пол респондента |
|
|||
75 |
53 |
|
||
Ж |
128 |
|||
64,9 |
63,1 |
|||
Всего |
109 |
106 |
215 |
|
2) находим фактическое значение критерия Пирсона: |
|
|
|
2 |
|
' 2 |
|
34 44,1 2 |
|
53 42,9 2 |
|
75 64,9 2 |
|
53 63,1 2 |
|||||||
|
факт |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7,88; |
||
|
|
|
' |
44,1 |
42,9 |
|
64,9 |
|
63,1 |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
3) |
по таблице: табл2 |
3,84 |
на |
уровне |
значимости 0,05 |
и числе степеней свободы |
||||||||||||
|
(r 1)(c 1) |
(2 1)(2 1) |
1; |
|
|
|
|
|
|
|
|
|
||||||
4) |
факт2 |
7,88 табл2 |
3,84, значит связь существенна. |
|
|
|
|
Численное значение показателя тестоны связи можно найти с использованием коэффициента Чупрова:
|
факт2 |
|
|
|
|
|
|
K |
|
7,88 |
|
0,19 |
, т.е. связь слабая. |
||
|
|
|
|||||
Ч |
N факт2 |
|
|
215 7,88 |
|
||
|
|
|
|
38