m08-37
.pdfМанна – Уитни и φ* – угловое преобразование Фишера. Рассмотрим критерий G.
G – критерий знаков
Назначение критерия G
Критерий знаков G предназначен для установления общего направления сдвига исследуемого признака.
Он позволяет установить, в какую сторону в выборке в целом изменяются значения признака при переходе от первого измерения ко второму: изменяются ли показатели в сторону улучшения, повышения или усиления или, наоборот, в сторону ухудшения, понижения или ослабления.
Описание критерия G
Критерий знаков применим и к тем сдвигам, которые можно определить лишь качественно (например, изменение отрицательного отношения к чему-либо на положительное), так и к тем сдвигам, которые могут быть измерены количественно (например, сокращение времени работы над заданием после экспериментального воздействия).
Во втором случае, однако, если сдвиги варьируют в достаточно широком диапазоне, лучше применять критерий Т Вилкоксона. Он учитывает не только направление, но и интенсивность сдвигов и может оказаться более мощным в определении достоверности сдвигов, чем критерий знаков.
Для начала мы назовем сдвиги, которые нам кажутся преобладающими, типичными сдвигами, а сдвиги более редкого, противоположного направления, нетипичными. Если значения показателя повышаются у большего количества испытуемых, то этот сдвиг мы будем считать типичным. Если мы исследуем отношение испытуемых к какому-либо событию или предложению, и после экспериментальных воздействии у большинства испытуемых отрицательное отношение сменилось на положительное, то этот сдвиг мы назовем типичным.
Суть критерия знаков состоит в том, что он определяет, не слишком ли много наблюдается «нетипичных сдвигов», чтобы сдвиг в «типичном» направлении считать преобладающим. Ясно, что чем меньше «нетипичных сдвигов», тем более вероятно, что преобладание «типичного» сдвига является преобладающим. Gэмп – это количество «нетипичных» сдвигов. Чем меньше Gэмп, тем более вероятно, что сдвиг в «типичном» направлении статистически достоверен.
Гипотезы:
Н0: Преобладание типичного направления сдвига является случай-
ным.
H1: Преобладание типичного направления сдвига не является случайным.
31
Ограничения критерия знаков
Количество наблюдений в обоих замерах – не менее 5 и не более 300.
Алгоритм расчета G критерия знаков
1.Подсчитать количество нулевых реакций и исключить их из рассмотрения. В результате п уменьшится на количество нулевых реакций.
2.Определить преобладающее направление изменений. Считать сдвиги в преобладающем направлении «типичными».
3.Определить количество «нетипичных» сдвигов. Считать это число эмпирическим значением G.
4.По таблице III приложения 1 определить критические значения G для данного п.
5.Сопоставить Gэмп с Gкр. Если Gэмп меньше Gкр или, по крайней мере, равен ему, сдвиг в типичную сторону может считаться достоверным.
Пример
Проводилось исследование, в котором студенты ранжировали терминальные ценности по методике М. Рокича. В результате были получены иерархии терминальных ценностей на 1-м курсе. Затем был реализован формирующий эксперимент, направленный на повышение значимости ценностей «познание», «развитие», «возможность творчества», после которого вновь было проведено ранжирование терминальных ценностей у этих же студентов. По результатам последнего ранжирования значимость данных ценностей у некоторых студентов возросла, но является ли этот сдвиг неслучайным – неизвестно.
Сформулируем гипотезы:
Н0: преобладание типичного направления сдвига рангов терминальных ценностей является случайным.
Н1: преобладание типичного направления сдвига рангов терминальных ценностей не является случайным.
Представим результаты эксперимента в следующей таблице.
Результаты ранжирования терминальных ценностей до и после эксперимента
|
|
Познание |
|
|
Развитие |
|
Возможность творче- |
||||
|
|
|
|
|
|
|
|
|
|
ства |
|
|
до |
после |
|
сдвиг |
до |
после |
|
сдвиг |
до |
после |
сдвиг |
1 |
7 |
5 |
|
+2 |
11 |
11 |
|
0 |
15 |
15 |
0 |
2 |
6 |
6 |
|
0 |
11 |
10 |
|
+1 |
16 |
14 |
+1 |
3 |
9 |
5 |
|
+4 |
13 |
13 |
|
0 |
15 |
13 |
+2 |
4 |
8 |
8 |
|
0 |
13 |
12 |
|
+1 |
9 |
9 |
0 |
5 |
8 |
9 |
|
-1 |
11 |
9 |
|
+2 |
11 |
10 |
+1 |
6 |
8 |
5 |
|
+3 |
11 |
13 |
|
-2 |
15 |
13 |
+2 |
32
7 |
6 |
6 |
0 |
12 |
12 |
0 |
10 |
9 |
+1 |
8 |
10 |
11 |
-1 |
14 |
13 |
+1 |
9 |
11 |
-2 |
9 |
10 |
7 |
+3 |
9 |
9 |
0 |
12 |
13 |
-1 |
10 |
8 |
8 |
0 |
10 |
11 |
-1 |
13 |
14 |
-1 |
11 |
8 |
5 |
+3 |
10 |
9 |
+1 |
14 |
14 |
0 |
12 |
7 |
6 |
+1 |
13 |
13 |
0 |
8 |
7 |
+1 |
13 |
7 |
7 |
0 |
12 |
11 |
+1 |
9 |
9 |
0 |
14 |
8 |
5 |
+3 |
12 |
13 |
-1 |
13 |
13 |
0 |
15 |
9 |
8 |
+1 |
14 |
14 |
0 |
12 |
11 |
+1 |
16 |
11 |
10 |
+1 |
9 |
9 |
0 |
11 |
7 |
+4 |
17 |
11 |
11 |
0 |
8 |
7 |
+1 |
14 |
15 |
-1 |
Уменьшение ранга рассматривается как положительный сдвиг, так как это означает повышение значимости данной ценности.
Рассчитаем значение G критерия для каждой ценности для того, чтобы определить случайность сдвига. Для этого подсчитаем количество положительных, отрицательных и нулевых сдвигов по рангу каждой ценности. Это необходимо для выявления «типичных» знаков изменения оценок.
Ценность «познание»: положительных сдвигов – 9; отрицательных сдвигов – 2; нулевых сдвигов – 6.
Таким образом, типичный сдвиг – положительный. Нетипичных сдвигов – 2. Значит, Gэмп = 2. Нулевые значения мы не рассматриваем. Поэтому n = 9 + 2 = 11. По таблице критических значений для критерия G рассматриваем значение при n = 11.
2(ρ ≤ 0,05 ) G кр = 1(ρ ≤ 0,01)
Gэмп = Gкр (ρ ≤ 0,05). Н0 отвергается. Принимается Н1: преобладание типичного направления сдвига рангов ценности «познание» не является случайным.
Ценность «развитие»: положительных сдвигов – 7; отрицательных сдвигов – 3; нулевых сдвигов – 7.
Нулевые сдвиги не рассматриваются, следовательно, n = 10. Типичный сдвиг – положительный. Gэмп = 3. По таблице критических значений сравним Gэмп = 3 с Gкр при n = 10.
1(ρ ≤ 0,05 ) G кр = 0(ρ ≤ 0,01)
Gэмп > Gкр. Принимается Н0: преобладание типичного направления сдвига рангов ценности «развитие» после экспериментальной программы является случайным.
Ценность «возможность творчества»: положительных сдвигов – 8;
33
отрицательных сдвигов – 4; нулевых сдвигов – 5.
Нулевые сдвиги не принимаются в расчет, следовательно, n = 12. Исходя из числа положительных сдвигов – это типичный сдвиг. Gэмп – это число нетипичных сдвигов – 4. По таблице критических значений сравним
Gэмп = 4 с Gкр при n = 12.
2(ρ ≤ 0,05 ) Gкр = 1(ρ ≤ 0,01)
Gэмп > Gкр. Принимается Н0: преобладание типичного направления сдвига рангов ценности «возможность творчества» после экспериментальной программы является случайным.
L – критерий тенденций Пейджа
Назначение L – критерия тенденций
Критерий L Пейджа применяется для сопоставления показателей, измеренных в трех и более условиях на одной и той же выборке испытуемых.
Критерий позволяет выявить тенденции в изменении величин признака при переходе от условия к условию. Его можно рассматривать как продолжение теста Фридмана, поскольку он не только констатирует различия, но и указывает на направление изменений.
Описание критерия тенденций L
Критерий позволяет проверить наши предположения об определенной возрастной или ситуативно обусловленной динамике тех или иных признаков. Он позволяет объединить несколько произведенных замеров единой гипотезой о тенденции изменения значений признака при переходе от замера к замеру. Если бы не его ограничения, критерий был бы незаменим в «продольных», или лонгитюдных, исследованиях.
К сожалению, имеющиеся таблицы критических значений рассчитаны только на небольшую выборку (n ≤ 12) и ограниченное количество сопоставляемых замеров (с < 6). В случае, если эти ограничения не выполняются, приходится использовать критерий χ² Фридмана.
В критерии L применяется ранжирование условий по каждому испытуемому. Если испытуемый в первом опыте допустил 17 ошибок, во втором – 12, а в третьем – 5, то 1-й ранг получает третье условие, 2-й ранг – второе, а 3-й ранг – первое условие. После того, как значения всех испытуемых будут проранжированы, подсчитываются суммы рангов по каждому условию. Затем все условия располагаются в порядке возрастания ранговых сумм: на первом месте слева окажется условие с меньшей ранговой суммой, за ним – условие со следующей по величине ранговой суммой, и т.д., пока справа не окажется условие с самой большой ранговой суммой.
34
Далее мы с помощью специальной формулы подсчета L проверяем, действительно ли значения возрастают слева направо.
Ограничения критерия Пейджа
1.Нижний порог – 2 испытуемых, каждый из которых прошел не менее 3-х замеров в разных условиях. Верхний порог – 12 испытуемых и 6 условий (n ≤ 12, с ≤ 6). Критические значения критерия L предусматривают три уровня статистической значимости: ρ ≤ 0,05; ρ ≤ 0,01; ρ ≤ 0,001.
2.Необходимым условием применения критерия является упорядоченность столбцов данных: слева должен располагаться столбец с наименьшей ранговой суммой показателей, справа – с наибольшей. Можно просто пронумеровать заново все столбцы, а потом вести расчеты не слева направо, а по номерам, но так легче запутаться.
Алгоритм подсчета критерия тенденций L Пейджа
1.Проранжировать индивидуальные значения первого испытуемого, полученные им в 1-м, 2-м, 3-м и т. д. замерах. При этом первым может быть любой испытуемый, например, первый по алфавиту имен.
2.Проделать то же самое по отношению ко всем другим испытуе-
мым.
3.Просуммировать ранги по условиям, в которых осуществлялись замеры. Проверить совпадение общей суммы рангов с расчетной суммой.
4.Расположить все условия в порядке возрастания их ранговых сумм
втаблице.
5.Определить эмпирическое значение L по формуле:
L= ∑(Тj j) ,
где Tj – сумма рангов по данному условию;
j – порядковый номер, приписанный данному условию в упорядоченной последовательности условий.
6. По табл. IV приложения 1 определить критические значения L для данного количества испытуемых п и данного количества условий с. Если Lэмп равен критическому значению или превышает его, тенденция достоверна.
Пример
В эксперименте по решению трех анаграмм приняли участие 5 испытуемых. Анаграммы должны были быть подобраны таким образом, чтобы уровень сложности возрастал. В таблице показатели времени решения анаграмм и их ранги представлены уже в упорядоченной последовательности: анаграмма 1, анаграмма 3, анаграмма 2. Действительно ли время решения увеличивается при такой последовательности предъявления анаграмм?
35
|
|
|
Условие 1: |
Условие 2: |
Условие 3: |
|||
Код имени |
Анаграмма 1 |
Анаграмма 3 |
Анаграмма 2 |
|||||
испытуемого |
Время |
Ранг |
Время |
Ранг |
Время |
Ранг |
||
1 |
|
Л-в |
5 |
1 |
7 |
2 |
235 |
3 |
2 |
|
П-о |
7 |
1 |
20 |
2 |
604 |
3 |
3 |
|
К-в |
2 |
1 |
5 |
2 |
93 |
3 |
4 |
|
Ю-ч |
2 |
1 |
8 |
2 |
171 |
3 |
5 |
|
Р-о |
35 |
2 |
7 |
1 |
141 |
3 |
|
|
Суммы |
51 |
6 |
47 |
9 |
1244 |
15 |
|
Средние |
10,2 |
|
9,4 |
|
289 |
|
Сумма рангов составляет: 6 + 9 + 5 = 30. Расчетная сумма:
∑R = 5 3 (32+1) = 30 .
Реально полученная и расчетная суммы совпадают, мы можем двигаться дальше.
Как видно из таблицы, среднее время решения анаграммы 3 даже меньше, чем анаграммы 1. Однако мы исследуем не среднегрупповые тен-
денции, а степень совпадения индивидуальных тенденций. Нам важен именно порядок, а не абсолютные показатели времени. Поэтому и формулируемые нами гипотезы – это гипотезы о тенденциях изменения индивидуальных показателей.
Сформулируем гипотезы.
Н0: Тенденция увеличения индивидуальных показателей от первого условия к третьему является случайной.
H1: Тенденция увеличения индивидуальных показателей от первого условия к третьему не является случайной.
Эмпирическое значение L определяется по формуле:
L= ∑(Тj j) ,
где Tj – сумма рангов по каждому условию;
j – порядковый номер, приписанный каждому условию в новой последовательности.
Lэмп = (6 · 1) + (9 · 2) + (15 · 3) = 69
По Табл. IV Приложения 1 определяем критические значения L для данного количества испытуемых: n = 5 и данного количества условий: с = 3.
66 |
( р ≤ 0,05) |
|
|
|
|
LКР = 68( р ≤ 0,01) |
|
|
|
|
|
70 |
( р ≤ 0,001) |
36
Lэмп > Lкр, следовательно Н0 отклоняется. Принимается Н1: тенденция увеличения индивидуальных показателей от первого условия к третьему не является случайной (ρ < 0,01).
3.3. Многофункциональные статистические критерии
Понятие многофункциональных критериев
Многофункциональные статистические критерии – это критерии, которые могут использоваться по отношению к самым разнообразным данным, выборкам и задачам.
Это означает, что данные могут быть представлены в любой шкале, начиная от номинативной (шкалы наименований).
Это означает также, что выборки могут быть как независимыми, так
и«связанными», то есть мы можем с помощью многофункциональных критериев сравнивать и разные выборки испытуемых, и показатели одной
итой же выборки, измеренные в разных условиях. Нижние границы выборок – 5 наблюдений, но возможно применение критериев и по отношению к выборкам с п = 2, с некоторыми оговорками.
Верхняя граница выборок задана только в биномиальном критерии – 50 человек. В критерии φ* Фишера верхней границы не существует – выборки могут быть сколь угодно большими.
Многофункциональные критерии позволяют решать задачи сопоставления уровней исследуемого признака, сдвигов в значениях исследуемого признака и сравнения распределений.
Кчислу многофункциональных критериев в полной мере относится критерий φ* Фишера (угловое преобразование Фишера) и, с некоторыми оговорками, – биномиальный критерий m.
Многофункциональные критерии построены на сопоставлении долей, выраженных в долях единицы или в процентах. Суть критериев состоит в определении того, какая доля наблюдений (реакций, выборов, испытуемых) в данной выборке характеризуется интересующим исследователя эффектом и какая доля этим эффектом не характеризуется.
Таким эффектом может быть:
а) определенное значение качественно определяемого признака – например, выражение согласия с каким-либо предложением; выбор правой дорожки из двух симметричных дорожек; отнесенность к определенному полу; присутствие фигуры отца в раннем воспоминании и др.;
б) определенный уровень количественно измеряемого признака, например, получение оценки, превосходящей проходной балл; решение задачи менее чем за 20 с; факт работы в команде, по численности превышающей 4-х человек; выбор дистанции в разговоре, превышающей 50 см, и др.;
37
в) определенное соотношение значений или уровней исследуемого признака, например, более частый выбор альтернатив А и Б по сравнению с альтернативами В и Г; преимущественное проявление крайних значений признака, как самых высоких, так и самых низких; преобладание положительных сдвигов над отрицательными и др.
Итак, путем сведения любых данных к альтернативной шкале «Есть эффект – нет эффекта» многофункциональные критерии позволяют решать все три задачи сопоставлений – сравнения «уровней», оценки «сдвигов» и сравнения распределений.
Критерий φ* применяется в тех случаях, когда обследованы две выборки испытуемых, биномиальный критерий m – в тех случаях, когда обследована лишь одна выборка испытуемых.
Критерий φ* – угловое преобразование Фишера
Назначение критерия φ*
Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта.
Описание критерия
Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий нас эффект. Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол φ, а меньшей доле – меньший угол, но соотношения здесь не линейные. При увеличении расхождения между углами φ1 и φ2 и увеличении численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.
Гипотезы
Н0: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 не больше, чем в выборке 2.
H1: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 больше, чем в выборке 2.
Ограничения критерия φ*
1.Ни одна из сопоставляемых долей не должна быть равной нулю. Формально нет препятствий для применения метода φ в случаях, когда доля наблюдений в одной из выборок равна 0. Однако в этих случаях результат может оказаться неоправданно завышенным.
2.Верхний предел в критерии φ отсутствует – выборки могут быть сколь угодно большими.
Нижний предел – 2 наблюдения в одной из выборок. Однако должны соблюдаться следующие соотношения в численности двух выборок:
38
а) если в одной выборке всего 2 наблюдения, то во второй должно быть не менее 30: n1 = 2 → n2 ≥ 30;
б) если в одной из выборок всего 3 наблюдения, то во второй должно быть не менее 7: n1 = 3 → n2 ≥ 7;
в) если в одной из выборок всего 4 наблюдения, то во второй должно быть не менее 5: n1 = 4 → n2 ≥ 5;
г) при n1, n2 ≥ 5 возможны любые сопоставления.
В принципе возможно и сопоставление выборок, не отвечающих этому условию, например, с соотношением n1 = 2; n2 = 15; но в этих случаях не удастся выявить достоверных различий.
Других ограничений у критерия φ* нет.
Возможно несколько вариантов применения критерия φ*:
1)сопоставление выборок по качественно определяемому признаку;
2)сопоставление выборок по количественно измеряемому признаку;
3)сопоставление выборок и по уровню, и по распределению признака;
4)использование критерия φ* в сочетании с критерием λ Колмогорова – Смирнова в целях достижения максимально точного результата.
Алгоритм расчета критерия φ*
1.Определить те значения признака, которые будут критерием для разделения испытуемых на тех, у кого «есть эффект» и тех, у кого «нет эффекта». Если признак измерен количественно, использовать критерий λ для поиска оптимальной точки разделения.
2.Начертить четырехклеточную таблицу из двух столбцов и двух строк. Первый столбец – «есть эффект»; второй столбец – «нет эффекта»; первая строка сверху – 1 группа (выборка); вторая строка – 2 группа (выборка).
3.Подсчитать количество испытуемых в первой группе, у которых «есть эффект», и занести это число в левую верхнюю ячейку таблицы.
4.Подсчитать количество испытуемых в первой выборке, у которых «нет эффекта», и занести это число в правую верхнюю ячейку таблицы. Подсчитать сумму по двум верхним ячейкам. Она должна совпадать с количеством испытуемых в первой группе.
5.Подсчитать количество испытуемых во второй группе, у которых «есть эффект», и занести это число в левую нижнюю ячейку таблицы.
6.Подсчитать количество испытуемых во второй выборке, у которых «нет эффекта», и занести это число в правую нижнюю ячейку таблицы. Подсчитать сумму по двум нижним ячейкам. Она должна совпадать с количеством испытуемых во второй группе (выборке).
7.Определить процентные доли испытуемых, у которых «есть эффект», путем отнесения их количества к общему количеству испытуемых в данной группе (выборке). Записать полученные процентные доли соответственно в левой верхней и левой нижней ячейках таблицы в скобках, что-
39
бы не перепутать их с абсолютными значениями.
8.Проверить, не равняется ли одна из сопоставляемых процентных
долей нулю. Если это так, попробовать изменить это, сдвинув точку разделения групп в ту или иную сторону1. Если это невозможно или нежелательно, отказаться от критерия φ* и использовать критерий χ2.
9.Определить по табл. V приложения 1 величины углов φ для каждой из сопоставляемых процентных долей.
10.Подсчитать эмпирическое значение φ* по формуле:
φ* = (ϕ1 −ϕ2 ) |
n1 n2 |
, |
|
|
n + n |
2 |
|
|
1 |
|
где: φ1 – угол, соответствующий большей % доле; φ2 – угол, соответствующий меньшей % доле; n1 – количество наблюдений в выборке 1;
n 2 – количество наблюдений в выборке 2.
11. Сопоставить полученное значение φ* с критическими значениями:
φ*эмп = |
1,64 (ρ |
≤ 0 ,05 |
||
|
2 ,31 |
(ρ ≤ 0 ,01 |
||
|
|
)
)
Если φ*эмп ≥ φ*кр, Н0 отвергается. При необходимости определить точный уровень значимости полученного φ*эмп по Табл. VI Приложения 1.
Рассмотрим первый вариант применения критерия – сопоставление выборок по качественно определяемому признаку 2.
В данном варианте использования критерия мы сравниваем процент испытуемых в одной выборке, характеризующихся каким-либо качеством, с процентом испытуемых в другой выборке, характеризующихся тем же качеством.
Пример
Допустим, нас интересует, различаются ли две группы студентов по успешности решения новой экспериментальной задачи. В первой группе из 20 человек с ней справились 12 человек, а во второй выборке из 25 человек – 10. В первом случае процентная доля решивших задачу составит 12 / 20 · 100 % = 60 %, а во второй 10 / 25 · 100 % = 40 %. Дос-
товерно ли различаются эти процентные доли при данных n1 и n 2 ? Казалось бы, и «на глаз» можно определить, что 60 % значительно
выше 40 %. Однако на самом деле эти различия при данных n1 и n 2 недостоверны.
1Для 2–4 вариантов применения критерия.
2Другие варианты применения критерия φ* см.: Сидоренко Е.В. Методы математической обработки в психологии / Е.В. Сидоренко. – СПб. : Речь, 2003. – 350 с.
40