
- •Калинин а.А., Гусева с.И. Простейшие методы анализа данных в психологии
- •Введение
- •1. Шкалы
- •2. Случайное событие
- •3. Случайная величина
- •3.1 Распределение случайной величины
- •Способность обобщения учеников 10 класса одной из школ Ленинградской области (по результатам штур)
- •3.2 Параметры распределения
- •3.3 Нормальное распределение
- •4. Генеральная совокупность и выборка
- •5. Стандартизация психодиагностических методов
- •6. Статистические гипотезы
- •7. Математический аппарат проверки статистических гипотез
- •Подготовка данных и выбор критерия
- •Формулирование нулевой и альтернативной гипотез.
- •7.1. Подготовка данных
- •7.1.1 Порядок выявления аномальных значений
- •7.1.2 Проверка эмпирического распределения на его соответствие нормальному распределению
- •7.2 Сравнение среднего значения некоторой выборки со средним значением генеральной совокупности или с нормативным значением
- •7.3 Сравнение уровня признака в независимых выборках
- •7.4 Сравнение уровня признака в зависимых выборках
- •7.5 Оценка сходства-различия распределений признаков
- •8. Изучение взаимосвязи психологических явлений
- •8.1 Меры связи явлений, измеренных в номинативных шкалах
- •8.2 Корреляционная связь
- •8.2.1 Меры связи для явлений, измеренных в ранговых шкалах
- •8.2.2 Меры связи для явлений, измеренных в разных шкалах
- •8.2.3 Меры связи для явлений, измеренных в шкале интервалов или отношений
- •8.3 Корреляционный анализ
- •Список использованной литературы:
- •Критические значения f-критерия Фишера
- •Приложение 2 . Результаты штур, использованные при составлении задач настоящего методического пособия
- •11 Класса одной из школ Ленинградской области
- •Калинин а.А., Гусева с.И. Простейшие методы анализа данных в психологии
- •189620, Г. Пушкин, Петербургское шоссе, 10
7.1. Подготовка данных
7.1.1 Порядок выявления аномальных значений
Аномальные или «выскакивающие» значения - это единичные значения, сильно отличающиеся от основной массы. Выскакивающие значения могут появиться в случае ошибки при переписывании данных, при введении информации в компьютер, или, к примеру, если кто-то из испытуемых отнесся к исследованию психолога несерьезно и сообщил ложные данные, и еще во многих других случаях. «Выскакивающие» значения из дальнейших расчетов следует исключить.
Порядок проверки статистической гипотезы с помощью различных статистических критериев следующий:
Выборка упорядочивается в порядке возрастания вариант (то есть значений случайной величины).
Для проверки на аномальность (Ашмарин И.П. и др., 1971) наименьшего значения рассчитывается параметр
то есть частное от деления разности между наименьшей вариантой выборки и следующей за ней по величине |Х1- X2| на размах выборки (Xn-X1). Полученное эмпирическое значение сравнивается по абсолютной величине с критическим, приведенным в таблице 2 Приложения для требуемого уровня достоверности. Если эмпирическое значение превышает критическое, либо равно ему по абсолютной величине, то наименьшую варианту следует признать аномальной и из дальнейших расчетов ее надо исключить.
Аналогично следует проверить на аномальность и наибольшую варианту. В этом случае рассчитывается
то есть частное от деления разности между наибольшей вариантой и предшествующей ей по величине (Хn- Xn-1) на размах выборки (Xn-X1), и полученное эмпирическое значение сравнивается с критическим (табл.). Если эмпирическое значение превышает критическое либо равно ему по абсолютной величине, то наибольшую варианту следует из дальнейших расчетов исключить как аномальную.
Например, имеется выборка, включающая следующие результаты испытуемых (данные упорядочены, то есть выписаны в порядке увеличения значений):
14, 19, 21, 23, 24, 25, 26, 27, 29, 31, 34, 36, 39, 54.
Проверка на наличие выскакивающих значений:
Минимальное значение: |
а = |
14-19 |
= |
5 |
= |
0,125 |
54-14 |
40 |
Критическое значение а для 14 испытуемых равно 0.3501 (р=0.05). Эмпирическое значение а меньше критического, следовательно, значение 14 аномальным не является.
Максимальное значение: |
а = |
54-39 |
= |
15 |
= |
0,375 |
54-14 |
40 |
Эмпирическое значение больше критического 0.350 (р=0.05), то есть значение 54 является аномальным и его следует из дальнейших расчетов исключить.
Все приведенные ниже в задачах данные проверены на наличие аномальных значений.
7.1.2 Проверка эмпирического распределения на его соответствие нормальному распределению
Есть целый ряд методик, позволяющих проверить, значимо ли отличается исследуемое эмпирическое распределение от нормального. Эти методы описаны в специальной литературе по математической статистике. Представляется, что наиболее быстро и достаточно надежно можно сопоставить эмпирическое распределение с нормальным, выполнив следующие шаги:
построить полигон (или гистограмму) распределения и убедиться, что он напоминает колоколообразную кривую;
сравнить эмпирическое распределение с нормальным с помощью критерия 2 Пирсона по формуле
где fi - эмпирическая частота для интервала квантования, ft - теоретическая частота для того же интервала. Критерий Пирсона позволяет сопоставлять значимость отличия эмпирической частоты интервалов квантования с теоретической частотой для тех же интервалов.
Из свойств стандартного нормального распределения известно, какая часть испытуемых должна попадать в тот или иной интервал z-оценок в случае нормального распределения параметра. Можно подобрать граничные значения z, которые будут делить стандартное нормальное распределение на равные части; удобно, если таких частей будет 5 или 4. Так, интервалы z-оценок от - до -0.85, от -0.85 до -0.25, от -0.25 до +0.25, от +0.85 до +0.25 и +0.85 до + делят стандартное нормальное распределение на 5 частей по 20% значений в каждой(N/5, где N - общее количество испытуемых) (таблица2 Приложения). Величина N/5 представляет собой теоретическую (ожидаемую) частоту ft для интервалов квантования. Рассчитав z-оценки испытуемых исследуемой выборки, мы можем узнать, сколько испытуемых фактически имеют z-оценки от - до -0.85, сколько от -0.85 до -0.25, сколько от -0.25 до +0.25, сколько от +0.25 до +0.85 и сколько испытуемых попадает в интервал z-оценок от +0.85 до +. Полученные 5 чисел представляют собой эмпирическую частоту fi для каждого из интервалов квантования. Зная fi и ft можно рассчитать эмпирическое значение параметра 2.
Порядок действий при сравнении эмпирического распределения с нормальным следующий:
Рассчитать среднее арифметическое Мх и среднеквадратическое отклонение выборки .
Рассчитать z-оценки испытуемых по формуле
Подсчитать количество испытуемых, имеющих z-оценки от - до -0.85, от -0.85 до -0.25, от -0.25 до +0.25, от +0.25 до +0.85 и от +0.85 до +..
Рассчитать теоретическую частоту для интервалов квантования ft=N/5.
Сформулировать нулевую и альтернативную гипотезы:
Н0: Распределение случайной величины не отличается значимо от нормального распределения.
Н1: Распределение случайной величины значимо отличается от нормального распределения.
Рассчитать эмпирическое значение критерия 2 и сравнить его с критическим значением, взятым из таблицы с учетом числа степеней свободы =k-3, где k - число интервалов квантования (в нашем случае k=5). При =2 и доверительной вероятности 95% 2кр=5.99, при доверительной вероятности 90% 2кр = 4.61, а при 1- = 80% 2кр=3.22 (Таблица 3 Приложения). Поскольку при сравнении эмпирического распределения с нормальным исследователь заинтересован не допустить ошибку второго рода , то для повышения надежности вывода следует принимать по возможности более низкий уровень доверительной вероятности. Если эмпирическое значение оказывается меньше критического, то принимается нулевая гипотеза: распределение признается не отличающимся значимо от нормального и для него можно использовать параметрические критерии.
Задача: Можно ли использовать для приведенной ниже выборки данных, характеризующих уровень социальной активности студентов в группе, состоящей из 26 человек, параметрические критерии?
14, 17, 26, 9, 21, 12, 17, 18, 11, 20, 18, 17, 25, 19, 15, 29, 16, 18, 24, 17, 16, 10, 11, 26, 14, 16.
Гистограмма для данной выборки имеет следующий вид (взяты интервалы [8-10], [11-13], [14-16], [17-19] и т.д.):
Рис. 5. Гистограмма распределения уровня социальной активности студентов.
Среднее арифметическое значение выборки 17.54, дисперсия 27.138, стандартное отклонение 5.209. Расчет стандартизированных значений приводится в таб. 8.
Таблица 8.
Х |
Х-Мх |
(Х-Мх)2 |
Z=(Х-Мх)/ |
Х |
Х-Мх |
(Х-Мх)2 |
Z=(Х-Мх)/ |
9 |
-8,54 |
72,905 |
-1,64 |
17 |
-0,54 |
0,290 |
-0,10 |
10 |
-7,54 |
56,828 |
-1,45 |
17 |
-0,54 |
0,290 |
-0,10 |
11 |
-6,54 |
42,751 |
-1,26 |
18 |
0,46 |
0,213 |
0,09 |
11 |
-6,54 |
42,751 |
-1,26 |
18 |
0,46 |
0,213 |
0,09 |
12 |
-5,54 |
30,675 |
-1,06 |
18 |
0,46 |
0,213 |
0,09 |
14 |
-3,54 |
12,521 |
-0,68 |
19 |
1,46 |
2,136 |
0,28 |
14 |
-3,54 |
12,521 |
-0,68 |
20 |
2,46 |
6,059 |
0,47 |
15 |
-2,54 |
6,444 |
-0,49 |
21 |
3,46 |
11,982 |
0,66 |
16 |
-1,54 |
2,367 |
-0,30 |
24 |
6,46 |
41,751 |
1,24 |
16 |
-1,54 |
2,367 |
-0,30 |
25 |
7,46 |
55,675 |
1,43 |
16 |
-1,54 |
2,367 |
-0,30 |
26 |
8,46 |
71,598 |
1,62 |
17 |
-0,54 |
0,290 |
-0,10 |
26 |
8,46 |
71,598 |
1,62 |
17 |
-0,54 |
0,290 |
-0,10 |
29 |
11,46 |
131,367 |
2,20 |
Сформулируем нулевую и альтернативную гипотезы:
Н0: Распределение случайной величины не отличается значимо от нормального распределения.
Н1: Распределение случайной величины значимо отличается от нормального распределения.
В интервале от - до -0.85 фактически находится 5 стандартизированных значений, в интервал от -0.85 до -0.25 попадает 6 значений, интервал от -0.25 до +0.25 включает 7 значений, в интервале от +0.25 до +0.85 мы имеем 3 значения и, наконец, в интервал от +0.85 до + попадает 5 значений. Теоретическая частота для каждого интервала равна 26/5=5.2.
Значение
-
2эмп
=
(5-5,2)2+(6-5,2)2+(7-5,2)2+(3-5,2)2+(5-5,2)2
=
1,692
5,2
Критическое значение критерия 2 при =0.20 составляет 3.22 (таблица 3 Приложения), эмпирическое значение 1.692 меньше критического, то есть мы можем принять нулевую гипотезу (=0.20). Ответ задачи можно сформулировать следующим образом: «Использовать параметрические критерии для исследуемой выборки возможно, поскольку распределение случайной величины не отличается значимо от нормального (=0.20)».
Проверкой распределения на соответствие его нормальному типу посуществу заканчивается стадия подготовки данных. Результатом такой подготовки должна явиться таблица исходных данных, сопровождаемая параметрами распределения. Для распределений, близких к нормальному, внизу таблицы указываются среднее арифметическое, дисперсия и (или) стандартное отклонение. Если распределение отличается значимо от нормального, то следует указать медиану Ме и межквартильное отклонение q, которые более полно характеризуют центральную тенденцию и рассеивание таких распределений. Межквартильное отклонение q, рассчитывается по формуле
где Q1 и Q3 - соответственно первый и третий квартиль.
Далее, в зависимости от
характера поставленной задачи,
объема выборок,
типа выборок (зависимые или независимые),
свойств распределений (нормальное или отличное от него)
выбирается критерий для ее решения. Параметрические критерии следует использовать только при достаточном объеме (более 15-20 испытуемых) и нормальном распределении обоих выборок. Во всех остальных случаях лучше использовать непараметрические методы.
Таблица 9.
Классификация задач и рекомендуемые методы их решения
Вид задачи |
Условия |
Метод решения |
Ограничения использования метода |
Выявление сходства- различия в уровне исследуемого признака |
Две независимые выборки испытуемых |
t - критерий Стьюдента |
|
|
|
U - критерий Манна-Уитни* |
1. Выборки должны относиться к сходному типу распределения (см. 2 - критерий Пирсона),
|
|
три или более независимых выборок |
Т-критерий Вилкоксона для множественных сравнений |
1. Количество испытуемых в группе от 3 до 25, количество групп от 3 до 10 Признак может быть измерен в шкале рангов, интервалов или отношений |
Сравнение уровня признака в выборке со средним значением генеральной совокупности или с нормативным значением |
одна выборка испытуемых |
t - критерий Стьюдента |
1. Признак должен быть измерен в шкале отношений или интервалов |
Установление сходства-различия дисперсий признака |
Две независимые выборки испытуемых |
F - критерий Фишера |
Признак должен быть измерен в шкале отношений или интервалов |
Оценка сдвига значений исследуемого признака |
два замера на одной и той же выборке испытуемых |
t- критерий Стьюдента |
|
|
|
Т - критерий Вилкоксона для попарных сравнений |
1. Количество испытуемых от 5 до 50 Признак может быть измерен в шкале рангов, интервалов или отношений
|
|
три и более замеров на одной и той же выборке |
L - критерий тенденций Пейджа |
|
Выявление различий в распределении признаков |
Сопоставление эмпирического распределения с нормальным. |
2 - критерий Пирсона |
1. Признак должен быть измерен в шкале отношений или интервалов. |
Сопоставление эмпирического распределения равномерным |
2 - критерий Пирсона |
1. Признак может быть измерен в шкале рангов, интервалов или отношений |
|
|
Сопоставление двух эмпирических распределений между собой |
- критерий Колмогорова-Смирнова |
1. Оба признака должны быть измерены в шкале рангов, либо в метрических шкалах (шкале интервалов или отношений). |
|
Два признака, измеренные в шкале наименований |
2 - критерий Пирсона |
|
|
Два признака, измеренные в шкале отношений или в интервальной шкале |
rxy - коэффициент линейной корреляции Пирсона |
|
Исследование взаимосвязи признаков |
Признаки измерены в шкале рангов, либо в шкале интервалов, ли-бо в шкале отношений |
rs - коэффициент ранговой корреляции Спирмена |
|
|
Один из признаков измерен в дихотомической шкале, а другой - в шкале отношений или в интервальной шкале |
rpb - точечно-бисериальный коэффициент корреляции |
|
Корреляция иерархий признаков |
Два профиля (две иерархии) признаков в шкале рангов |
rs - коэффициент ранговой корреляции Спирмена |
|
* - курсивом выделены непараметрические методы |