- •Радчикова н.П.
- •Справочный материал. Выбор метода статистического анализа
- •Тема 1.
- •Http://www.Statsoft.Ru
- •2. Введите данные студентов по эмпатии (три различные теста):
- •3. Добавьте в список еще одного студента:
- •4. Переведите все сырые баллы в стенайны:
- •6. Создайте переменную sum 'сумма баллов':
- •Тема 2
- •Описание одной выборки
- •Справочный материал.
- •Описательная статистика
- •3. Теперь посчитайте описательную статистику отдельно для группы мужчин и для группы женщин.
- • Распределение можно считать нормальным, если критерий не значимый!
- •Тема 3.
- •Исследование взаимосвязи между переменными
- •СправочнЫй материал
- •Корреляционные исследования
- •Лабораторная работа 3 Корреляция и простая линейная регрессия
- •2. Подсчет коэффициента корреляции Пирсона.
- •Лабораторная работа 5. Проверка гипотез. Статистические критерии для простЫх экспериментальнЫх схем
- •1. Загрузите файл данных.
- •2. Подсчет t-критерия Стьюдента
- •2. Подсчет t-критерия Стьюдента
- •3. Подсчет критерия Вилкоксона
- •Таблицы сопряженности
- •Справочный материал.
- •Статистика для таблиц сопряженности
- •Коэффициент . Употребляется в основном с таблицами 2*2, изменяется от 0 (когда переменные независимы) до 1 (когда переменные абсолютно зависимы).
- •V Крамера можно употреблять для любых таблиц – и квадратных, и прямоугольных. Изменяется от 0 (когда переменные независимы) до 1 (когда переменные абсолютно зависимы).
- •Лабораторная работа 5. Статистический анализ таблиц сопряженности
- •1. Загрузите файл данных.
- •2. Статистика для таблиц сопряженности в модуле Basic Statistics
- •3. Статистика для таблиц сопряженности в модуле
- •Тема 6.
- •Лабораторная работа 6.
- •Проверка гипотез.
- •Однофакторный Дисперсионный анализ
- •И его непараметрические аналоги.
- •Тема 7.
- •Лабораторная работа 7.
- •Проверка гипотез.
- •Многофакторный Дисперсионный анализ
- •(Межгрупповая схема)
- •Лабораторная работа 8. Проверка гипотез. Дисперсионный анализ (Интра-индивидуальная схема)
3. Статистика для таблиц сопряженности в модуле
Nonparametrics /Distrib.
Для таблиц сопряженности 2х2 можно легко посчитать всевозможную статистику в модуле Nonparametrics/Distrib. 2 x 2 Tables XI, VI, PhiI, McNemar, Fisher Exact …
Предположим, что нашему студенту так понравилось считать статистику, что он решил проверить, правда ли, что на математическом факультете учится больше юношей, а на физическом больше девушек. Данные по выборкам из этих двух факультетов у него были:
-
Физический факультет
Математический факультет
Девушки
53
68
Юноши
47
71
Загрузите модуль Nonparametrics/Distrib. через STATISTICA Module Switcher: и нажмите 2 x 2 Tables XI, VI, PhiI, McNemar, Fisher Exact … Вы попадаете в окно, где требуется задать частоты таблицы сопряженности 2х2. Наберите эти частоты и нажмите кнопку ОК.
Найдите значение и уровень статистической значимости хи-квадрата Пирсона. Что можно сказать о распределении юношей и девушек по факультетам?
Теперь проверьте, правда ли, что юноши не хотят поступать на психологический факультет, а идут в физики. Используйте данные нашего студента:
-
Физический факультет
Психологический факультет
Девушки
53
98
Юноши
47
10
4. Напишите отчет в MS Word, используя таблицы и графики, которые считаете нужными. Этот отчет должен представлять собой анализ и интерпретацию данных для дипломной работы. Оцените, какие переменные влияют на стиль поведения в конфликте. Рассмотрите возможности коррекции стиля поведения в конфликтной ситуации.
Тема 6.
ПРОВЕРКА ГИПОТЕЗ.
ПРОСТЫЕ ЭКСПЕРИМЕНТАЛЬНЫЕ СХЕМЫ (НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ ИМЕЕТ БОЛЕЕ ДВУХ УРОВНЕЙ)
СПРАВОЧНЫЙ МАТЕРИАЛ
АПОСТЕРИОРНЫЕ КРИТЕРИИ
Часто сложность социальных явлений не позволяет нам ограничиться наблюдением только двух групп. Обычно возникают вопросы, такие как "Действительно ли люди старше 60 лет являются более социально изолированными, чем молодежь и люди среднего возраста?", "Правда ли, что холерики и сангвиники являются более агрессивными, чем флегматики и меланхолики?" Исследования, которые дадут ответы на такие вопросы, требуют сравнения трех и более групп.
Почему сравнение трех и более групп представляет особую трудность и требует специальных статистических техник? Разве нельзя было бы сравнить каждую группу с каждой? Например, холериков с сангвиниками, меланхоликами и флегматиками, сангвиников – с флегматиками и меланхоликами, и, наконец, флегматиков и меланхоликов? Оказывается, нет. Этот вывод следует из основной идеи статистического сравнения.
Как уже отмечалось в справочном материале к теме 4, нашей задачей является избегание ошибки I рода. Если мы примем уровень статистической значимости равным 0,05, мы согласимся принять риск ошибиться в 5 случаях из 100. Когда происходит много сравнений, этот риск увеличивается. В самом деле, посчитаем вероятность сделать ошибку, если сравниваются четыре группы людей разного темперамента друг с другом. В этом случае надо сделать 6 сравнений. Вероятность сделать ошибку при каждом сравнении примем за 0,05. Тогда вероятность не сделать ошибку будет равна 1-0,05=0,95. Так как число сравнений равно 6, то вероятность не сделать ошибку во всех 6 сравнениях равна (0,95)6=0,74. А вероятность допустить ошибку хотя бы в одном сравнении равна 1-0,74=0,26! Согласны ли мы пренебречь такой ошибкой? Статистики считают, что нет, тем более, что она растет с ростом числа сравнений (для 10 сравнений вероятность сделать по крайней мере одну ошибку равна 0,40, для 20 сравнений – уже 0,64!). Поэтому были разработаны специальные техники статистического анализа, которые позволяют преодолеть трудности, возникающие при множественных сравнениях, такие как, например, однофакторный дисперсионный анализ и критерии Краскала-Уоллиса и Фридмана. Они показывают, влияет ли независимая переменная на зависимую переменную, т.е. действительно ли независимая переменная дает разницу в значениях зависимой переменной для разных групп.
Если критерий оказался незначимым, то можно сделать вывод лишь о невозможности отвергнуть нуль-гипотезу, и на этом статистический анализ заканчивается.
Если критерий оказался значимым, то можно сделать вывод о том, что независимая переменная влияет на зависимую переменную. Однако любой из этих критериев показывает только, что зависимость есть, ничего не проясняя о разницах между конкретными уровнями независимой переменной. Например, если критерий получается значимым, то можно сказать, что агрессивность зависит от типа темперамента. Однако на основании критерия ничего нельзя сказать о том, у людей какого типа темперамента агрессивность выше, а у какого ниже.
Поэтому в случае значимости критерия следует продолжить анализ и сравнить все группы между собой. Для этого служат специальные апостериорные критерии, которые принимают во внимание множественность сделанных сравнений, и, следовательно, увеличивающийся риск допустить ошибку I рода, и контролируют его. Для дисперсионного анализа таких критериев достаточно много. Критерий наименьшей значимой разности (least significant difference test – LSD test) не принимает во внимание число сделанных сравнений и аналогичен, например, вычислению критерию Стьюдента много раз. Другие критерии, такие как критерий Дункана (Duncan test) или критерий Ньюмена-Кейлса (Newman-Keuls test), учитывают множественность сделанных сравнений. Еще более консервативными (и, значит, надежными) являются критерии Тьюки (Tukey) и Шеффе (Sheffe). Все эти критерии можно посчитать в программе STATISTICA.
Иначе обстоит дело с непараметрическими апостериорными критериями. Они не подсчитываются в программе STATISTICA. Поэтому, если критерий Краскала-Уоллиса или критерий Фридмана оказался значимым, следует выбрать одну из двух возможностей:
1) Подсчитать критерий Манна-Уитни или критерий Вилкоксона несколько раз, но с поправкой Бонферрони (Bonferroni correction).
2) Подсчитать вручную апостериорные критерии.
Рассмотрим подробнее эти возможности.
Поправка Бонферрони.
Идея заключается в том, чтобы заранее снизить вероятность допущения ошибки I рода так, чтобы при выбранном количестве сравнений вероятность не допустить хотя бы одну ошибку не превосходила, например, 0,05. Новый уровень статистической значимости получается из формулы: (1-)k=0,95, где k – число сравнений.
Так
как
,
то для 6 сравнений=0,01.
Следовательно, все различия, не достигшие
уровня значимости 0,01 (по критерию
Манна-Уитни, например), должны будут
считаться незначимыми.
Очевидно, что такой подход при достаточно большом количестве сравнений приводит к столь малому уровню , что все различия могут быть расценены как незначимые. Поэтому лучше применять специальные апостериорные критерии.
Апостериорный критерий для критерия Краскала-Уоллиса.
Тогда, и только тогда, когда нуль-гипотеза отвергнута с помощью критерия Краскала-Уоллиса, можно применять следующую процедуру для определения, какие пары групп значимо различаются по значению зависимой переменной.
Мы предполагаем, что данные состоят из случайных выборок (возможно разных размеров):

Мы можем утверждать, что выборки (группы) iиjразличны, если выполняется следующее условие:
,
где
Ri и Rj ─ ранговые суммы двух выборок
─(1-/2)
квантиль t-распределения,
который находится из Таблицы 2
с (N-k) степенями свободы

H ─ значения критерия Краскала-Уоллиса
k ─ число выборок (групп, условий независимой переменной)
N
─ общее количество наблюдений (
).
Пример:
Пусть мы определили у 4-х группы испытуемых интеллект по некоторому тесту. Требуется узнать, различаются ли группы по интеллекту:
-
группа
1
2
3
4
83
91
101
78
91
90
100
82
94
81
91
81
89
83
93
77
89
84
96
79
96
83
95
81
91
88
94
80
92
91
81
90
89
84
Присваиваем ранги и находим значение критерия Краскала-Уоллиса:
|
|
группа | |||
|
|
1 |
2 |
3 |
4 |
|
|
11 |
23 |
34 |
2 |
|
|
23 |
19,5 |
33 |
9 |
|
|
28,5 |
6,5 |
23 |
6,5 |
|
|
17 |
11 |
27 |
1 |
|
|
17 |
13,5 |
31,5 |
3 |
|
|
31,5 |
11 |
30 |
6,5 |
|
|
23 |
15 |
28,5 |
4 |
|
|
26 |
23 |
|
6,5 |
|
|
19,5 |
17 |
|
|
|
|
|
13,5 |
|
|
|
Ранговые суммы Ni |
196,5 |
153 |
207 |
38,5 |
|
Число испытуемых в группе ni |
9 |
10 |
7 |
8 |
N=34; H=25,46; р<0,05 , следовательно нуль-гипотеза может быть отвергнута.
Переходим к апостериорным сравнениям:
S2=N(N+1)/12=99,167

df=N-k=30
Найдем
.Предположим,
что =0,05,
тогда 1-0,05/2=1-0,0125=0,975
Теперь
смотрим в Таблицу 2 и получаем значение
=2,042.
Оно находится на пересечении столбца
0,975 и строки 30.
Осталось сравнить все группы:
-
Группы


1-я и 2-я
6,533
4,681
1-я и 3-я
7,738
5,134
1-я и 4-я
17,021
4,950
2-я и 3-я
14,271
5,020
2-я и 4-я
10,488
4,832
3-я и 4-я
24,759
5,272
В каждом случае второй столбец превосходит третий, поэтому мы можем утверждать, что каждая пара групп различается по интеллекту.
Таблица 2. Таблица t-распределения
|
p= | ||||||||||
|
(df) |
0.6 |
0.75 |
0.9 |
0.95 |
0.975 |
0.99 |
0.995 |
0.9975 |
0.999 |
0.9995 |
|
1 |
0.325 |
1.000 |
3.087 |
6.314 |
12.706 |
31.821 |
63.657 |
127.32 |
318.31 |
636.62 |
|
2 |
0.289 |
0.816 |
1.886 |
2.92 |
4.303 |
6.965 |
9.925 |
14.089 |
22.327 |
31.598 |
|
3 |
0.277 |
0.765 |
1.638 |
2.353 |
3.182 |
4.541 |
5.841 |
7.453 |
10.214 |
12.924 |
|
4 |
0.271 |
0.741 |
1.533 |
2.132 |
2.776 |
3.747 |
4.604 |
5.598 |
7.173 |
8.610 |
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
0.267 |
0.727 |
1.476 |
2.015 |
2.571 |
3.365 |
4.032 |
4.773 |
5.893 |
6.869 |
|
6 |
0.265 |
0.718 |
1.440 |
1.943 |
2.447 |
3.143 |
3.707 |
4.317 |
5.208 |
5.959 |
|
7 |
0.263 |
0.711 |
1.415 |
1.895 |
2.365 |
2.998 |
3.499 |
4.029 |
4.785 |
5.408 |
|
8 |
0.262 |
0.706 |
1.397 |
1.860 |
2.306 |
2.896 |
3.355 |
3.833 |
4.501 |
5.041 |
|
9 |
0.261 |
0.703 |
1.383 |
1.833 |
2.262 |
2.821 |
3.250 |
3.690 |
4.297 |
4.781 |
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
0.260 |
0.700 |
1.372 |
1.812 |
2.228 |
2.764 |
3.169 |
3.581 |
4.144 |
4.587 |
|
11 |
0.260 |
0.697 |
1.363 |
1.796 |
2.201 |
2.718 |
3.106 |
3.497 |
4.025 |
4.437 |
|
12 |
0.259 |
0.695 |
1.356 |
1.782 |
2.179 |
2.681 |
3.055 |
3.428 |
3.930 |
4.318 |
|
13 |
0.259 |
0.694 |
1.350 |
1.771 |
2.160 |
2.65 |
3.012 |
3.372 |
3.852 |
4.221 |
|
14 |
0.258 |
0.692 |
1.345 |
1.761 |
2.145 |
2.624 |
2.977 |
3.326 |
3.787 |
4.140 |
|
|
|
|
|
|
|
|
|
|
|
|
|
15 |
0.258 |
0.691 |
1.341 |
1.753 |
2.131 |
2.602 |
2.947 |
3.286 |
3.733 |
4.073 |
|
16 |
0.258 |
0.690 |
1.337 |
1.746 |
2.120 |
2.583 |
2.921 |
3.252 |
3.686 |
4.015 |
|
17 |
0.257 |
0.689 |
1.333 |
1.740 |
2.110 |
2.567 |
2.898 |
3.222 |
3.646 |
3.965 |
|
18 |
0.257 |
0.688 |
1.330 |
1.734 |
2.101 |
2.552 |
2.878 |
3.197 |
3.610 |
3.992 |
|
19 |
0.257 |
0.688 |
1.328 |
1.729 |
2.093 |
2.539 |
2.861 |
3.174 |
3.579 |
3.883 |
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
0.257 |
0.687 |
1.325 |
1.725 |
2.086 |
2.528 |
2.845 |
3.153 |
3.552 |
3.850 |
|
21 |
0.257 |
0.686 |
1.323 |
1.721 |
2.080 |
2.518 |
2.831 |
3.153 |
3.527 |
3.819 |
|
22 |
0.256 |
0.686 |
1.321 |
1.717 |
2.074 |
2.508 |
2.819 |
3.119 |
3.505 |
3.792 |
|
23 |
0.256 |
0.685 |
1.319 |
1.714 |
2.069 |
2.500 |
2.807 |
3.104 |
3.485 |
3.767 |
|
24 |
0.256 |
0.685 |
1.318 |
1.711 |
2.064 |
2.492 |
2.797 |
3.091 |
3.467 |
3.745 |
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |
0.256 |
0.684 |
1.316 |
1.708 |
2.060 |
2.485 |
2.787 |
3.078 |
3.450 |
3.725 |
|
26 |
0.256 |
0.684 |
1.315 |
1.706 |
2.056 |
2.479 |
2.779 |
3.067 |
3.435 |
3.707 |
|
27 |
0.256 |
0.684 |
1.314 |
1.703 |
2.052 |
2.473 |
2.771 |
3.057 |
3.421 |
3.690 |
|
28 |
0.256 |
0.683 |
1.313 |
1.701 |
2.048 |
2.467 |
2.763 |
3.047 |
3.408 |
3.674 |
|
29 |
0.256 |
0.683 |
1.311 |
1.699 |
2.045 |
2.462 |
2.756 |
3.038 |
3.396 |
3.659 |
|
|
|
|
|
|
|
|
|
|
|
|
|
30 |
0.256 |
0.683 |
1.310 |
1.697 |
2.042 |
2.457 |
2.750 |
3.030 |
3.385 |
3.646 |
|
40 |
0.255 |
0.681 |
1.303 |
1.684 |
2.021 |
2.423 |
2.704 |
2.971 |
3.307 |
3.551 |
|
60 |
0.254 |
0.697 |
1.296 |
1.671 |
2.000 |
2.390 |
2.660 |
2.915 |
3.232 |
3.460 |
|
120 |
0.254 |
0.677 |
1.289 |
1.658 |
1.980 |
2.358 |
2.617 |
2.860 |
3.160 |
3.373 |
|
∞ |
0.253 |
0.674 |
1.282 |
1.645 |
1.960 |
2.326 |
2.576 |
2.807 |
3.090 |
3.291 |
Апостериорный критерий для критерия Фридмана.
Описанную тут процедуру можно использовать тогда, и только тогда, когда нуль-гипотеза отвергнута с помощью критерия Фридмана. Этот апостериорный критерий позволяет определить, какие пары условий независимой переменной различаются.
Если мы представим наши данные в виде:
,
то можем утверждать, что существует разница между условиями, если выполняется следующее неравенство:

где
,
─(1-/2)
квантиль t-распределения,
который находится из таблицы 2
с (b-1)(k-1) степенями свободы
Пример. Двенадцать испытуемых проранжировали свое отношение к различным жизненным ценностям:
|
|
Здоровье |
Работа |
Семья |
Хобби |
|
1-й испытуемый |
4 |
3 |
2 |
1 |
|
2-й испытуемый |
4 |
2 |
3 |
1 |
|
3-й испытуемый |
3 |
1,5 |
1,5 |
4 |
|
4-й испытуемый |
3 |
1 |
2 |
4 |
|
5-й испытуемый |
4 |
2 |
1 |
3 |
|
6-й испытуемый |
2 |
2 |
2 |
4 |
|
7-й испытуемый |
1 |
2 |
3 |
4 |
|
8-й испытуемый |
2 |
4 |
1 |
3 |
|
9-й испытуемый |
3,5 |
1 |
2 |
3,5 |
|
10-й испытуемый |
4 |
1 |
3 |
2 |
|
11-й испытуемый |
4 |
2 |
3 |
1 |
|
12-й испытуемый |
3,5 |
1 |
2 |
3,5 |
|
Rj |
38 |
23,5 |
24,5 |
34 |
T=3,19; p<0,05, следовательно, нуль-гипотеза может быть отвергнута. Мы можем заключить, что испытуемые по-разному относятся к жизненным ценностям.
A2= 42+32+22+12+42+22+…+3,52=356,5
B2= (382+23,52+24,52+342)/12=312,71
Находим из Таблицы 2 t.975 c 11*3=33 степенями свободы (на пересечении столбца 0,975 и строки 33): t.975=2,036 (примерно).
Вычисляем

Таким образом, любые две ценности, для которых ранговые суммы различаются более, чем на число 11,49 могут считаться различными. Следовательно, первая ценность здоровье может быть рассмотрена как обладающая большей значимостью для испытуемых, чем работа и семья. Все остальные разницы статистически незначимые.
