Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LB_3.doc
Скачиваний:
7
Добавлен:
24.11.2019
Размер:
2.46 Mб
Скачать

Описание непараметрических процедур на примерах

Стартовая панель модуля Непараметрические статистики

Стартовая панель модуля имеет вид:

 

Таблицы частот 2× 2: статистики Хи-квадрат, Макнемара, точный критерий Фишера

Опция открывает диалоговое окно, в котором можно ввести частоты в таблицу 2×2 (состоящую из двух строк и двух столбцов) и вычислить различные статистики, позволяющие оценить зависимость между двумя переменными, принимающими только два значения.

Пепси

Кола

Сумма

Мужчины

17

19

36

Женщины

27

29

56

Сумма

44

48

92

Типичный пример таких таблиц — определение, например, числа мужчин и женщин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевших и не заболевших людей из числа сделавших и не сделавших прививки, и т. д.

Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первая переменная имеет 2 уровня (принимает 2 значения) — мужчина, женщина. Вторая переменная, НАПИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА.

Задача состоит в том, чтобы оценить зависимость между двумя табулированными переменными.

Укажем на важное методологическое отличие использования слова связь (зависимость) в повседневной жизни и в анализе данных. Обычно мы говорим, что два признака А и В связаны между собой, если они часто встречаются вместе. В анализе данных дается строгое определение: если А встречается относительно чаще с В, чем с не-В, то А и В связаны. Или переходя на язык теории вероятностей, Р( АХВ) должна быть больше Р(АХ не-В). Оценкой вероятности является частота.

В приведенной выше таблице пусть признак А — пол, признак В — напиток, принимающий, например, два значения: пепси — не-пепси. Пусть a, b — частоты в первой строке, с, d — частот во второй строке. Если а/(а+с) = b/(b+d) то признаки независимы. Формально имеем: 17/(17+27) = 0,39, 19/(19+29) - 0,396. Теперь нам нужно понять, существенно или нет различие в частотах. Статистические критерии, реализованные в этом диалоге, как раз и позволяют это сделать. В данном случае различие, конечно, несущественно (или, как говорят в анализе данных, незначимо). Следовательно, признаки независимы, — пол не связан с выбором напитка.

Опция 2x2 может быть использована как альтернатива корреляциям, если обе рассматриваемые переменные являются категориальными.

Дополнительно к стандартному критерию хи-квадрат Пирсона и скорректированному хи-квадрат вычисляются следующие статистики:

Классическая статистика хи-квадрат Пирсона замечательна тем, что ее распределение приближается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора.

Свойство критерия хи-квадрат (точность аппроксимации распределения статистики распределением хи-квадрат) для таблиц 2× 2 с малыми ожидаемыми частотами может быть улучшено за счет уменьшения абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат.

Это так называемая поправка Йетса на непрерывность для таблиц частот 2×2, которая обычно применяется, когда ячейки содержат только малые частоты и некоторые ожидаемые частоты становятся меньше 5 (или даже меньше 10).

Хи-коэффициент. Статистика хи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить.

Пусть даны частоты в таблице 2×2. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получить наблюдаемые частоты? Это и делается в критерии Фишера. STATISTICA вычисляет р-уровни одностороннего и двустороннего критерия Фишера.

Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат.

Известны рекомендации Кокрена для таблиц 2×2: если сумма всех частот в таблице меньше 20, то следует использовать точный критерий Фишера.

Если сумма частот больше 40, то можно применять критерий хи-квадрат с поправкой на непрерывность.

Рассмотрим следующий пример.

Пример. Исследуются 30 человек, совершивших преступления. У каждого из преступников есть брат-близнец. Спрашивается, имеется ли связь между родственными отношениями и преступлением. Данные приведены в таблице:

Оба брата преступники

Только один брат преступник

Сумма

Однояйцевые близнецы

10

3

13

Разнояйцовые близнецы

2

15

17

Сумма

12

18

30

Проверяемая гипотеза состоит в том, что зависимости между родством и преступностью нет. Альтернативная гипотеза заключается в следующем: чем теснее родственные связи, тем более вероятно совместное участие в преступлении (то есть между признаками имеется положительная связь). Заметьте — это односторонняя альтернатива, т. к. нас интересует отклонение от гипотезы лишь в одну сторону (вольно выражаясь, с сохранением знака больше).

Введем данные в систему STATISTICА.

После нажатия на кнопку ОК получим следующую электронную таблицу с результатами:

Так как в данных имеются ячейки с малыми частотами (2 и 3), то для улучшения точности критерия хи-квадрат используем поправку Йетса. Поскольку нас интересует односторонняя альтернатива, мы делим уровень р = 0,0012 пополам и получаем 0,0006.

Точное значение одностороннего критерия Фишера равно 0,0005 (см. таблицу). Оба эти результата высокозначимы, следовательно, мы отвергаем исходную гипотезу об отсутствии зависимости между родством и преступлением в пользу альтернативы: «между признаками имеется тесная положительная связь».

Заметьте, что сумма всех частот в таблице меньше 40, но оба критерия, точный Фишера и хи-квадрат Йетса, дают почти одинаковые результаты.

Критерий хи-квадрат Макнемара. Этот критерий применяется, когда частоты в таблице 2x2 получены по зависимым выборкам. Например, когда наблюдения фиксируются до и после воздействия на одном и том же экспериментальном материале.

STATISTICА включает также модульЛоглинейный анализ, позволяющий выполнить полный логлинейный анализ многовходовых таблиц сопряженности. STATISTICA содержит программу на STATISTICA BASIC для вычисления критерия Ментела—Хенцела (файл Ma.nthaen.stb в каталоге STBASIC), позволяющего сравнить две группы данных. Обратитесь к комментариям в программе Manthaen.stb за дополнительной информацией.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]