- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
4. Непараметрические методы математической статистики
Основные методы математической статистики - оценка параметров распределения, проверка статистических гипотез, дисперсионный анализ - применяются в предположении, что распределение генеральной совокупности известно. В частности, t- критерий для сравнения средних двух генеральных совокупностей и однофакторный дисперсионный анализ для сравнения средних нескольких совокупностей пригодны только в случае нормального распределения последних. Однако нередко встречаются данные, для которых эти предположения не выполняются. Например, результаты социологических опросов обычно имеют форму ответов типа "да" или "нет" и представляются в виде таблиц, содержащих частоты положительных и отрицательных ответов. Традиционные методы математической статистики не могут использоваться для обработки таких данных. В этих случаях обращаются к непараметрическим методам, т.е. методам, не зависящим от распределения генеральной совокупности.
Непараметрические методы применяются для качественных данных, представленных в номинальной шкале, данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов), а также количественных данных в том случае, когда распределение генеральной совокупности нельзя определить, так как выборка мала, либо когда распределение не следует
77
нормальному закону и параметрические методы не применимы.
В пакете STATISTICA непараметрические
Рис.4.1. Стартовая панель модуля Nonpametrics/Distrib
процедуры выполняются в модуле
Nonpametrics/Distrib. Стартовая панель модуля приведена на рис.4.1.
Опишем последовательно соответствующие методы
иприведем примеры выполнения процедур.
Вмодуле Nonpametrics/Distrib содержится большое количество процедур. При решении конкретной задачи необходимо выбрать определенный метод. Помощь в таком выборе может оказать следующая классификация непараметрических методов, используемых для проверки гипотезы о том, что анализируемые данные - это выборки из однородных генеральных совокупностей. Заметим, что понятие однородности генеральных совокупностей понимается достаточно широко: это могут быть генеральные совокупности, имеющие одну и ту же
78
функцию распределения, либо совокупности, у которых совпадают характеристики положения (средние, медианы) и/или характеристики разброса (дисперсии).
Первым критерием для выбора метода является вид шкалы, в которой представлены исходные данные.
Вторым критерием является вид выборок (независимые или связанные) и их количество.
Поясним понятие связанной выборки. Если над каждым из n объектов или индивидуумов проводятся два наблюдения: одно до, а другое после некоторого воздействия (приема лекарства, обучения, рекламной компании, обработки тем или иным способом и т.д.), то результаты наблюдений представляют две связанные (зависимые) выборки объемом n. В случае если каждый из n объектов подвергается k воздействиям, то результаты наблюдений представляют k связанных выборок объема n. Например, множество оценок, проставленных k судьями каждому из n спортсменов - это k связанных выборок объемом n, измеренных в порядковой шкале. Итак, рассматриваемые ниже непараметрические методы можно классифицировать следующим образом.
1. Исходные данные: две независимые выборки
объемов n1 и n2.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
1)критерий серий Вальда - Вольфовица;
2)критерий Манна - Уитни;
3)двухвыборочный критерий Колмогорова - Смирнова;
79
4) меры статистической зависимости: ранговый коэффициент корреляции Спирмена, коэффициент корреляции τ Кендалла.
2. Исходные данные: k независимых выборок объемами
n1, n2, …, nk.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
1)однофакторный дисперсионный анализ Краскела
-Уоллиса.
2)медианный критерий.
3.Исходные данные: две связанные выборки объемами n.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
1) критерий знаков;
2) критерий Вилкоксона.
4.Исходные данные: k связанных выборок объемами n.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
1) однофакторный анализ Фридмана;
2) меры связи - коэффициент конкордации Кендалла.
5. Связанные выборки, измеряемые в номинальной шкале.
5а) Исходные данные: две связанные выборки объемов n переменных X и Y, каждая из которых
принимает |
два |
значения |
(0,1; |
+, |
-; |
и т.д.). |
|
|
|
|
|
80
Проверяемая гипотеза H0: эффект воздействия отсутствует.
Метод: критерий Макнимара.
5б) Исходные данные: две связанные выборки объемов n переменных X1, X2, ..., Xk, каждая из которых принимает два значения.
Проверяемая гипотеза H0: эффект воздействия отсутствует.
Метод: критерий Кокрена.
6. Независимые выборки, измеряемые в номинальной шкале.
6а) Исходные данные: выборки двух случайных переменных
Xи Y, каждая из которых принимает два значения.
Проверяемая гипотеза H0: X и Y независимы. Метод: анализ таблицы сопряженности 2× 2
(точный критерий Фишера, критерий χ2 ).
6б) Исходные данные: выборки k случайных переменных, каждая из которых принимает r значений.
Проверяемая гипотеза H0: выборки получены из одной генеральной совокупности.
Метод: анализ таблицы сопряженности k × r (критерий χ2 ). Анализ таких таблиц проводится в
модуле |
Basic |
Stat |
and |
Tables, |
опция |
Tables and banners. |
|
|
|
|
81
4.1. Таблицы сопряженности 2 × 2, статистики χ2, φ, критерий Макнимара, точный критерий Фишера (2 × 2 Tables
Xi/Vi/Phi, McNemar, Fisher exact)
В таблице сопряженности 2× 2 записываются частоты для двух случайных переменных X и Y, каждая из которых принимает два значения: 0 и 1, "да" и "нет" и т.д.
Пример 4.1. Чтобы определить отношение телезрителей разного пола к телевизионной передаче опросили 60 человек: 35 мужчин и 25 женщин. Оказалось, что 25 мужчин одобряют, а 10 - не одобряют передачу. В то же время 16 женщин высказывают свое отрицательное отношение к передаче, а 9 - положительное.
Выяснить, зависит ли отношение к передаче от пола телезрителей.
Решение. Данные можно записать в виде таблицы сопряженности 2× 2 :
|
Пол |
|
|
Отношение к передаче |
|
|||
|
|
|
За |
|
|
Против |
|
|
|
|
|
|
|
|
|
||
|
Мужчины |
|
25 |
|
|
10 |
|
|
|
Женщины |
|
9 |
|
16 |
|
Формально задача состоит в определении независимости двух рассматриваемых признаков X (пол) и Y (отношение к передаче) или в проверке нулевой гипотезы H0: отношение к передаче не зависит
82
от пола при альтернативной гипотезе Н1 : отношение к
передаче зависит от пола.
Эквивалентная формулировка такова. Рассмотрим две выборки: 35 мужчин и 25 женщин. Проверяется нулевая гипотеза H0: доля мужчин, одобряющих передачу ( р1 ), равна доле женщин, одобряющих
передачу ( р2 ), при альтернативной гипотезе Н1 : доли
мужчин и женщин, одобряющих передачу не равны. Нулевая гипотеза есть гипотеза о равенстве параметров р1 и р2 двух генеральных совокупностей, имеющих
биноминальное распределение.
Для проверки гипотезы H0 применяется критерий Фишера, позволяющий рассчитать точные значения вероятностей наблюдаемых результатов и результатов с более крайними распределениями (см. [14], с. 345). Односторонние (one-tailed) и двусторонние (twotailed) уровни значимости p для критерия Фишера (Fisher exact p) вычисляются и приводятся в таблице результатов выполнения процедуры для таблицы сопряженности 2× 2 .
При объеме выборки n ³ 30 менее трудоемкой процедурой является критерий χ2 . Чтобы пояснить
необходимые расчеты, запишем таблицу сопряженности 2× 2 в следующем виде:
|
Пол |
|
|
Отношение к передаче |
|
|||||||
|
|
|
За |
|
|
Против |
|
|
Сумма по |
|
||
|
|
|
|
|
|
|
|
строкам |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Мужчины |
|
|
n11 = a |
|
|
n12 |
= b |
|
|
n1* = a + b |
|
|
Женщины |
|
|
n21 = c |
|
|
n22 |
= d |
|
|
n2* = c + d |
|
|
Сумма |
по |
n = a + c |
|
|
n = b + d |
|
|
n = a + b + c + d |
|
||
|
столбцам |
|
*1 |
|
*2 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
83
В рассматриваемом примере эта таблица имеет вид:
|
Пол |
|
|
|
Отношение к передаче |
|
|||||
|
|
|
За |
|
|
Против |
|
|
Сумма по |
|
|
|
|
|
|
|
|
|
|
строкам |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Мужчины |
|
|
25 |
|
10 |
|
|
35 |
|
|
|
Женщины |
|
|
9 |
|
16 |
|
25 |
|
||
|
Сумма |
по |
|
34 |
|
26 |
|
60 |
|
||
|
столбцам |
|
|
|
|
|
|
|
|
|
|
|
Статистика критерия c2 |
использует разности между |
|
наблюдаемыми частотами a, b, c, d и ожидаемыми частотами a0 , b0 , c0 , d0 , вычисляемыми при условии, что гипотеза H0 верна:
a0 = (a + b) (a + c) = 35×34 » 19,83; n 60
b0 = (a + b)n(b + d ) = 3560× 26 » 15,17;
c0 = (c + d ) (a + c) = 25×34 » 14,17; n 60
d0 = (c + d )n(b + d ) = 2560× 26 » 10,83.
Выборочное значение статистики cв2 вычисляется по формуле:
2 |
|
(a -a |
)2 |
|
(b -b |
)2 |
|
(c -c |
)2 |
(d -d |
)2 |
|
n(ad -bc)2 |
|
0 |
|
|
0 |
|
|
0 |
|
0 |
|
|
|
|
c |
= |
|
|
+ |
|
|
+ |
|
+ |
|
|
= |
|
|
|
|
|
|
|
|
(a +b)(c + d )(a +c)(b + d) |
||||||
в |
|
a0 |
|
|
b0 |
|
|
c0 |
|
d0 |
|
|
|
|
|
|
|
|
|
|
|
|
.
84
При n → ∞ статистика cв2 имеет распределение c2 с одной степенью свободы. Если ожидаемые частоты ≤ 5 , то выборочное значение статистики cв2 вычисляют с поправкой Йетса на непрерывность:
c2 = ( |
|
a - a0 |
|
- 0,5)2 |
+ ( |
|
b - b0 |
|
- 0,5)2 |
+ ( |
|
c - c0 |
|
- 0,5)2 |
+ ( |
|
d - d0 |
|
- 0,5) |
|||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||||
в |
|
|
|
a0 |
|
|
|
|
|
b0 |
|
|
|
|
|
c0 |
|
|
|
d0 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
æ |
|
|
|
|
n |
ö2 |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
nç ad - bc - |
|
÷ |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
= |
|
è |
|
|
|
|
ø |
|
. |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
(a + b) (c + d ) (a + c)(b + d ) |
|
|
|
||||||||||||||||
Гипотеза H0 принимается на уровне значимости α, |
||||||||||||||||||||||||||||
если c2 < c2 |
(1), где c2 |
|
|
(1) |
- квантиль распределения c2 |
|||||||||||||||||||||||
в |
|
|
1−α |
|
|
|
1−α |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
с одной степенью свободы порядка 1 – α. |
|
|
|
|
|
|
||||||||||||||||||||||
Для |
|
|
данного |
примера |
выборочное |
значение |
||||||||||||||||||||||
cв2 = 7,45 , |
|
|
а |
с поправкой |
|
|
Йетса cв2 = 6,08 . |
Так |
как |
|||||||||||||||||||
c0,952 (1) = 3,84 |
|
|
(проверьте, |
|
|
используя |
|
статистический |
||||||||||||||||||||
калькулятор!) и cв2 < 3,84 , то гипотеза H0 отклоняется: на |
||||||||||||||||||||||||||||
уровне |
значимости |
|
α = 0,05 |
следует |
|
|
считать, |
что |
отношение к передаче зависит от пола.
Эти же результаты получим, введя данные в соответствующую процедуру пакета STATISTICA. Таблица результатов приведена на рис.4.2.
85
Рис.4.2. Результаты процедуры 2× 2 Tables…
Р-значения для статистики χ2 , статистики χ2 ,
скорректированной по Йетсу, и точного критерия Фишера для двусторонней проверки соответственно равны 0,0063; 0,0137 и 0,0087. Таким образом, на уровне значимости α = 0,05 гипотеза H0 отклоняется. В таблице результатов приводится мера связи между переменными
X и Y - коэффициент фи-квадрат (средний коэффициент сопряженности):
ϕ2 = χв2 = 0,124 . n
Значение ϕ2 изменяется от 0 (между переменными
нет зависимости) до 1 (между переменными имеется абсолютная зависимость, т.е. все частоты расположены на диагонали таблицы 2× 2 ).
Критерий значимости изменений Макнимара
применяется, если исходные данные - две связанные выборки. Над одним и тем же объектом или индивидуумом проводятся два наблюдения: одно до, другое после некоторого воздействия (приема лекарства, обучения, рекламной компании и т.д.).
86
Отрицательный результат или ответ обозначим минусом "–", а положительный - плюсом "+". Пример 4.2. 200 покупателей магазина бытовой
техники дали ответы на вопрос: "Хотите ли вы купить кухонный комбайн новой марки?" до и после того как им был показан рекламный ролик. Частоты ответов приведены в таблице 2× 2 в клетках a - d:
|
До рекламы |
|
|
После рекламы |
|
|
||
|
|
|
– |
|
|
+ |
|
|
|
|
|
|
|
|
|
||
+ |
|
|
a = 10 |
|
b = 71 |
|
||
|
– |
|
c = 74 |
|
d = 45 |
|
Показывают ли эти результаты, что просмотр рекламного ролика оказал эффективное воздействие на покупателей?
Решение. Очевидно, что эффективность воздействия определяется числом покупателей, изменивших свое мнение с "+" на "–" и с "–" на "+", т.е. частотами в клетках a и d. Задача состоит в проверке нулевой гипотезы H0: в генеральной совокупности доля р покупателей, изменивших ответ с "+" на "–", равна доле q покупателей, изменивших ответ с "–" на "+", или
проверке гипотезы H0: p = q = 12 , при альтернативной
гипотезе Н1: p ¹ q ¹ 12 .
Объем выборки n из биноминального распределения равен сумме частот в клетках a и d: n = a + d = 55. При n ³ 50 для проверки гипотезы H0
используется статистика c2 . Выборочное значение статистики cв2 вычисляется по формуле:
c2 = ( a - d -1)2 » 21,02 .
в a + d
87
Так |
как |
χв2 |
больше |
квантили |
распределения χ0,952 (1) = 3,84 , гипотеза H0 отклоняется на
уровне значимости α = 0,05. Таким образом, результаты свидетельствуют о том, что рекламный ролик оказал эффективное воздействие на покупателей.
При n < 50 для определения границ критической области нужно использовать накопленные значения
вероятностей биноминального распределения с р = 12 .
В пакете STATISTICA накопленные вероятности биноминального распределения вычисляются при помощи функции IBinom (x;0,5;n). Нажмите кнопку Functions в окне спецификации переменных. В появившемся диалоговом окне Function Wizard выберите нужную функцию биноминального распределения (рис.4.3): в окне Category выберите
Distributions, в окне Name выберите IBinom. Нажмите кнопку Insert. Функция биноминального распределения появится в окне спецификации переменной.
88