Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
VUKOLOV2.pdf
Скачиваний:
138
Добавлен:
05.06.2015
Размер:
2.12 Mб
Скачать

4. Непараметрические методы математической статистики

Основные методы математической статистики - оценка параметров распределения, проверка статистических гипотез, дисперсионный анализ - применяются в предположении, что распределение генеральной совокупности известно. В частности, t- критерий для сравнения средних двух генеральных совокупностей и однофакторный дисперсионный анализ для сравнения средних нескольких совокупностей пригодны только в случае нормального распределения последних. Однако нередко встречаются данные, для которых эти предположения не выполняются. Например, результаты социологических опросов обычно имеют форму ответов типа "да" или "нет" и представляются в виде таблиц, содержащих частоты положительных и отрицательных ответов. Традиционные методы математической статистики не могут использоваться для обработки таких данных. В этих случаях обращаются к непараметрическим методам, т.е. методам, не зависящим от распределения генеральной совокупности.

Непараметрические методы применяются для качественных данных, представленных в номинальной шкале, данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов), а также количественных данных в том случае, когда распределение генеральной совокупности нельзя определить, так как выборка мала, либо когда распределение не следует

77

нормальному закону и параметрические методы не применимы.

В пакете STATISTICA непараметрические

Рис.4.1. Стартовая панель модуля Nonpametrics/Distrib

процедуры выполняются в модуле

Nonpametrics/Distrib. Стартовая панель модуля приведена на рис.4.1.

Опишем последовательно соответствующие методы

иприведем примеры выполнения процедур.

Вмодуле Nonpametrics/Distrib содержится большое количество процедур. При решении конкретной задачи необходимо выбрать определенный метод. Помощь в таком выборе может оказать следующая классификация непараметрических методов, используемых для проверки гипотезы о том, что анализируемые данные - это выборки из однородных генеральных совокупностей. Заметим, что понятие однородности генеральных совокупностей понимается достаточно широко: это могут быть генеральные совокупности, имеющие одну и ту же

78

функцию распределения, либо совокупности, у которых совпадают характеристики положения (средние, медианы) и/или характеристики разброса (дисперсии).

Первым критерием для выбора метода является вид шкалы, в которой представлены исходные данные.

Вторым критерием является вид выборок (независимые или связанные) и их количество.

Поясним понятие связанной выборки. Если над каждым из n объектов или индивидуумов проводятся два наблюдения: одно до, а другое после некоторого воздействия (приема лекарства, обучения, рекламной компании, обработки тем или иным способом и т.д.), то результаты наблюдений представляют две связанные (зависимые) выборки объемом n. В случае если каждый из n объектов подвергается k воздействиям, то результаты наблюдений представляют k связанных выборок объема n. Например, множество оценок, проставленных k судьями каждому из n спортсменов - это k связанных выборок объемом n, измеренных в порядковой шкале. Итак, рассматриваемые ниже непараметрические методы можно классифицировать следующим образом.

1. Исходные данные: две независимые выборки

объемов n1 и n2.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1)критерий серий Вальда - Вольфовица;

2)критерий Манна - Уитни;

3)двухвыборочный критерий Колмогорова - Смирнова;

79

4) меры статистической зависимости: ранговый коэффициент корреляции Спирмена, коэффициент корреляции τ Кендалла.

2. Исходные данные: k независимых выборок объемами

n1, n2, …, nk.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1)однофакторный дисперсионный анализ Краскела

-Уоллиса.

2)медианный критерий.

3.Исходные данные: две связанные выборки объемами n.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1) критерий знаков;

2) критерий Вилкоксона.

4.Исходные данные: k связанных выборок объемами n.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1) однофакторный анализ Фридмана;

2) меры связи - коэффициент конкордации Кендалла.

5. Связанные выборки, измеряемые в номинальной шкале.

5а) Исходные данные: две связанные выборки объемов n переменных X и Y, каждая из которых

принимает

два

значения

(0,1;

+,

-;

и т.д.).

 

 

 

 

 

80

Проверяемая гипотеза H0: эффект воздействия отсутствует.

Метод: критерий Макнимара.

5б) Исходные данные: две связанные выборки объемов n переменных X1, X2, ..., Xk, каждая из которых принимает два значения.

Проверяемая гипотеза H0: эффект воздействия отсутствует.

Метод: критерий Кокрена.

6. Независимые выборки, измеряемые в номинальной шкале.

6а) Исходные данные: выборки двух случайных переменных

Xи Y, каждая из которых принимает два значения.

Проверяемая гипотеза H0: X и Y независимы. Метод: анализ таблицы сопряженности 2× 2

(точный критерий Фишера, критерий χ2 ).

6б) Исходные данные: выборки k случайных переменных, каждая из которых принимает r значений.

Проверяемая гипотеза H0: выборки получены из одной генеральной совокупности.

Метод: анализ таблицы сопряженности k × r (критерий χ2 ). Анализ таких таблиц проводится в

модуле

Basic

Stat

and

Tables,

опция

Tables and banners.

 

 

 

 

81

4.1. Таблицы сопряженности 2 × 2, статистики χ2, φ, критерий Макнимара, точный критерий Фишера (2 × 2 Tables

Xi/Vi/Phi, McNemar, Fisher exact)

В таблице сопряженности 2× 2 записываются частоты для двух случайных переменных X и Y, каждая из которых принимает два значения: 0 и 1, "да" и "нет" и т.д.

Пример 4.1. Чтобы определить отношение телезрителей разного пола к телевизионной передаче опросили 60 человек: 35 мужчин и 25 женщин. Оказалось, что 25 мужчин одобряют, а 10 - не одобряют передачу. В то же время 16 женщин высказывают свое отрицательное отношение к передаче, а 9 - положительное.

Выяснить, зависит ли отношение к передаче от пола телезрителей.

Решение. Данные можно записать в виде таблицы сопряженности 2× 2 :

 

Пол

 

 

Отношение к передаче

 

 

 

 

За

 

 

Против

 

 

 

 

 

 

 

 

 

Мужчины

 

25

 

 

10

 

 

Женщины

 

9

 

16

 

Формально задача состоит в определении независимости двух рассматриваемых признаков X (пол) и Y (отношение к передаче) или в проверке нулевой гипотезы H0: отношение к передаче не зависит

82

от пола при альтернативной гипотезе Н1 : отношение к

передаче зависит от пола.

Эквивалентная формулировка такова. Рассмотрим две выборки: 35 мужчин и 25 женщин. Проверяется нулевая гипотеза H0: доля мужчин, одобряющих передачу ( р1 ), равна доле женщин, одобряющих

передачу ( р2 ), при альтернативной гипотезе Н1 : доли

мужчин и женщин, одобряющих передачу не равны. Нулевая гипотеза есть гипотеза о равенстве параметров р1 и р2 двух генеральных совокупностей, имеющих

биноминальное распределение.

Для проверки гипотезы H0 применяется критерий Фишера, позволяющий рассчитать точные значения вероятностей наблюдаемых результатов и результатов с более крайними распределениями (см. [14], с. 345). Односторонние (one-tailed) и двусторонние (twotailed) уровни значимости p для критерия Фишера (Fisher exact p) вычисляются и приводятся в таблице результатов выполнения процедуры для таблицы сопряженности 2× 2 .

При объеме выборки n ³ 30 менее трудоемкой процедурой является критерий χ2 . Чтобы пояснить

необходимые расчеты, запишем таблицу сопряженности 2× 2 в следующем виде:

 

Пол

 

 

Отношение к передаче

 

 

 

 

За

 

 

Против

 

 

Сумма по

 

 

 

 

 

 

 

 

 

строкам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Мужчины

 

 

n11 = a

 

 

n12

= b

 

 

n1* = a + b

 

 

Женщины

 

 

n21 = c

 

 

n22

= d

 

 

n2* = c + d

 

 

Сумма

по

n = a + c

 

 

n = b + d

 

 

n = a + b + c + d

 

 

столбцам

 

*1

 

*2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

83

В рассматриваемом примере эта таблица имеет вид:

 

Пол

 

 

 

Отношение к передаче

 

 

 

 

За

 

 

Против

 

 

Сумма по

 

 

 

 

 

 

 

 

 

строкам

 

 

 

 

 

 

 

 

 

 

 

 

 

Мужчины

 

 

25

 

10

 

 

35

 

 

Женщины

 

 

9

 

16

 

25

 

 

Сумма

по

 

34

 

26

 

60

 

 

столбцам

 

 

 

 

 

 

 

 

 

 

 

Статистика критерия c2

использует разности между

 

наблюдаемыми частотами a, b, c, d и ожидаемыми частотами a0 , b0 , c0 , d0 , вычисляемыми при условии, что гипотеза H0 верна:

a0 = (a + b) (a + c) = 35×34 » 19,83; n 60

b0 = (a + b)n(b + d ) = 3560× 26 » 15,17;

c0 = (c + d ) (a + c) = 25×34 » 14,17; n 60

d0 = (c + d )n(b + d ) = 2560× 26 » 10,83.

Выборочное значение статистики cв2 вычисляется по формуле:

2

 

(a -a

)2

 

(b -b

)2

 

(c -c

)2

(d -d

)2

 

n(ad -bc)2

 

0

 

 

0

 

 

0

 

0

 

 

 

c

=

 

 

+

 

 

+

 

+

 

 

=

 

 

 

 

 

 

 

 

(a +b)(c + d )(a +c)(b + d)

в

 

a0

 

 

b0

 

 

c0

 

d0

 

 

 

 

 

 

 

 

 

 

 

.

84

При n → ∞ статистика cв2 имеет распределение c2 с одной степенью свободы. Если ожидаемые частоты ≤ 5 , то выборочное значение статистики cв2 вычисляют с поправкой Йетса на непрерывность:

c2 = (

 

a - a0

 

- 0,5)2

+ (

 

b - b0

 

- 0,5)2

+ (

 

c - c0

 

- 0,5)2

+ (

 

d - d0

 

- 0,5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в

 

 

 

a0

 

 

 

 

 

b0

 

 

 

 

 

c0

 

 

 

d0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

æ

 

 

 

 

n

ö2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nç ad - bc -

 

÷

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

è

 

 

 

 

ø

 

.

 

 

 

 

 

 

 

 

 

 

 

 

(a + b) (c + d ) (a + c)(b + d )

 

 

 

Гипотеза H0 принимается на уровне значимости α,

если c2 < c2

(1), где c2

 

 

(1)

- квантиль распределения c2

в

 

 

1−α

 

 

 

1−α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

с одной степенью свободы порядка 1 – α.

 

 

 

 

 

 

Для

 

 

данного

примера

выборочное

значение

cв2 = 7,45 ,

 

 

а

с поправкой

 

 

Йетса cв2 = 6,08 .

Так

как

c0,952 (1) = 3,84

 

 

(проверьте,

 

 

используя

 

статистический

калькулятор!) и cв2 < 3,84 , то гипотеза H0 отклоняется: на

уровне

значимости

 

α = 0,05

следует

 

 

считать,

что

отношение к передаче зависит от пола.

Эти же результаты получим, введя данные в соответствующую процедуру пакета STATISTICA. Таблица результатов приведена на рис.4.2.

85

Рис.4.2. Результаты процедуры 2× 2 Tables…

Р-значения для статистики χ2 , статистики χ2 ,

скорректированной по Йетсу, и точного критерия Фишера для двусторонней проверки соответственно равны 0,0063; 0,0137 и 0,0087. Таким образом, на уровне значимости α = 0,05 гипотеза H0 отклоняется. В таблице результатов приводится мера связи между переменными

X и Y - коэффициент фи-квадрат (средний коэффициент сопряженности):

ϕ2 = χв2 = 0,124 . n

Значение ϕ2 изменяется от 0 (между переменными

нет зависимости) до 1 (между переменными имеется абсолютная зависимость, т.е. все частоты расположены на диагонали таблицы 2× 2 ).

Критерий значимости изменений Макнимара

применяется, если исходные данные - две связанные выборки. Над одним и тем же объектом или индивидуумом проводятся два наблюдения: одно до, другое после некоторого воздействия (приема лекарства, обучения, рекламной компании и т.д.).

86

Отрицательный результат или ответ обозначим минусом "–", а положительный - плюсом "+". Пример 4.2. 200 покупателей магазина бытовой

техники дали ответы на вопрос: "Хотите ли вы купить кухонный комбайн новой марки?" до и после того как им был показан рекламный ролик. Частоты ответов приведены в таблице 2× 2 в клетках a - d:

 

До рекламы

 

 

После рекламы

 

 

 

 

 

 

 

+

 

 

 

 

 

 

 

 

+

 

 

a = 10

 

b = 71

 

 

 

c = 74

 

d = 45

 

Показывают ли эти результаты, что просмотр рекламного ролика оказал эффективное воздействие на покупателей?

Решение. Очевидно, что эффективность воздействия определяется числом покупателей, изменивших свое мнение с "+" на "–" и с "–" на "+", т.е. частотами в клетках a и d. Задача состоит в проверке нулевой гипотезы H0: в генеральной совокупности доля р покупателей, изменивших ответ с "+" на "–", равна доле q покупателей, изменивших ответ с "–" на "+", или

проверке гипотезы H0: p = q = 12 , при альтернативной

гипотезе Н1: p ¹ q ¹ 12 .

Объем выборки n из биноминального распределения равен сумме частот в клетках a и d: n = a + d = 55. При n ³ 50 для проверки гипотезы H0

используется статистика c2 . Выборочное значение статистики cв2 вычисляется по формуле:

c2 = ( a - d -1)2 » 21,02 .

в a + d

87

Так

как

χв2

больше

квантили

распределения χ0,952 (1) = 3,84 , гипотеза H0 отклоняется на

уровне значимости α = 0,05. Таким образом, результаты свидетельствуют о том, что рекламный ролик оказал эффективное воздействие на покупателей.

При n < 50 для определения границ критической области нужно использовать накопленные значения

вероятностей биноминального распределения с р = 12 .

В пакете STATISTICA накопленные вероятности биноминального распределения вычисляются при помощи функции IBinom (x;0,5;n). Нажмите кнопку Functions в окне спецификации переменных. В появившемся диалоговом окне Function Wizard выберите нужную функцию биноминального распределения (рис.4.3): в окне Category выберите

Distributions, в окне Name выберите IBinom. Нажмите кнопку Insert. Функция биноминального распределения появится в окне спецификации переменной.

88

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]