Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МИЭТ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

VUKOLOV2.pdf

Скачиваний:

138

Добавлен:

05.06.2015

Размер:

2.12 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2210 11 12 13 14 15 16 17 18 19 20 21 22 > Следующая >>>

4. Непараметрические методы математической статистики

Основные методы математической статистики - оценка параметров распределения, проверка статистических гипотез, дисперсионный анализ - применяются в предположении, что распределение генеральной совокупности известно. В частности, t- критерий для сравнения средних двух генеральных совокупностей и однофакторный дисперсионный анализ для сравнения средних нескольких совокупностей пригодны только в случае нормального распределения последних. Однако нередко встречаются данные, для которых эти предположения не выполняются. Например, результаты социологических опросов обычно имеют форму ответов типа "да" или "нет" и представляются в виде таблиц, содержащих частоты положительных и отрицательных ответов. Традиционные методы математической статистики не могут использоваться для обработки таких данных. В этих случаях обращаются к непараметрическим методам, т.е. методам, не зависящим от распределения генеральной совокупности.

Непараметрические методы применяются для качественных данных, представленных в номинальной шкале, данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов), а также количественных данных в том случае, когда распределение генеральной совокупности нельзя определить, так как выборка мала, либо когда распределение не следует

нормальному закону и параметрические методы не применимы.

В пакете STATISTICA непараметрические

Рис.4.1. Стартовая панель модуля Nonpametrics/Distrib

процедуры выполняются в модуле

Nonpametrics/Distrib. Стартовая панель модуля приведена на рис.4.1.

Опишем последовательно соответствующие методы

иприведем примеры выполнения процедур.

Вмодуле Nonpametrics/Distrib содержится большое количество процедур. При решении конкретной задачи необходимо выбрать определенный метод. Помощь в таком выборе может оказать следующая классификация непараметрических методов, используемых для проверки гипотезы о том, что анализируемые данные - это выборки из однородных генеральных совокупностей. Заметим, что понятие однородности генеральных совокупностей понимается достаточно широко: это могут быть генеральные совокупности, имеющие одну и ту же

функцию распределения, либо совокупности, у которых совпадают характеристики положения (средние, медианы) и/или характеристики разброса (дисперсии).

Первым критерием для выбора метода является вид шкалы, в которой представлены исходные данные.

Вторым критерием является вид выборок (независимые или связанные) и их количество.

Поясним понятие связанной выборки. Если над каждым из n объектов или индивидуумов проводятся два наблюдения: одно до, а другое после некоторого воздействия (приема лекарства, обучения, рекламной компании, обработки тем или иным способом и т.д.), то результаты наблюдений представляют две связанные (зависимые) выборки объемом n. В случае если каждый из n объектов подвергается k воздействиям, то результаты наблюдений представляют k связанных выборок объема n. Например, множество оценок, проставленных k судьями каждому из n спортсменов - это k связанных выборок объемом n, измеренных в порядковой шкале. Итак, рассматриваемые ниже непараметрические методы можно классифицировать следующим образом.

1. Исходные данные: две независимые выборки

объемов n1 и n2.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1)критерий серий Вальда - Вольфовица;

2)критерий Манна - Уитни;

3)двухвыборочный критерий Колмогорова - Смирнова;

4) меры статистической зависимости: ранговый коэффициент корреляции Спирмена, коэффициент корреляции τ Кендалла.

2. Исходные данные: k независимых выборок объемами

n1, n2, …, nk.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1)однофакторный дисперсионный анализ Краскела

-Уоллиса.

2)медианный критерий.

3.Исходные данные: две связанные выборки объемами n.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1) критерий знаков;

2) критерий Вилкоксона.

4.Исходные данные: k связанных выборок объемами n.

Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.

Методы:

1) однофакторный анализ Фридмана;

2) меры связи - коэффициент конкордации Кендалла.

5. Связанные выборки, измеряемые в номинальной шкале.

5а) Исходные данные: две связанные выборки объемов n переменных X и Y, каждая из которых

принимает	два	значения	(0,1;	+,	-;
и т.д.).

Проверяемая гипотеза H0: эффект воздействия отсутствует.

Метод: критерий Макнимара.

5б) Исходные данные: две связанные выборки объемов n переменных X1, X2, ..., Xk, каждая из которых принимает два значения.

Проверяемая гипотеза H0: эффект воздействия отсутствует.

Метод: критерий Кокрена.

6. Независимые выборки, измеряемые в номинальной шкале.

6а) Исходные данные: выборки двух случайных переменных

Xи Y, каждая из которых принимает два значения.

Проверяемая гипотеза H0: X и Y независимы. Метод: анализ таблицы сопряженности 2× 2

(точный критерий Фишера, критерий χ2 ).

6б) Исходные данные: выборки k случайных переменных, каждая из которых принимает r значений.

Проверяемая гипотеза H0: выборки получены из одной генеральной совокупности.

Метод: анализ таблицы сопряженности k × r (критерий χ2 ). Анализ таких таблиц проводится в

модуле	Basic	Stat	and	Tables,	опция
Tables and banners.

4.1. Таблицы сопряженности 2 × 2, статистики χ2, φ, критерий Макнимара, точный критерий Фишера (2 × 2 Tables

Xi/Vi/Phi, McNemar, Fisher exact)

В таблице сопряженности 2× 2 записываются частоты для двух случайных переменных X и Y, каждая из которых принимает два значения: 0 и 1, "да" и "нет" и т.д.

Пример 4.1. Чтобы определить отношение телезрителей разного пола к телевизионной передаче опросили 60 человек: 35 мужчин и 25 женщин. Оказалось, что 25 мужчин одобряют, а 10 - не одобряют передачу. В то же время 16 женщин высказывают свое отрицательное отношение к передаче, а 9 - положительное.

Выяснить, зависит ли отношение к передаче от пола телезрителей.

Решение. Данные можно записать в виде таблицы сопряженности 2× 2 :

Пол	Отношение к передаче
Пол	За		Против
	За		Против
Мужчины	25		10
Женщины	9	16

Формально задача состоит в определении независимости двух рассматриваемых признаков X (пол) и Y (отношение к передаче) или в проверке нулевой гипотезы H0: отношение к передаче не зависит

от пола при альтернативной гипотезе Н1 : отношение к

передаче зависит от пола.

Эквивалентная формулировка такова. Рассмотрим две выборки: 35 мужчин и 25 женщин. Проверяется нулевая гипотеза H0: доля мужчин, одобряющих передачу ( р1 ), равна доле женщин, одобряющих

передачу ( р2 ), при альтернативной гипотезе Н1 : доли

мужчин и женщин, одобряющих передачу не равны. Нулевая гипотеза есть гипотеза о равенстве параметров р1 и р2 двух генеральных совокупностей, имеющих

биноминальное распределение.

Для проверки гипотезы H0 применяется критерий Фишера, позволяющий рассчитать точные значения вероятностей наблюдаемых результатов и результатов с более крайними распределениями (см. [14], с. 345). Односторонние (one-tailed) и двусторонние (twotailed) уровни значимости p для критерия Фишера (Fisher exact p) вычисляются и приводятся в таблице результатов выполнения процедуры для таблицы сопряженности 2× 2 .

При объеме выборки n ³ 30 менее трудоемкой процедурой является критерий χ2 . Чтобы пояснить

необходимые расчеты, запишем таблицу сопряженности 2× 2 в следующем виде:

Пол

Отношение к передаче

За

Против

Сумма по

строкам

Мужчины

n11 = a

n12

= b

n1* = a + b

Женщины

n21 = c

n22

= d

n2* = c + d

Сумма

по

n = a + c

n = b + d

n = a + b + c + d

столбцам

В рассматриваемом примере эта таблица имеет вид:

Пол			Отношение к передаче
Пол		За			Против		Сумма по
		За			Против		строкам
							строкам
Мужчины		25		10			35
Женщины		9		16		25
Сумма	по	34		26		60
столбцам
Статистика критерия c2			использует разности между

наблюдаемыми частотами a, b, c, d и ожидаемыми частотами a0 , b0 , c0 , d0 , вычисляемыми при условии, что гипотеза H0 верна:

a0 = (a + b) (a + c) = 35×34 » 19,83; n 60

b0 = (a + b)n(b + d ) = 3560× 26 » 15,17;

c0 = (c + d ) (a + c) = 25×34 » 14,17; n 60

d0 = (c + d )n(b + d ) = 2560× 26 » 10,83.

Выборочное значение статистики cв2 вычисляется по формуле:

(a -a

(b -b

(c -c

(d -d

n(ad -bc)2

(a +b)(c + d )(a +c)(b + d)

При n → ∞ статистика cв2 имеет распределение c2 с одной степенью свободы. Если ожидаемые частоты ≤ 5 , то выборочное значение статистики cв2 вычисляют с поправкой Йетса на непрерывность:

c2 = (

a - a0

- 0,5)2

+ (

b - b0

- 0,5)2

+ (

c - c0

- 0,5)2

+ (

d - d0

- 0,5)

ö2

nç ad - bc -

(a + b) (c + d ) (a + c)(b + d )

Гипотеза H0 принимается на уровне значимости α,

если c2 < c2

(1), где c2

(1)

- квантиль распределения c2

1−α

с одной степенью свободы порядка 1 – α.

Для

данного

примера

выборочное

значение

cв2 = 7,45 ,

с поправкой

Йетса cв2 = 6,08 .

Так

как

c0,952 (1) = 3,84

(проверьте,

используя

статистический

калькулятор!) и cв2 < 3,84 , то гипотеза H0 отклоняется: на

уровне

значимости

α = 0,05

следует

считать,

что

отношение к передаче зависит от пола.

Эти же результаты получим, введя данные в соответствующую процедуру пакета STATISTICA. Таблица результатов приведена на рис.4.2.

Рис.4.2. Результаты процедуры 2× 2 Tables…

Р-значения для статистики χ2 , статистики χ2 ,

скорректированной по Йетсу, и точного критерия Фишера для двусторонней проверки соответственно равны 0,0063; 0,0137 и 0,0087. Таким образом, на уровне значимости α = 0,05 гипотеза H0 отклоняется. В таблице результатов приводится мера связи между переменными

X и Y - коэффициент фи-квадрат (средний коэффициент сопряженности):

ϕ2 = χв2 = 0,124 . n

Значение ϕ2 изменяется от 0 (между переменными

нет зависимости) до 1 (между переменными имеется абсолютная зависимость, т.е. все частоты расположены на диагонали таблицы 2× 2 ).

Критерий значимости изменений Макнимара

применяется, если исходные данные - две связанные выборки. Над одним и тем же объектом или индивидуумом проводятся два наблюдения: одно до, другое после некоторого воздействия (приема лекарства, обучения, рекламной компании и т.д.).

Отрицательный результат или ответ обозначим минусом "–", а положительный - плюсом "+". Пример 4.2. 200 покупателей магазина бытовой

техники дали ответы на вопрос: "Хотите ли вы купить кухонный комбайн новой марки?" до и после того как им был показан рекламный ролик. Частоты ответов приведены в таблице 2× 2 в клетках a - d:

	До рекламы	После рекламы
	До рекламы	–	+
		–	+
+		a = 10	b = 71
	–	c = 74	d = 45

Показывают ли эти результаты, что просмотр рекламного ролика оказал эффективное воздействие на покупателей?

Решение. Очевидно, что эффективность воздействия определяется числом покупателей, изменивших свое мнение с "+" на "–" и с "–" на "+", т.е. частотами в клетках a и d. Задача состоит в проверке нулевой гипотезы H0: в генеральной совокупности доля р покупателей, изменивших ответ с "+" на "–", равна доле q покупателей, изменивших ответ с "–" на "+", или

проверке гипотезы H0: p = q = 12 , при альтернативной

гипотезе Н1: p ¹ q ¹ 12 .

Объем выборки n из биноминального распределения равен сумме частот в клетках a и d: n = a + d = 55. При n ³ 50 для проверки гипотезы H0

используется статистика c2 . Выборочное значение статистики cв2 вычисляется по формуле:

c2 = ( a - d -1)2 » 21,02 .

в a + d

Так

как

χв2

больше

квантили

распределения χ0,952 (1) = 3,84 , гипотеза H0 отклоняется на

уровне значимости α = 0,05. Таким образом, результаты свидетельствуют о том, что рекламный ролик оказал эффективное воздействие на покупателей.

При n < 50 для определения границ критической области нужно использовать накопленные значения

вероятностей биноминального распределения с р = 12 .

В пакете STATISTICA накопленные вероятности биноминального распределения вычисляются при помощи функции IBinom (x;0,5;n). Нажмите кнопку Functions в окне спецификации переменных. В появившемся диалоговом окне Function Wizard выберите нужную функцию биноминального распределения (рис.4.3): в окне Category выберите

Distributions, в окне Name выберите IBinom. Нажмите кнопку Insert. Функция биноминального распределения появится в окне спецификации переменной.

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2210 11 12 13 14 15 16 17 18 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019386.56 Кб1Voprosy_dlya_4_kurs_8_semestr.doc
#
22.11.201970.14 Кб2Voprosy_Informatika.doc
#
05.06.2015197.12 Кб4Voprosy_k_rubezhnomu_kontrolyu_-_informatika.doc
#
22.09.201974.36 Кб3voprosy_po_biletamshpory_-_kopia.docx
#
16.04.2019582.6 Кб1Vtoraya_chast.docx
#
05.06.20152.12 Mб138VUKOLOV2.pdf
#
25.09.2019508.93 Кб3v_lapkinx2cx20v_pantin_94_3.doc
#
27.03.20162.06 Mб277XAXANINA.pdf
#
05.06.20155.29 Mб242Yuryeva_M_V_Tsvetovedenie (без защиты).pdf
#
05.06.2015273.6 Кб22Zadachi_po_fizike.pdf
#
19.07.201935.4 Кб10Zadanie_dlya_studentov.docx