Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторные / Лабораторная работа 5.doc
Скачиваний:
41
Добавлен:
28.06.2014
Размер:
231.94 Кб
Скачать

4. Примеры проверки простой гипотезы о распределении

Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением (файл с выборкой назовем, например, Chisqr). В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.

Таблица 2. Исходные данные.

№ варианта

1

2

3

4

5

6

Распределение

Объем

R[0,5]

130

N(10,22=4)

140

E(3)

140

Bi(10, 0.5)

160

Po(15)

130

beta(1,1)

140

№ варианта

7

8

9

10

11

12

Распределение

Объем

R[0,10]

130

N(15,32=9)

160

E(5)

130

Bi(15,0.3)

140

Po(20)

150

beta(2,2)

160

№ варианта

13

14

15

Распределение

Объем

R[-1,1]

130

N(0,1)

140

E(1)

150

Выполнение в пакете STATISTICA

Выполнение аналогично предыдущему.

Отличия от предыдущего: 1) в окне Fitting Continuous Distribution нужно ввести значения параметров распределения (вместо их оценок) и, возможно, поправить параметры группировки; 2) приводимый результат для уровня значимости р не соответствует рассматриваемому случаю, так как число степеней свободы d.f. должно быть равным m -1; пакет же указывает с учетом числа оцениваемых параметров. Нужное значение для р получим в модуле Basic Statistics and Tables в Probability calculator.

Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами [2]. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.

Таблица 3. Частоты видов семян.

Семена

Наблюдаемая

частота, ni

Теоретическая

вероятность, pi

Круглые и желтые

Морщинистые и желтые

Круглые и зеленые

Морщинистые и зеленые

315

101

108

32

9/16

3/16

3/16

1/16

Сумма

n= 556

Формула (1) дает X2 = 0.47. При числе степеней свободы m-1 = 3

P{ ³0.47 } = 0.92,

так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости a£ 0.92 не отвергал бы эту гипотезу .

Выполнение в пакете STATISTICA

Выполнить самостоятельно. Воспользоваться операциями со столбцами или процедурой Observed versus expected (наблюдаемые частоты против ожидаемых).

5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)

Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A1, ...,Am, а признак Вk уровней:B1, ...,Bk . Пусть уровень Аi встречается с вероятностью P(Ai), а уровень Bj - c вероятностью P(Bj). Признаки А и В независимы, если

P(Ai Bj) = P(Ai)×P(Bj), i = 1, ..., m, j = 1, ..., k , (10)

т.е. вероятность встретить комбинацию Ai Bj равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; nij - число объектов, имеющих комбинацию Ai Bj, =n. По совокупности наблюдений {nij } (таблица m´ k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности

P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,

всего (m-1) + (k-1); их оценки:

,

(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:

. (11)

Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы

f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),

и потому, если

, (12)

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.

Пример 4. Данные [2], собранные по ряду школ, относительно физических недостатков школьников (P1,P2,P3 - признак А)и дефектов речи (S1,S2,S3 - признак В) приведены в таблице 4. В таблице 5 даны частоты.

Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f =(3-1)´(3-1) = 4; минимальный уровень значимости

;

это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.

Выполнение в пакете STATISTICA

Образуем таблицу с двумя столбцами (P и S) и 217 строками и назовем ее Defects.sta (это действие опускаем, если данные уже есть в компьютере). Работаем в модуле Basic Statistics and Tables:

Analysis - Tables and banners - в окне Specify Table, в поле Analysis: Crosstabulation tables - кнопка Specify Table - отбираем признаки: list 1: P, list 2: S - OK - OK - в окне Crosstabulation Tables Results (результаты таблиц сопряженности) отмечаем (потребуем определить) Expected frequencies (ожидаемые или теоретические частоты) и Pearson Chi-Square - Review Summary tables.

Таблица 4.

Дефекты речи (S) и физические недостатки (P) 217 школьников

P

S

P

S

P

S

P

S

P

S

P

S

P

S

P

S

P

S

1

P1

S1

P1

S1

P3

S2

P2

S2

P1

S3

P1

S1

P1

S1

P2

S1

P3

S3

2

P2

S3

P2

S2

P1

S3

P1

S1

P2

S2

P2

S1

P2

S2

P3

S3

P1

S1

3

P1

S1

P2

S3

P1

S2

P1

S1

P2

S2

P2

S2

P1

S3

P3

S2

P2

S3

4

P1

S2

P2

S3

P3

S1

P2

S1

P2

S2

P3

S3

P1

S1

P2

S1

P1

S3

5

P1

S1

P2

S1

P2

S1

P1

S1

P1

S1

P2

S1

P2

S2

P2

S3

P2

S2

6

P3

S1

P1

S2

P3

S3

P2

S2

P1

S3

P1

S1

P2

S3

P1

S1

P2

S1

7

P1

S1

P2

S3

P1

S2

P2

S2

P2

S1

P1

S2

P1

S3

P2

S3

P1

S1

8

P1

S2

P1

S1

P2

S3

P1

S2

P2

S2

P1

S3

P2

S2

P2

S2

P3

S3

9

P2

S2

P2

S1

P1

S2

P1

S1

P2

S2

P2

S3

P2

S3

P1

S2

P2

S1

10

P2

S2

P2

S1

P2

S2

P1

S3

P3

S3

P1

S1

P1

S3

P2

S2

P2

S2

11

P2

S2

P2

S1

P1

S2

P1

S2

P2

S1

P1

S1

P1

S3

P1

S2

P1

S1

12

P1

S2

P2

S2

P1

S2

P2

S2

P1

S1

P1

S1

P1

S1

P2

S3

P2

S1

13

P1

S1

P3

S3

P2

S2

P2

S2

P2

S2

P2

S1

P2

S3

P2

S2

P2

S2

14

P2

S3

P1

S1

P2

S3

P2

S1

P2

S1

P1

S2

P2

S1

P1

S2

P3

S3

15

P2

S1

P1

S1

P3

S2

P2

S2

P1

S1

P2

S2

P3

S2

P2

S2

P1

S2

16

P2

S1

P2

S1

P1

S2

P2

S1

P2

S2

P3

S3

P2

S2

P2

S3

P3

S3

17

P3

S2

P1

S1

P2

S2

P3

S3

P1

S1

P2

S1

P2

S2

P1

S1

P1

S2

18

P1

S1

P2

S2

P1

S1

P3

S2

P3

S3

P2

S2

P1

S2

P1

S2

19

P1

S2

P3

S3

P2

S1

P1

S1

P1

S1

P2

S2

P1

S1

P1

S1

20

P3

S3

P3

S3

P1

S1

P1

S1

P3

S2

P1

S1

P1

S1

P2

S1

21

P2

S2

P2

S1

P2

S3

P3

S2

P2

S2

P1

S2

P2

S1

P2

S2

22

P1

S3

P1

S1

P2

S2

P2

S2

P3

S1

P2

S2

P2

S3

P1

S1

23

P2

S3

P2

S2

P3

S3

P3

S3

P1

S1

P2

S1

P1

S1

P2

S1

24

P3

S2

P2

S2

P2

S3

P1

S3

P2

S2

P3

S2

P2

S2

P1

S2

25

P3

S1

P2

S3

P2

S1

P1

S2

P2

S2

P1

S2

P2

S1

P2

S2

Таблица 5. Таблица частот.

S1 S2 S3

Сумма

P1

P2

P3

45 26 12

32 50 21

4 10 17

83

103

31

Сумма

81 86 50

217

Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (11) (Chi-square), число степеней свободы df и уровень значимости р (вероятность в (12)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических отклоняется.

Замечание 1. Если бы исходные признаки Х, Y,... были не символьными, а числовыми, нужно было бы сначала их классифицировать: разбить диапазон значений на части, и для каждой ввести свой символ (например, х1,х2, ...,y1, y2, ...) введением дополнительных столбцов и использованием операции Recode... (кнопка Vars или Edit - Variables).

Замечание 2. Если бы исходными данными являлась таблица частот, то анализ можно было провести в модуле Log - Linear Analysis (как в п.6).