Добавил:

Tushkan Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МЭИ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Лабораторные / Лабораторная работа 5.doc

Скачиваний:

Добавлен:

28.06.2014

Размер:

231.94 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

4. Примеры проверки простой гипотезы о распределении

Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением (файл с выборкой назовем, например, Chisqr). В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.

Таблица 2. Исходные данные.

№ варианта	1	2	3		4	5	6
Распределение Объем	R[0,5] 130	N(10,2²=4) 140	E(3) 140		Bi(10, 0.5) 160	Po(15) 130	beta(1,1) 140
№ варианта	7	8	9	10		11	12
Распределение Объем	R[0,10] 130	N(15,3²=9) 160	E(5) 130	Bi(15,0.3) 140		Po(20) 150	beta(2,2) 160
№ варианта	13	14	15
Распределение Объем	R[-1,1] 130	N(0,1) 140	E(1) 150

Выполнение в пакете STATISTICA

Выполнение аналогично предыдущему.

Отличия от предыдущего: 1) в окне Fitting Continuous Distribution нужно ввести значения параметров распределения (вместо их оценок) и, возможно, поправить параметры группировки; 2) приводимый результат для уровня значимости р не соответствует рассматриваемому случаю, так как число степеней свободы d.f. должно быть равным m -1; пакет же указывает с учетом числа оцениваемых параметров. Нужное значение для р получим в модуле Basic Statistics and Tables в Probability calculator.

Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами [2]. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.

Таблица 3. Частоты видов семян.

Семена

Наблюдаемая

частота, n_i

Теоретическая

вероятность, p_i

Круглые и желтые

Морщинистые и желтые

Круглые и зеленые

Морщинистые и зеленые

315

101

108

9/16

3/16

1/16

Сумма

n= 556

Формула (1) дает X² = 0.47. При числе степеней свободы m-1 = 3

P{³0.47 } = 0.92,

так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости a£ 0.92 не отвергал бы эту гипотезу .

Выполнение в пакете STATISTICA

Выполнить самостоятельно. Воспользоваться операциями со столбцами или процедурой Observed versus expected (наблюдаемые частоты против ожидаемых).

5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)

Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A₁, ...,A_m, а признак В–k уровней:B₁, ...,B_k . Пусть уровень А_i встречается с вероятностью P(A_i), а уровень B_j - c вероятностью P(B_j). Признаки А и В независимы, если

P(A_i B_j) = P(A_i)×P(B_j), i = 1, ..., m, j = 1, ..., k , (10)

т.е. вероятность встретить комбинацию A_i B_j равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; n_ij - число объектов, имеющих комбинацию A_i B_j, =n. По совокупности наблюдений {n_ij } (таблица m´ k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности

P(A_i), i = 1, ..., m; P(B_j), j = 1, ..., k,

всего (m-1) + (k-1); их оценки:

(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:

. (11)

Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы

f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),

и потому, если

, (12)

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.

Пример 4. Данные [2], собранные по ряду школ, относительно физических недостатков школьников (P₁,P₂,P₃ - признак А)и дефектов речи (S₁,S₂,S₃- признак В) приведены в таблице 4. В таблице 5 даны частоты.

Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f =(3-1)´(3-1) = 4; минимальный уровень значимости

;

это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.

Выполнение в пакете STATISTICA

Образуем таблицу с двумя столбцами (P и S) и 217 строками и назовем ее Defects.sta (это действие опускаем, если данные уже есть в компьютере). Работаем в модуле Basic Statistics and Tables:

Analysis - Tables and banners - в окне Specify Table, в поле Analysis: Crosstabulation tables - кнопка Specify Table - отбираем признаки: list 1: P, list 2: S - OK - OK - в окне Crosstabulation Tables Results (результаты таблиц сопряженности) отмечаем (потребуем определить) Expected frequencies (ожидаемые или теоретические частоты) и Pearson Chi-Square - Review Summary tables.

Таблица 4.

Дефекты речи (S) и физические недостатки (P) 217 школьников

Таблица 5. Таблица частот.

S₁ S₂ S₃

Сумма

P₁

P₂

P₃

45 26 12

32 50 21

4 10 17

103

Сумма

81 86 50

217

Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (11) (Chi-square), число степеней свободы df и уровень значимости р (вероятность в (12)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических отклоняется.

Замечание 1. Если бы исходные признаки Х, Y,... были не символьными, а числовыми, нужно было бы сначала их классифицировать: разбить диапазон значений на части, и для каждой ввести свой символ (например, х1,х2, ...,y1, y2, ...) введением дополнительных столбцов и использованием операции Recode... (кнопка Vars или Edit - Variables).

Замечание 2. Если бы исходными данными являлась таблица частот, то анализ можно было провести в модуле Log - Linear Analysis (как в п.6).

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке Лабораторные

#
28.06.2014773.12 Кб47Лабораторная работа 1.doc
#
28.06.2014222.72 Кб45Лабораторная работа 2.doc
#
28.06.2014260.1 Кб36Лабораторная работа 3.doc
#
28.06.2014392.7 Кб40Лабораторная работа 4.doc
#
28.06.2014231.94 Кб41Лабораторная работа 5.doc
#
28.06.2014212.48 Кб31Лабораторная работа 6.doc
#
28.06.2014392.19 Кб31Лабораторная работа 7.doc
#
28.06.2014535.55 Кб31Лабораторная работа 8.doc