Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТЕОРИЯ ВЕРОЯТНОСТИ 2014 / компьютерное моделирование с помощью Excell.doc
Скачиваний:
233
Добавлен:
15.02.2016
Размер:
3.37 Mб
Скачать

6. Проверка статистических гипотез

6.1. Принцип решения задач проверки статистических гипотез

Статистическая гипотеза – это предположение (суждение) о генеральной совокупности – ее распределении или параметрах, подвергаемое проверке по выборке, в результате которой она принимается или отвергается. Формулировка гипотезы должна исходит из возможности использования известных законов распределения.

Сущность проверки статистических гипотез заключается в том, чтобы установит, согласуются или нет данные наблюдений и выдвинутая гипотеза. Можно ли расхождение между гипотезой и результатами выборочных наблюдений отнести за счет случайной погрешности, обусловленной механизмом случайного отбора.?

Выдвигаемая гипотеза называется нулевой и обозначается , а противоречащая ей называется альтернативной гипотезой и обозначается.

Методика доказательства статистических гипотез разрабатывается в теории проверки статистических гипотез, основные принципы которой сформулированы известными математиками Е. Нейманом и Э. Пирсоном. В основе методики (схемы) доказательства лежит расчет некоторых статистических величин, которые называются критериями проверки статистических гипотез. Таким образом, при проверке статистических гипотез мы используем готовые схемы проверки гипотез или приводим задачу к виду, позволяющему воспользоваться готовой схемой.

Критерии проверки статистических гипотез– это показатели, вычисляемые на основании фактических наблюдений, позволяющие сделать вывод о принятии или опровержении проверяемой гипотезы. Значение критерия является случайной величиной, та как вычисляется на основе результатов выборочного наблюдения. Это например,t- критерий Стьюдента,F– критерий Фишера, хи – квадрат Пирсона () и другие.

Решение о принятии или отклонении нулевой гипотезы формулируется на основе выборки и зависит от значения статистического критерия. Множество возможных значений статистического критерия можно разделить на два непересекающихся подмножества и,. Проверяемая нулевая гипотезадолжна быть отвергнута, если фактическое значение критерия(рассчитанное по данным выборки) принадлежит подмножеству. Подмножествоназывается критической областью. Подмножествоназывается областью принятия гипотезы. Критическая область может быть двухсторонней или односторонней (левосторонней или правосторонней) рис. 6.1 – рис.6.3. Точки, разделяющие две области, называются критическими точками.

Проверка статистической гипотезы не является исчерпывающим доказательством ее верности или неверности. Ее принятие означает лишь ее непротиворечивость имеющимся фактическим (выборочным) данным. Степень уверенности в принятии гипотезы может быть определена через вероятности совершения ошибок. Ошибки, возникающие при проверке статистических гипотез, могут быть двух видов: ошибки первого рода и ошибки второго рода.

Рис. 6.1. Двухсторонняя критическая область

Рис. 6.2. Правосторонняякритическая область

Рис. 6.3. Левостороняя критическая область

6.2. Сглаживание эмпирических данных теоретической функцией плотности ()

Часто выборочный частотный ряд оказывается очень близким к какому-либо известному теоретическому закону распределения. Кроме того, отдельные методы анализа данных требуют того, чтобы данные подчинялись определенному закону распределения. В этих случаях возникает необходимость решения задачи проверки согласованности данных с теоретическим законом распределения. Критерии проверки статистических гипотез о согласованности данных с теоретическим законом распределения называются критериями согласия. Одним из самых распространенных критериев согласия является критерий согласия К. Пирсона (или - “хи квадрат”). В качестве меры расхождения теоретического и выборочного законов распределения в критерии принята взвешенная сумма квадратов отклонений соответствующих частотных рядов:

, (6.1)

где - теоретические вероятности попадания случайной величины в заданные интервалы ;

- частоты выборочного частотного ряда ;

k– количество интервалов частотного ряда;

n– объем выборки.

Рис. 6.4. Соотношение выборочного и теоретического частотных рядов: а) выборочная частота; б) – теоретическая частота

В теории доказывается, что если частотные ряды отличаются не значимо, то статистика (6.1) распределена по закону с степенями свободы, гдеk– количество интервалов,t– число связей (параметров, рассчитанных по выборке). Функция плотности имеет вид рис. 6.5. Проверка статистической гипотезы производится для правосторонней критической области. Уровень значимости обычно выбирают равным 0, 05.

Рис. 6.5. Функция плотности распределения

Рассмотрим примеры проверки статистических гипотез о согласованности данных теоретическим законам распределения. Для этого будем использовать данные и результаты расчетов, приведенные в параграфе 3.2. Скопируем данные и таблицы выборочных частотных рядов на новый лист EXCEL (рис. 6.6 и рис. 6.7).

Рис. 6.6. Таблица данных

Рис. 6.7. Результаты предварительного анализа данных

Данные, приведенные в таблице данных на рис. 6.6 были получены путем моделирования. Признаки моделировались, как выборки из равномерных распределений, а признаки , как выборки из нормальных распределений. Проверим статистические гипотезы о том действительно ли модельные данные согласуются с теоретическими законами распределения (равномерным и нормальным), то есть, правильно ли мы решили задачу моделирования.

Рассчитаем теоретические частоты для равномерного распределения. Частоты теоретического частотного ряда по всем пяти интервалам (рис. 6.8).

Рис. 6.8. Теоретические вероятности равномерного распределения

Расчеты выборочных значений критерия для признаковприведены на рис. 6.9. В последнем столбце таблицы на рис. 6.9 содержатся критические значения критерия при степенях свободы .

Рис. 6.9. Расчет выборочных значений критерия для равномерных распределений

По результатам сравнения выборочных и критических значений критерия , приведенных на рис. 6.9 можно сделать вывод, что признакине согласуются с гипотезой о равномерном распределении, а выборочные данные признакасогласуются с гипотезой о равномерном распределении. Гистограммы, построенные по данным выборок признаков, так же подтверждают сделанный вывод. Совпадение результатов расчетов выборочных значений критерия для признаковне случайно. Признакбыл получен путем линейного преобразования признака.

Рассмотрим расчеты, произведенные для проверки гипотезы нормальности выборок признаков . Расчет теоретических частот приведем на примере признака . Теоретические частоты для нормального распределения производятся с помощью функции EXCEL НОРМРАСП. Функция НОРМРАСП позволяет рассчитать интеграл нормального распределения Рис. 6.10. Интерфейс функции НОРМРАСП приведен на рис. 6.11.

Рис. 6.10. Интегральная функция НОРМРАСП

Рис. 6.11. Ввод параметров функции НОРМРАСП

Расчет теоретических частот нормального распределения по интервалам производится в два шага. На первом шаге рассчитываются интегральные функции по правым границам интервалов. Последняя граница берется равной бесконечности и соответственно интеграл равен 1 (рис. 6.12). В числе параметров функции НОРМРАСП вводятся средние значения и среднеквадратичные значения, рассчитываемы по выборочным данным (рис. 6.7).

Рис. 6.12. Таблица накапливаемых частот нормальных функций распределения

На втором шаге рассчитываются вероятности попадания нормальных случайных величин с заданными параметрами на интервалы, построенные для частотных рядов выборочных данных. Вероятности рассчитываются как разности двух последовательных накапливаемых интегралов (рис.6.13).

Рис. 6.13. Таблица накапливаемых частот нормальных функций распределения

Рис. 6.14. Расчет выборочных значений критерия для нормальных распределений