Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика.docx
Скачиваний:
28
Добавлен:
19.04.2015
Размер:
583.94 Кб
Скачать

Задачи для самостоятельного решения:

15.1 Для исходных данных задачи 14.1 найдите:

1) несмещённые точечные оценки средних значений признаков и; 2) интервальные оценки средних значений признаковис заданной надёжностью, если объём выборкиn = 50.

15.2 Ниже приведены результаты измерения роста (в см) случайно отобранных 100 студентов:

рост

[154 – 158)

[158 -162)

[162 -166)

[166 -170)

[170 -174)

[174 -178)

[178 -180]

число

студентов

10

14

26

28

12

8

2

Найдите выборочную среднюю и выборочную дисперсию роста обследованных студентов.

15.3 Найдите доверительный интервал для оценки с надёжностью 0,95 неизвестного математического ожидания нормально распределённого признакагенеральной совокупности, если генеральное среднее квадратическое отклонение, выборочная средняяи объём выборкиn = 25.

15.4 Производятся независимые испытания с одинаковой, но неизвестной вероятностью появления события в каждом испытании. Найдите доверительный интервал с надёжностью0,95 для оценки , если в60 испытаниях событие появилось 15 раз.

15.5 Произведено 300 испытаний, в каждом из которых неизвестная вероятность появления события постоянна. Интересующее нас событие появилось в250-ти испытаниях. Найдите доверительный интервал с надёжностью 0,95 для оценки неизвестной вероятности появления события.

15.6 По данным девяти независимых равноточных измерений некоторой физической величины найдены: среднее арифметическое результатов измерений и «исправленное» среднее квадратическое отклонение=6. Оцените истинное значение измеряемой величины с помощью доверительного интервала с надёжностью 0,95. Предполагается, что результаты измерений распределены нормально.

Ответы:

15.1 5,894<<7,706.15.2 =166;=33,44.15.3 12,0415,96. 15.4 0,160,37.15.5 0,7050,795.15.6 25,3834,82.

Тема 3: статистическая проверка гипотез

Статистическая проверка гипотез используется всякий раз, когда необходим обоснованный вывод о преимуществах того или иного способа лечения, или способа инвестиций, измерений, стрельбы, технологического процесса, об эффективности нового метода обучения, управления, о пользе вносимого удобрения, лекарства, об уровне доходности ценных бумаг, о значимости математической модели и т.д.

Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы.

Простой называют гипотезу, содержащую только одно предположение. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез. Простая гипотеза, в отличие от сложной, полностью определяет теоретическую функцию распределения случайной величины. Например, гипотезы «вероятность появления события в схеме Бернулли равна 1/2», «закон распределения случайной величины – нормальный с параметрами » - являются простыми, а гипотезы «вероятность появления события в схеме Бернулли заключена между 0,3 и 0,6», «закон распределения не является нормальным» - сложными.

Проверяемую гипотезу обычно называют нулевой и обозначают . Наряду с нулевой гипотезойрассматриваютальтернативную, или конкурирующую, гипотезу , являющуюся логическим отрицанием. Нулевая и альтернативная гипотезы представляют собой две возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) , полученная по выборке, точное или приближённое распределение которой известно. Затем по этому выборочному распределению определяется критическое значение- такое, что если гипотезаверна, то вероятностьмала; так, что в соответствии с принципом практической уверенности в условиях данного исследования событиеможно (с некоторым риском) считать практически невозможным. Поэтому, если в данном конкретном случае обнаруживается, гипотезаотвергается, в то время как появление значениясчитается не противоречащим нулевой гипотезе. Правило, по которому гипотезаотвергается или не отклоняется, называетсястатистическим критерием.

Таким образом, множество возможных значений статистики критерия разбивается на два непересекающихся подмножества:критическую область иобласть допустимых значений . Если фактически наблюдаемое значение статистики критерия попадает в критическую область, то гипотезуотвергают. При этом возможны четыре случая:

гипотеза

не отвергается

отвергается

верна

правильное решение

ошибка 1-го рода

не верна

ошибка 2-го рода

правильное решение

Вероятность допустить ошибку1-го рода: называетсяуровнем значимости критерия.

Вероятность допустить ошибку 2-го рода: . Вероятность не допустить ошибку 2-го роданазываетсямощностью критерия.

Пользуясь терминологией статистического контроля качества продукции, можно сказать, что вероятность представляет «риск поставщика», связанный с забраковкой по результатам выборочного контроля изделий всей партии, удовлетворяющей стандарту; а вероятность- «риск потребителя», связанный с принятием по анализу выборки партии, не удовлетворяющей стандарту.

По своему прикладному содержанию статистические гипотезы можно подразделить на несколько основных типов:

  • о равенстве числовых характеристик генеральных совокупностей;

  • о числовых значениях параметров;

  • о законе распределения;

  • об однородности выборок.

Проверка гипотезы об однородности двух биномиальных выборок достаточно больших объемов ипо относительным частотамисоответственно означает проверку основной гипотезы:против альтернативной:. Для этого вычисляется эмпирическое значение статистики:

,

где - наилучшая оценка вероятности, равная выборочной доле признака, если две выборки смешать в одну

Если уровень значимости 0,05, то при 1,96 основная гипотеза отвергается (это означает неоднородность рас-сматриваемых выборок).

Пример 16.1 Контрольную работу по теории вероятностей по индивидуальным вариантам выполняли студенты двух групп второго курса. В первой группе было предложено 105 задач, из которых верно решено 60, во второй группе из 140 предложенных задач верно решено 69. На уровне значимости 0,05 проверить гипотезу об отсутствии существенных различий в усвоении учебного материала студентами этих групп.

Решение: Основная гипотеза , т.е. доли решённых задач студентами первой и второй групп равны. Альтернативная гипотеза:.

Вычислим . Выборочные доли решённых задач для каждой группы:и.

Эмпирическое значение статистики:

. При уровне значимости 0,05 неравенство 1,96 не выполняется (1,21<1,96) => данные не противоречат гипотезе об одинаковом усвоении учебного материала студентами обеих групп.

Для проверки гипотезы о равенстве математических ожиданий :=двух выборокиобъёмовипротив альтернативной гипотезы:можно использоватькритерий Крамера-Уэлча: рассчитывается эмпирическое значение критерия:

,

где и- известные дисперсии изучаемых случайных величин.

Если уровень значимости 0,05, то при 1,96 основная гипотеза отклоняется.

Пример 16.2 Для проверки эффективности новой технологии отобраны две группы рабочих: в первой группе численностью человек, где применялась новая технология, средняя выборочная выработка составилаизделий, во второй группе численностьючеловек выборочная средняя -изделий. Предварительно установлено, что дисперсии выработки в группах равны соответственнои. На уровне значимостивыяснить влияние новой технологии на среднюю производительность.

Решение: Проверяемая гипотеза :=, т.е. средние выработки рабочих одинаковы по новой и старой технологиям. В качестве конкурирующей гипотезы можно взять:.

Рассчитаем фактическое (эмпирическое) значение критерия:

.

Так как 1,96 => основная гипотеза отвергается на 5%-ном уровне значимости. Значит, новая технология влияет на величину средней выработки рабочих.

Проверка соответствия распределения случайной признака нормальному закону распределения может быть произведена приближенно с помощью исследования показателей асимметрии и эксцесса.

При нормальном распределении показатели асимметрии и эксцессанекоторой генеральной совокупности равны нулю. Предположим, что наблюдаемые значения признакапредставляют собой выборку из генеральной совокупности, поэтому можно определить только выборочные характеристики асимметрии и эксцесса и их ошибки:

, ,

, ,

где - выборочная характеристика асимметрии,- выборочная характеристика эксцесса,и- соответствующие средние квадратические ошибки.

Если одновременно выполняются следующие неравенства:

и ,

то нет оснований для отклонения основной гипотезы о нормальном характере распределения случайного признака .

Если выполняется хотя бы одно из неравенств:

либо ,

то гипотеза о нормальном характере распределения отвергается.

Пример 16.3 Измерения 100 обработанных деталей дали следующие отклонения от номинального размера:

-2

2

1

2

-1

-2

3

1

-1

0

0

-1

3

1

2

-3

1

0

1

1

0

1

-1

1

0

2

2

1

0

-1

1

1

4

-1

1

1

-1

0

2

-2

2

0

-2

0

0

-1

1

4

-2

1

-3

0

0

1

4

0

-2

2

1

2

-1

1

0

-1

0

3

1

-2

3

-1

1

2

2

0

-2

1

0

-1

0

3

3

-2

-1

-2

1

0

0

-3

1

0

2

1

0

3

-1

2

1

0

-1

0

Проверьте гипотезу о нормальности распределения.

Решение: Для того чтобы получить выборочные характеристики асимметрии и эксцесса, воспользуемся электронными таблицами Excel («вручную обрабатывать большой массив информации слишком трудоёмко). Сначала нужно ввести исходные данные в виде столбца или строки в Excel. Затем порядок действий следующий: Сервис / Анализ данных / Описательная статистика; после ввода данных и параметров вывода, щёлкнув по кнопке OK, получаем таблицу с точечными оценками математического ожидания, дисперсии, моды, медианы, коэффициентов асимметрии и эксцесса, минимальную и максимальную величину наблюдаемых значений признака, размах варьирования:

Среднее

0,4

Стандартная ошибка

0,16

Медиана

0

Мода

1

Стандартное отклонение

1,6

Дисперсия выборки

2,57

Эксцесс

-0,32

Асимметричность

0,06

Интервал

7

Минимум

-3

Максимум

4

Сумма

40

Счет

100

Итак, и. Вычислим по приближённым формулам их средние квадратические отклонения:

и .

Проверим выполняются ли неравенства:

- выполняется;

- верно.

Следовательно, нет оснований для отклонения основной гипотезы о нормальном характере распределения случайного признака.

Для проверки однородности функций распределений двух выборок используется критерий Вилкоксона. Все элементы объединенной выборки ранжируются в порядке возрастания. Элементы первой выборкизанимают в общем вариационном ряду места с номерами, другими словами, имеют ранги. Тогда статистика Вилкоксона – это сумма рангов элементов первой вы-борки:

.

Эмпирическое значение нормированной и центрированной статистики Вилкоксона рассчитывается по формуле:

.

При уровне значимости гипотеза однородности отклоняется, если1,96.

Исключение грубых ошибок наблюдений. Грубые ошибки могут возникнуть из-за ошибок показаний измерительных приборов, ошибок регистрации, случайного сдвига запятой в десятичной записи числа и т.д. Пусть - совокупность имеющихся наблюдений, причёмрезко выделяется. Необходимо выяснить, является ли это значение наблюдаемого признака грубой ошибкой или нет. Для этого рассчитывают среднюю выборочнуюпо наблюдениями исправленное среднее квадратическое отклонение. Необходимо проверить гипотезуо принадлежностик остальным наблюдениям против конкурирующей(или). Вычисляют эмпирическое значениеи сравнивают его с критическим значением статистики.

Если конкурирующая гипотеза имеет вид (или), то выбирают одностороннюю критическую область и кри-

тическое значение статистики находят из условия: .

Если , то основная гипотеза отклоняется.

При уровне значимости для односторонней критической области таблица критических значений приводится ниже:

5

6

7

8

9

10

11

12

13

14

2,01

1,94

1,89

1,86

1,83

1,81

1,80

1,78

1,77

1,76

15

16

17

18

19

20

21

22

23

24

1,75

1,75

1,74

1,73

1,73

1,72

1,72

1,72

1,71

1,71

25

26

27

28

29

30

40

60

120

1,71

1,71

1,70

1,70

1,70

1,70

1,68

1,67

1,66

1,64

Пример 16.5 Имеются следующие данные об урожайности пшеницы на 8 опытных участках одинакового размера (ц/га):

26,5; 26,2; 35,9; 30,1; 32,3; 29,3; 26,1; 25,0. Есть основание предполагать, что значение урожайности третьего участка зарегистрировано неверно. Является ли это значение аномальным (резко выделяющимся) на 5%-ном уровне значимости?

Решение: Исключив значение , найдём для оставшихся наблюдений(ц/га) и(ц/га). Эмпирическое значение критерия, а табличное. Так как

, то основная гипотеза отклоняется, т.е. значение является аномальным, и его следует отбросить.