Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
твмс Казаков 2010.doc
Скачиваний:
74
Добавлен:
29.05.2015
Размер:
3.28 Mб
Скачать

3.5 Отсев грубых ошибок и определение минимально

необходимого количества наблюдений

Исходные данные, получаемые в результате наблюдений, замеров или статистической отчетности, в силу разных причин, могут содержать грубые ошибки или аномальные наблюдения, которые должны быть исключены из выборочной совокупности. Наиболее простой метод отсева грубых ошибок при нормальном законе распределения -использованиеправила трех сигм,которое формулируется следующим образом: разброс случайных величин от их среднего значения не должен превышать 3 (трех среднеквадратичных отклонений). Алгоритм отсева грубых ошибок состоит в следующем.

1. По приведенным ранее формулам рассчитываются выборочные среднее и среднеквадратичное отклонение.

2. Вычисляются значения xminиxmaxпо формулам

, . (3.7)

3.Величины, находящиеся за пределами интервала (xmin,xmax) исключаются из выборочной совокупности как недостоверные или аномальные и обработка результатов наблюдений по определению, ,xmin, xmaxпроизводится повторно.

Задача 3. Выявить наличие грубых ошибок наблюдений в выборке, представленной рядом задачи 1.

Решение. Имеем

см., см.

Все данные выборки укладываются в интервал (158; 181), поэтомув ней нет грубых ошибочных наблюдений или аномалий.

Самостоятельная задача 4. Выявить наличие грубых ошибок наблюдений в выборке, представленной рядом (3.2).

Одной из задач статистической оценки параметров распределений является установление минимального, но достаточногочисла наблюдений Nmin.Для этого используется следующий алгоритм.

1. Задаются требуемая точность оценки параметров ∆, %и необходимая достоверность (надежность) их определения. Например: ∆=1,5%, γ=0,95.

2. Проводится предварительная обработка информации с небольшим количеством измеренийn, т. е. вычисляются выборочные значения среднегои среднеквадратичного отклонения .

3.По таблице 3.1 вычисляется величинаtγ(например, при γ=0,95; tγ= 1,96).

4.Величина Nmin,определяется по формуле

(3.8)

Задача 4. Определить минимально необходимое количество наблюдений Nmin для определения выборочного среднеговыборки (3.2) с надежностью γ=0,95 и точностью ∆=1,5%.

Решение.По формуле (3.8)получаем

Таким образом, видим, что объем приведенной выборки недостаточендля определения среднего значения с указанной точностью и надежностью.

Самостоятельная задача 5. Определить минимально необходимое количество наблюдений Nmin для определения выборочного среднеговыборки (13.8) с надежностью γ=0,9 и точностью ∆=1,5%.

3.6Проверка статистических гипотез

3.6.1 Общие понятия

При обработке результатов наблюдений часто возникает ряд задач, относящихся к проверке правильности выбранной статистической гипотезы. Это может быть, например, гипотеза о равенстве средних значений двух выборок, гипотеза о предполагаемом законе распределения случайной величины, об однородности двух совокупностей и др.

В ходе проверки статистических гипотез исследователь может столкнуться с возможностью допустить два вида ошибок:

  1. отвергнуть правильную гипотезу – это ошибка первого рода;

2) принять неверную гипотезу – это ошибка второго рода.

В практической статистике обычно решают первую группу задач – проверить правильность выдвинутой гипотезы, т. е. оценить вероятность ошибка первого рода. Построенные для этих целей критерии согласия (критерии проверки гипотез) при этом минимизируют вероятность ошибки второго рода. Такие критерии мы и будем рассматривать в дальнейшем.

Для проверки гипотез необходимо знать контрольную величину функции Тот рассматриваемой выборки, меньше значения которой гипотеза будет считаться неверной.

Эта величина определяется, исходя из максимально допустимой вероятности (ошибки) α отвергнуть правильную гипотезу – критерия согласияили необходимой «надежности»Н0принятия гипотезы. Для обычной гипотезыН0= 0,9, для «осторожной» гипотезы – этоН0 = 0,95 или даже 0,99 и т.д. В соответствии со стандартными подходами, принятыми в теории статистических гипотез, мерой надежности являетсяуровень значимостипринятия гипотезы: величинаα = 1 – Н0. Обычно α=0,1; 0,05; 0,01 и т д.: чем меньшеа, тем «осторожнее» гипотеза.

Метод проверки статистической гипотезы состоит в следующем. Производится выборка, на основе которой вычисляется значение tконтрольной величины. Критерий принятия гипотезы описывается следующим условием: если

Р(t <Т/Н0верна) <α.

Далее проверим гипотезы о том, что:

- результаты наблюдений х1, х2, …,хnподчиняются некоторому теоретическому закону распределения (например, нормальному.);

- две выборки х1, х2, …, хnиу1, у2, …, ук имеют одинаковое среднее значениепри одинаковых среднеквадратичных отклонениях σх σу,т.е. принадлежат одной генеральной совокупности;

- две выборки х1, х2, …,хnиу1, у2, …, ук имеют одинаковое среднеквадратичные отклонения σх = σу .

3.6.2 Критерий Пирсона

Рассмотрим вначале первую задачу. Для проверки гипотезы о соответствии экспериментальных данных некоторому теоретическому закону распределения удобно использовать критерий К. Пирсона – критерийc2 (хи-квадрат). Он основан на анализе величины

c2 =, (3.9)

где i– число интервалов гистограммы или эмпирической плотности распределения;

mi число наблюдений, попавших вi - тый интервал эмпирической плотности распределения (xi-1 ; xi) (см., например, рисунок 3.3);

n– общее число наблюдений;

рi – вероятность попадания случайной величины в соответствующий интервал.

Рисунок 3.3 – Совмещение теоретической и эмпирической

плотности распределения

Геометрически критерий c2 можно интерпретировать как сумму относительных отклонений высот столбцов фактической гистограммы от расчетная плотности распределения. Числитель формулы (3.9) возведен в квадрат для того, чтобы к анализу принимались как положительные, так и отрицательные отклонения. Каждое из слагаемых в формуле (3.9) является отношением заштрихованной части столбца эмпирической функции распределения к его общей площади.

На рисунке 3.3 совмещены эмпирическая и расчетная плотности распределения случайной величины из рассмотренной нами ранее задачи(п.3.2).

Критическое значение критерия c2, при котором гипотеза принимается или отвергается обозначаютc20,05, илиc20,1и т.д., где индексы 0,05 и 0,1 – уровни значимости принятия гипотезы. Критические значенияc20,1 табулированы в зависимости отчисла степеней свободы c2-распределения, равных m=(lq1) таблица 3.3. Здесьlчисло интервалов гистограммы, q– число неизвестных параметров распределения.

Таблица 3.3 – Критические значения c20,1

M

2

4

6

8

10

12

14

c20,1

0,2

1,1

2,2

3,5

4,9

6,3

7,8

Для нормального закона распределения q =2 (неизвестны параметры, ), для экспонециального распределенияq = 1 (неизвестен параметрl), для равномерного распределенияqтоже равно 1.

Порядок использования критерия c2можно представить в виде следующего алгоритма.

1. Выдвигается гипотеза о законе распределения случайной величины х.

2. Вычисляются параметры распределения.

3. По формуле (3.9) вычисляется значение критерия c2.

4. Определяется число степеней свободы c2 – распределения.

5. Задается необходимый уровень значимости критерия Пирсона (0,05 или 0,1) и по таблице 3.3 определяются критические значения c20,05илиc20,1.

6. Гипотеза о заданном законе распределения принимается, если c2<c20,05(илиc2<c20,1), в противном случае гипотеза отвергается.

7. Если заранее не оговорено, что надежность принятия гипотезы допускает меньшее значение (например, 0,85 или 0,8), то она вычисляется (см. ниже).

Задача 2. По критерию Пирсона с уровнем значимости 0,1 (надежностью 0,9) проверить гипотезу о нормальном законе распределения случайной величиныxдля выборки (рисунок 3.3).

Решение.Вначале по формулам (3.3) или (3.4) рассчитываются среднее значение и среднеквадратичное отклонение. Они определены при решениизадачив п. 3.2 и равны, соответственно,см; см. Затем составляется таблица 3.4, графы которой будем заполнять последовательно.

Первые три графы таблицы заполняются в соответствии с гистограммой, приведенной на рисунке 3.3 применительно к решению задачи 1 раздела 3.2.

Таблица 3.4 – Расчет критерия c2 (Пирсона)

Интервал, см

mi

F (yi)

pi

n pi

0

До 156

0

-2,22

0,01

-

-

-

1

156-160

1

-1,59

0,05

0,05

0,8

0,05

2

160-164

2

-0,95

0,15

0,10

2,0

0

3

164-168

4

-0,31

0,35

0,20

4,0

0

4

168-172

6

0,31

0,65

0,30

6,0

0

5

172-176

3

0,95

0,85

0,20

4,0

0,25

6

176-180

2

1,59

0,95

0,10

2,0

0

7

180-184

2

2,22

0,99

0,42

0,8

1,8

Вычисляем соответствующие значения yi и помещаем их в четвертую графу таблицы:

…;

Заполняем пятую и шестую графы таблицы. Используем формулу

(3.10)

Здесь Ф(y) – функция нормированного нормального распределения. Её значение в зависимости оту приведены в таблице 3.5.

Таблица 3.5 – Значения функции Ф(y)

Y

-2

-1,75

-1,5

-1,25

-1,0

-0,75

-0,5

-0,25

0

Ф(y)

0,02

0,04

0,07

0,11

0,16

0,23

0,31

0,4

0,5

Y

0,25

0,5

0,75

1,0

1,25

1,5

1,75

2,0

2,25

Ф(y)

0,6

0,69

0,77

0,84

0,89

0,93

0,96

0,98

0,99

Значения Ф(y) приy>0 принимаются на основе формулыФ(–y) =0,5 – Ф(y). Далее находим

р1= 0,05 – 0,01 = 0,04; р2 = 0,15 – 0,05 = 0,10; р3 = 0,35 – 0,15 = 0,20; …; р6 = 0,95 – 0,85 = 0,10; р7= 0,99 – 0,95 = 0,04.

Получившиеся значения умножаем на объем выборки n= 20 и помещаем в седьмую графу таблицы 3.4. Теперь вычислим каждое из слагаемых критерия – см. формулу (3.9):

0; 0,25;

Окончательно получаем = 0,05 + 0,25 + 1,8= 2,1.

По таблице 3.3 для числа степеней свободы k= 7 –2 – 1 = 4 критическое значение равно 1,1. Так как 2,1>1,1, тогипотезао нормальном законе распределения случайной величины с указанным уровнем значимостиотвергается.

3.6.3 Критерий Стьюдента

Рассмотрим теперь задачу проверки гипотезы о равенстве средних значений для двух выборок, т. е. принадлежности х1, х2, …,хnиу1, у2, …, ук одной генеральной совокупности.

Проверка гипотезы базируется на анализе так называемого критерия Стьюдента, т. е. величины

, (3.11)

где – среднеквадратичные отклонения для случайных величин; знак "прямые скобки" означает абсолютное значение разницы между средними значениями.

Если абсолютная величина t не превышает критическое значениеt0,05=1,96, то гипотеза о равенстве средних и принадлежностих1, х2, …, хnиу1, у2, …,ук одной генеральной совокупности подтверждается с уровнем значимости 0,05 (надежностью 0,95). Дляt= 1,65 гипотеза принимается с уровнем значимости 0,1.

Самостоятельная задача.Имеется две выборкихi иуiобъемом, соответственно,п=10, к=14:

хi: 1,2; 0,8; 1,3; 0,9; 1,0; 0,8; 0,9; 0,7; 1,1; 1,4.

уi: 1,1; 1,0; 1,0; 1,2; 0,8; 0,7; 1,3; 0,8; 0,9; 1,4; 1,1; 0,9;0,7;1,3. (3.12)

С помощью критерия Стьюдента проверить гипотезу о равенстве средних значений с уровнем значимости 0,1.

3.6.4 Критерии Фишера (дисперсионный анализ)

Дисперсионный анализ является статистическим методом, предназначенным для выявления влияния отдельных факторов на результаты экспериментов, наблюдений или измерений. Современные приложения дисперсионного анализа охватывают широкий круг задач экономики, социологии, психологии, экологии и техники.

Дисперсионный анализ связан с проверкой различий в дисперсиях идвух выборок (их средние значения могут быть одинаковы или различны). Эти задачи касаются выявления различий между результатами измерений, выполненными в разных условиях.

Замечание. Если, то путем частичного нормирования случайных величин, т.е. перехода к новым выборкамиможно привести их к одинаковым (нулевым) средним значениям.

Для проверки гипотезы в качестве контрольной величины используется критерий Фишера– отношение эмпирических дисперсий

(большую дисперсию выбирают в качестве числителя).

Для уровня значимости – риска отвергнуть правильную гипотезу, выбирается критическое значение(Здесьи– число наблюденийи). Критические значенияв зависимости отипри=0,05 представлены в таблице 3.6. Еслигипотеза отвергается, в противном случае – принимается.

Таблица 3.6 Значения критерия Фишера

10 15 25 50 100

10

15

25

50

100

2,98 2,85 2,74 2,64 2,59

2,54 2,33 2,24 2,18 2,12

2,27 2,10 1,97 1,84 1,78

2,03 1,88 1,73 1,6 1,52

1,93 1,78 1,64 1,48 1,39

Задача 6. Для выборок (3.12) проверить гипотезу о равенстве дисперсий двух выборовис уровнем значимости 0,05.

Решение. Получаем;. Вычисляем дисперсии, поэтомуF-критерий будет иметь значение 1,39. Для=14 и=10 получаем критическое значение (таблица 3.6)=2,85. Поскольку 1,39<2,85 гипотеза о равенстве дисперсий выборокипринимается.

Самостоятельная задача.Имеется две выборки одинакового объема по 10 наблюдений.

: 2,3; 5,6; 6,9; 3,7; 4,1; 4,9; 5,8; 4,3; 5,5; 4,8.

: 3,2; 7,6; 6,4; 5,8; 4,6; 8,1; 5,2; 6,3; 6,8; 5,6.

По критериям Стьюдента и Фишера с уровнем значимости 0,05 проверить две гипотезы: о равенстве средних значений и дисперсий.

Контрольные вопросы и задачи

1. Предмет и общая задача математической статистики.

2. Генеральная и выборочная совокупности.

3. Вариационный ряд и эмпирическая функция распределения.

4. Гистограмма относительных частот и эмпирическая плотность вероятностей. Привести пример.

5. Вычислить выборочные среднее, дисперсию и среднеквадратичное отклонение для следующей выборки:

Таблица 3.11 – Выборки по вариантам

Вариант

A

Б

в

Г

Д

е

Значения статистических данных

1,05

3,25

1,25

10,44

3,24

6,26

1,23

3,12

0,55

8,05

2,75

3,82

0,91

2,91

0,88

9,21

3,75

5,47

1,44

3,33

1,44

9,22

4,90

4,46

0,96

3,43

1,15

10,33

3,76

4,76

1,13

3,26

1,12

9,15

4,12

4,78

1,14

3,11

1,08

10,70

3,55

4,12

1,22

2,64

1,13

9,14

3,14

6,04

1,05

3,31

0,94

9,76

2,88

5,12

0,88

3,82

0,95

10,25

3,41

5,23

0,76

3,85

1,38

9,74

3,88

5,81

1,14

3,24

0,76

9,25

4,22

5,85

6. С надежностью 0,9 построить доверительный интервал для средних значений выборочных совокупностей, приведенных в предыдущей задаче. Выявить наличие грубых ошибок в статистических данных. Найти минимально необходимое количество наблюдений с точностью 3%.

7. По критерию Пирсона проверить гипотезу о соответствии статистических данных, приведенных в задаче 5, нормальному закону распределения с уровнем значимости 0,1.

8. Проверить гипотезу о равенстве средних значений в двух выборках с надежностью 0,9:

а) 6, 7, 8, 3, 4, 6, 7, 4, 3, 5, 5, 6. б) 2, 1, 5, 2, 3, 4, 8, 6, 4, 5, 4, 7.