Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
метрология_ / МСС / Глава 6.doc
Скачиваний:
26
Добавлен:
23.05.2015
Размер:
274.94 Кб
Скачать

6.5. Нахождение центра распределения и оценивание его погрешности

Наиболее часто используемой и узаконенной оценкой центра распределения является среднее арифметическое выборочных данных

Остановимся на оценивании погрешности самой этой оценки.

Обычно принимается, что элементы выборки взаимно независимы в вероятностном смысле. Тогда дисперсия их суммы найдется как сумма дисперсий n одинаково распределенных случайных величин и составит (в обозначениях параграфа 4.9) nDx.

Дисперсия среднего получается делением на n2 и, следовательно, составляет Dx/n.

Таким образом, дисперсия среднего арифметического меньше дисперсии первичных данных в n раз. То же относится и к ее оценке. Так мы приходим к известной формуле, которая обычно и используется при обработке результатов многократных измерений:

Оценка СКО среднего арифметического находится как корень из оценки дисперсии

с введением при необходимости поправочного коэффициента, упомянутого в параграфе 4.9.

Для нахождения доверительного интервала для погрешности среднего арифметического нужно знать закон распределения этого среднего.

Закон распределения суммы элементов выборки достаточно большого объема при любом законе распределения самих этих элементов должен быть близким к нормальному (это следует из центральной предельной теоремы теории вероятностей).

Нормальным считается и распределение среднего арифметического, которое отличается от распределения суммы только масштабом.

Исходя из сказанного, можно найти доверительное значение погрешности среднего арифметического путем умножения s(x) на соответствующий квантильный коэффициент. Но распределение, которое должно быть при этом использовано, отличается от нормального – ведь это есть распределение отношения

у которого и числитель, и знаменатель являются случайными оценками параметров нормально распределенной величины.

Теория таких распределений – они образуют целое семейство, поскольку их форма зависит от n, – была опубликована английским математиком В. Госсетом под псевдонимом Student. Поэтому распределения этого семейства называют распределениями Стьюдента (или t-распределениями).

Конкретный член семейства t-распределений характеризуется числом степеней свободы. Для обработки выборки объема n используют распределение с числом степеней свободы ν = n – 1 (одна степень свободы теряется из-за того, что x и s(x) находятся по одной и той же выборке).

Р

Т а б л и ц а 6.1

n

5

6

7

8

10

15

20

ν = n – 1

4

5

6

7

9

14

19

t0,9

2,13

2,01

1,94

1,89

1,83

1,76

1,73

t0,95

2,78

2,57

2,45

2,36

2,26

2,14

2,09

t0,98

3,75

3,37

3,14

3,00

2,82

2,62

2,54

t0,99

4,60

4,03

3,71

3,50

3,25

2,98

2,86

аспределения Стьюдента шире нормального распределения, но по мере роста степеней свободы сужаются и приближаются к нему. Обычно можно не учитывать отличий распределения Стьюдента от нормального при n > 30. Естественно, если бы было известно истинное СКО среднего арифметического (а не его экспериментальная оценка), следовало бы при любом объеме выборки пользоваться нормальным распределением.

В табл. 6.1 приведены квантили tP распределений Стьюдента с числом степеней свободы от 4 до 19 для двустороннего симметричного доверительного интервала с четырьмя различными значениями доверительной вероятности P, равными 0,9; 0,95; 0,98 и 0,99. Последняя строка таблицы приведена только для справки, потому что 99-процентный доверительный интервал по пяти и даже двадцати отсчетам будет вычислен с очень большой погрешностью.

Интересно, что частным случаем распределения Стьюдента – при минимальном возможном числе степеней свободы, равном 1, – оказывается упомянутое в параграфе 4.5 распределение Коши, имеющее настолько “тяжелые хвосты”, что все интегралы, используемые для вычисления его моментов, расходятся (см. [21], с. 72 – 76).

Итак, стандартный порядок обработки однородной выборки заключается в вычислении среднего арифметического, оценки его СКО и, наконец, границ доверительного интервала для него с помощью распределения Стьюдента.

Кратко рассмотрим альтернативные способы обработки выборки. Один из таких способов состоит в том, что в качестве оценки центра выбирается медиана – оценка 50-процентной квантили распределения (см. параграф 4.8). Ее основное достоинство – меньшая по сравнению со средним арифметическим чувствительность к промахам и сбоям.

Как отмечено в [21], дисперсия оценки любой квантили по выборке объема n составляет

D(xP) = P(1 – P)/{n[p(xP)]2},

где p(xP) – плотность распределения в точке xP. Для медианы xmed = x0,5 получается

D(xmed) = 1/{4n[p(xmed)]2}.

Этой формулой можно оценивать статистическую погрешность медианной оценки, если известна или может быть оценена плотность распределения первичных данных вблизи медианы.

В той же книге [21] на с. 147 и последующих обсуждаются и другие квантильные оценки центра распределения. Для симметричных двухмодальных распределений авторы этой книги рекомендуют пользоваться центром сгибов (сгибы – это 25- и 75-процентная квантили)

xс = (x0,25 + x0,75)/2.

Для резко ограниченных распределений, таких как равномерное и арксинусоидальное, наилучшей по эффективности (но не защищенной от промахов) оценкой оказывается центр размаха

xр = [x(1) + x(n)]/2.

Эта оценка, так же, как и центр сгибов, относится к квантильным, поскольку, в соответствии с представлением о том, что интервалы между элементами вариационного ряда суть статистически эквивалентные блоки (см. параграф 6.4), элемент x(1) есть оценка 100/(n + 1)-процентной квантили, а элемент x(n) – оценка 100n/(n + 1)-процентной квантили.

Отметим, что в соответствии с этим интервал x(n)x(1) может служить оценкой интерквантильного интервала, вероятность попадания в который составляет Pд = (n – 1)/(n + 1). Отбрасывая определенные доли отсчетов в начале и в конце вариационного ряда, можно получить оценки других интерквантильных интервалов.

Все квантильные оценки центра становятся грубыми в случае, когда члены вариационного ряда могут принимать лишь небольшое число различных значений (этот недостаток уже обсуждался применительно к медиане студенческих баллов). В отличие от них, оценка в виде среднего арифметического может дать хорошие результаты даже при двух различных значениях членов вариационного ряда – было бы только достаточным их число n.

В книге [21] описан комбинированный способ оценивания положения центра распределения – предложено отбросить с каждого конца вариационного ряда по равной доле отсчетов (например, по 10 или 25 %), а для оставшихся вычислить среднее арифметическое.

Еще более радикальное предложение авторов книги [21] состоит в том, чтобы вычислить все возможные оценки, кроме моды, и выбрать из их “вариационного ряда” медиану. Эффективность такой оценки проверена моделированием (см. [21], с. 150).

Если тем или иным (стандартным или одним из альтернативных) способов найдена оценка центра распределения первичных данных и оценена погрешность этой оценки, то осталось учесть неисключенную систематическую погрешность – НСП.

Соседние файлы в папке МСС