- •6.2. Последовательность операций при прямых многократных измерениях постоянной величины
- •Обработка первичных данных должна обеспечить:
- •6.3. Получение исправленных данных
- •6.5. Нахождение центра распределения и оценивание его погрешности
- •6.6. Учет неисключенной систематической погрешности
- •6.7. Проверка гипотезы о форме закона распределения
- •6.8. Обработка результатов неравноточных измерений
- •6.9. Обработка результатов однократных измерений.
- •6.10. Обработка результатов косвенных измерений
- •6.11. Рекомендации документа
- •6.12. О правильности и прецизионности методов и результатов измерений
6.5. Нахождение центра распределения и оценивание его погрешности
Наиболее часто используемой и узаконенной оценкой центра распределения является среднее арифметическое выборочных данных
Остановимся на оценивании погрешности самой этой оценки.
Обычно принимается, что элементы выборки взаимно независимы в вероятностном смысле. Тогда дисперсия их суммы найдется как сумма дисперсий n одинаково распределенных случайных величин и составит (в обозначениях параграфа 4.9) nDx.
Дисперсия среднего получается делением на n2 и, следовательно, составляет Dx/n.
Таким образом, дисперсия среднего арифметического меньше дисперсии первичных данных в n раз. То же относится и к ее оценке. Так мы приходим к известной формуле, которая обычно и используется при обработке результатов многократных измерений:
Оценка СКО среднего арифметического находится как корень из оценки дисперсии
с введением при необходимости поправочного коэффициента, упомянутого в параграфе 4.9.
Для нахождения доверительного интервала для погрешности среднего арифметического нужно знать закон распределения этого среднего.
Закон распределения суммы элементов выборки достаточно большого объема при любом законе распределения самих этих элементов должен быть близким к нормальному (это следует из центральной предельной теоремы теории вероятностей).
Нормальным считается и распределение среднего арифметического, которое отличается от распределения суммы только масштабом.
И
сходя
из сказанного, можно найти доверительное
значение погрешности среднего
арифметического путем умножения s(x)
на соответствующий квантильный
коэффициент. Но
распределение, которое должно быть при
этом использовано, отличается от
нормального –
ведь это есть распределение отношения
у которого и числитель, и знаменатель являются случайными оценками параметров нормально распределенной величины.
Теория таких распределений – они образуют целое семейство, поскольку их форма зависит от n, – была опубликована английским математиком В. Госсетом под псевдонимом Student. Поэтому распределения этого семейства называют распределениями Стьюдента (или t-распределениями).
К
онкретный
член семейства t-распределений
характеризуется числом
степеней свободы.
Для обработки выборки объема n
используют
распределение с числом степеней свободы
ν = n –
1 (одна степень свободы теряется из-за
того, что x и
s(x)
находятся по одной и той же выборке).
Р
Т а б л и ц а 6.1 n 5 6 7 8 10 15 20 ν
= n
– 1 4 5 6 7 9 14 19 t0,9 2,13 2,01 1,94 1,89 1,83 1,76 1,73 t0,95 2,78 2,57 2,45 2,36 2,26 2,14 2,09 t0,98 3,75 3,37 3,14 3,00 2,82 2,62 2,54 t0,99 4,60 4,03 3,71 3,50 3,25 2,98 2,86
В табл. 6.1 приведены квантили tP распределений Стьюдента с числом степеней свободы от 4 до 19 для двустороннего симметричного доверительного интервала с четырьмя различными значениями доверительной вероятности P, равными 0,9; 0,95; 0,98 и 0,99. Последняя строка таблицы приведена только для справки, потому что 99-процентный доверительный интервал по пяти и даже двадцати отсчетам будет вычислен с очень большой погрешностью.
Интересно, что частным случаем распределения Стьюдента – при минимальном возможном числе степеней свободы, равном 1, – оказывается упомянутое в параграфе 4.5 распределение Коши, имеющее настолько “тяжелые хвосты”, что все интегралы, используемые для вычисления его моментов, расходятся (см. [21], с. 72 – 76).
Итак, стандартный порядок обработки однородной выборки заключается в вычислении среднего арифметического, оценки его СКО и, наконец, границ доверительного интервала для него с помощью распределения Стьюдента.
Кратко рассмотрим альтернативные способы обработки выборки. Один из таких способов состоит в том, что в качестве оценки центра выбирается медиана – оценка 50-процентной квантили распределения (см. параграф 4.8). Ее основное достоинство – меньшая по сравнению со средним арифметическим чувствительность к промахам и сбоям.
Как отмечено в [21], дисперсия оценки любой квантили по выборке объема n составляет
D(xP) = P(1 – P)/{n[p(xP)]2},
где p(xP) – плотность распределения в точке xP. Для медианы xmed = x0,5 получается
D(xmed) = 1/{4n[p(xmed)]2}.
Этой формулой можно оценивать статистическую погрешность медианной оценки, если известна или может быть оценена плотность распределения первичных данных вблизи медианы.
В той же книге [21] на с. 147 и последующих обсуждаются и другие квантильные оценки центра распределения. Для симметричных двухмодальных распределений авторы этой книги рекомендуют пользоваться центром сгибов (сгибы – это 25- и 75-процентная квантили)
xс = (x0,25 + x0,75)/2.
Для резко ограниченных распределений, таких как равномерное и арксинусоидальное, наилучшей по эффективности (но не защищенной от промахов) оценкой оказывается центр размаха
xр = [x(1) + x(n)]/2.
Эта оценка, так же, как и центр сгибов, относится к квантильным, поскольку, в соответствии с представлением о том, что интервалы между элементами вариационного ряда суть статистически эквивалентные блоки (см. параграф 6.4), элемент x(1) есть оценка 100/(n + 1)-процентной квантили, а элемент x(n) – оценка 100n/(n + 1)-процентной квантили.
Отметим, что в соответствии с этим интервал x(n) – x(1) может служить оценкой интерквантильного интервала, вероятность попадания в который составляет Pд = (n – 1)/(n + 1). Отбрасывая определенные доли отсчетов в начале и в конце вариационного ряда, можно получить оценки других интерквантильных интервалов.
Все квантильные оценки центра становятся грубыми в случае, когда члены вариационного ряда могут принимать лишь небольшое число различных значений (этот недостаток уже обсуждался применительно к медиане студенческих баллов). В отличие от них, оценка в виде среднего арифметического может дать хорошие результаты даже при двух различных значениях членов вариационного ряда – было бы только достаточным их число n.
В книге [21] описан комбинированный способ оценивания положения центра распределения – предложено отбросить с каждого конца вариационного ряда по равной доле отсчетов (например, по 10 или 25 %), а для оставшихся вычислить среднее арифметическое.
Еще более радикальное предложение авторов книги [21] состоит в том, чтобы вычислить все возможные оценки, кроме моды, и выбрать из их “вариационного ряда” медиану. Эффективность такой оценки проверена моделированием (см. [21], с. 150).
Если тем или иным (стандартным или одним из альтернативных) способов найдена оценка центра распределения первичных данных и оценена погрешность этой оценки, то осталось учесть неисключенную систематическую погрешность – НСП.
