Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций по курсу Теор осн иссл стат Выб...doc
Скачиваний:
7
Добавлен:
01.05.2025
Размер:
1.37 Mб
Скачать

1.3. Свойства среднего

Рассмотрим задачу об измерении.

Задача об измерении. Сделано несколько измерений некоторой величины , например, температуры объекта исследования, с тем, чтобы получить оценку величины . Если в n измерениях получены величины , то обычно рекомендуется оценивать с помощью их среднего:

Идея усреднения ряда наблюдений была предложена в конце семнадцатого века. Возникает вопрос - почему следует брать именно эту комбинацию наблюдений. Ответом на поставленный вопрос могут быть два свойства среднего.

Свойство первое. Хорошим приближением для истинного значения параметра является такое значение а, для которого сумма квадратов разностей минимальна. Параметр является оценкой наименьших квадратов для и равен , этот вывод может быть установлен из тождества

а именно: первое слагаемое в правой части не содержит а, а второе минимизируется при условии

Свойство второе. Оценка наименьших квадратов есть значение, минимизирующее сумму квадратов разностей между наблюдениями , и оцениваемым значением параметра . Другой подход состоит в том, чтобы найти значение а, для которого сумма разностей равна нулю. Условие, накладываемое на , есть

.

и это вновь приводит к уже полученному ранее результату: .

Два свойства относятся к первому (анализ данных) подходу из приведенных ранее. Они указывают на среднее в качестве разумной описательной характеристики центра наблюдений, но они не могут обосновывать использование . в качестве оценки для истинного значения , поскольку не было сделано никаких конкретных предположений, связывающих наблюдения c . Для установления такой связи предположим , что — наблюдаемые значения n независимых случайных величин, имеющих общее распределение, зависящее от. .

Допустим, что , где - ошибка измерения, распределенная согласно закону F, симметричному относительно нуля, так что распределены симметрично относительно с распределением

.

Если , имеют конечную дисперсию , то дисперсия их среднего равна , следовательно, математическое ожидание квадрата разности между и равно для одного наблюдения. Однако, если , имеют распределение Коши, то распределение будет таким же, как и у одного единственного , так что никакого положительного результата от проведения нескольких наблюдений и последующего их усреднения мы не получим.

Рассмотренный пример показывает, что формализация задачи оценивания включает две основные составляющие.

Вещественнозначную функцию g, определенную на параметрическом пространстве , значение которой на надлежит оценить. В этом случае называют оцениваемой величиной. В примере = .

Случайный наблюдаемый параметр х (векторозначный), принимающий значения в выборочном пространстве X, согласно распределению , о котором известно, что оно принадлежит некоторому семейству Р. Полученные при наблюдении значения х величины Х образуют статистические данные.

Задача оценивания состоит в определении оптимальной оценки, т. е. вещественнозначной функции , задаваемой на выборочном пространстве, относительно которой можно считать, что будет достаточно близким к неизвестному g . Значение , которое будет принимать на полученном при наблюдении значении х величины X, будет являться оценкой для g .

Оценка должна быть близка к g , и так как есть случайная величина , то будем понимать эту близость в среднем. Для формализации требования необходимо указать меру близости в среднем оценки к g (или среднего расстояния между ними).

Примером такой меры является

.

В общем случае предположим, что последствия от оценивания значением d измеряются величиной . Относительно функции потерь L допустим, что

и что

,

так что потери — нулевые, когда оценка равна истинному значению. Неточность оценки можно измерить с помощью функции риска

,

т. е. средними потерями в результате использования в течение длительного промежутка времени. Целесообразно искать такое , которое бы минимизировало риск при всех значениях .

В сформулированном виде задача решения не имеет, поскольку риск для каждой заданной точки можно свести к нулю, выбирая равным при всех х. Поэтому равномерно наилучшей оценки не существует, т. е. нет такой оценки, которая одновременно минимизировала бы риск для всех значений , исключая тривиальный случай, когда постоянная.

Один из способов избежания этой трудности состоит в сужении класса оценок путем исключения тех оценок, которые оказывают значительное предпочтение одному или нескольким значениям ценой пренебрежения остальными возможными значениями. Этого можно достигнуть, потребовав, чтобы оценка удовлетворяла некоторому условию, обеспечивающему определенную степень беспристрастности. Например, можно потребовать, чтобы смещение оценки, называемое систематической ошибкой, было равно нулю, т. е. чтобы

.

Это условие несмещенности гарантирует, что получаемые значения оцениваемой величины будут в среднем правильными.

Формулировка задачи оценивания требует конкретного указания вероятностной модели и меры неточности . В задаче об измерении и ее обобщениях на линейные модели часто бывает разумным предполагать, что ошибки измерения приближенно нормально распределены. В других ситуациях могут оказаться подходящими предположения, приводящие к биномиальному или пуассоновскому распределению. Таким образом, значение обстоятельств и опыт в сходных ситуациях будут указывать на конкретное параметрическое семейство распределений. Если такой информации нет, то можно принять непараметрическую модель, для которой требуются лишь очень общие предположения, такие, как независимость или симметрия, но которая не приводит к конкретному параметрическому семейству распределений.

Выбор подходящей модели требует способности к суждению и использует накопленный опыт; на него влияют также соображения убедительности. Аналогичные рассуждения в отношении выбора функции потерь L являются гораздо более трудными. Точечная оценка используется в различных ситуациях и для самых разнообразных целей, которые невозможно было бы предвидеть в то время, когда определялась эта оценка. При таких обстоятельствах необходимо, чтобы оценка была точной, а вопрос - какую меру точности следует использовать - решается довольно произвольным образом.

Лаплас и Гаусс сравнивали оценивание неизвестной величины по наблюдениям со случайыми ошибками с азартной игрой, а ошибку в оцениваемом значении - с потерями, возникающими в результате такой игры. Гаусс предположил в качестве меры потерь или неточности квадрат ошибки. Среди бесконечного множества пригодных для этой цели функций квадрат является наипростейшим и поэтому более предпочтительным. Выбор квадрата ошибки в качестве потерь имеет двойное преимущество : в простоте вычислений и в том, что он приводит к выписываемым в явном виде оценкам.

Проблема оценивания параметров закона распределения является многогранной и занимает центральное место в математической статистике и прикладных задачах обработки статистической информации.