Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект Фурса.docx
Скачиваний:
74
Добавлен:
29.02.2016
Размер:
3.49 Mб
Скачать

Лекция 15

    1. Статистическое оценивание параметров распределения

ЦЕЛЬ ЛЕКЦИИ: ввести понятие оценки неизвестного параметра распределения и дать классификацию таких оценок; получить точечные и интервальные оценки математического ожидания и дисперсии.

На практике в большинстве случаев закон распределения случайной величины неизвестен, и по результатам наблюденийнеобходимо оценить числовые характеристики (например, математическое ожидание, дисперсию или другие моменты) или неизвестный параметр, который определяет закон распределения (плотность распределения)изучаемой случайной величины. Так, для показательного распределения или распределения Пуассона достаточно оценить один параметр, а для нормального распределения подлежат оценке уже два параметра – математическое ожидание и дисперсия.

Виды оценок

Случайная величина имеет плотность вероятности, где– неизвестный параметр распределения. В результате эксперимента получены значения этой случайной величины:. Произвести оценку по существу означает, что выборочным значениям случайной величины необходимо поставить в соответствие некоторое значение параметра, т. е. создать некоторую функцию результатов наблюдений, значение которой принимается за оценку параметра. Индексуказывает на количество проведенных опытов.

Любая функция, зависящая от результатов наблюдений, называется статистикой. Так как результаты наблюдений являются случайными величинами, то и статистика тоже будет случайной величиной. Следовательно, оценкунеизвестного параметраследует рассматривать как случайную величину, а ее значение, вычисленное по экспериментальным данным объемом, – как одно из возможных значений этой случайной величины.

Оценки параметров распределений (числовых характеристик случайной величины) подразделяются на точечные и интервальные. Точечная оценкапараметраопределяется одним числом, и ее точность характеризуется дисперсией оценки.Интервальной оценкойназывают оценку, которая определяется двумя числами,и– концами интервала, накрывающего оцениваемый параметрс заданной доверительной вероятностью.

Классификация точечных оценок

Чтобы точечная оценка неизвестного параметрабыла наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Состоятельной называется оценка параметра, если она сходится по вероятности к оцениваемому параметру, т. е.

. (8.8)

На основании неравенства Чебышева можно показать, что достаточным условием выполнения соотношения (8.8) является равенство

.

Состоятельность является асимптотической характеристикой оценки при .

Несмещеннойназывается оценка(оценка без систематической ошибки), математическое ожидание которой равно оцениваемому параметру, т. е.

. (8.9)

Если равенство (8.9) не выполняется, то оценка называется смещенной. Разность называется смещением или систематической ошибкой оценки. Если же равенство (8.9) выполняется лишь при, то соответствующая оценка называется асимптотически несмещенной.

Необходимо отметить, что если состоятельность – практически обязательное условие всех используемых на практике оценок (несостоятельные оценки используются крайне редко), то свойство несмещенности является лишь желательным. Многие часто применяемые оценки свойством несмещенности не обладают.

В общем случае точность оценки некоторого параметра , полученная на основании опытных данных, характеризуется средним квадратом ошибки

,

который можно привести к виду

,

где –дисперсия, – квадрат смещения оценки.

Если оценка несмещенная, то

.

При конечных оценки могут различаться средним квадратом ошибки. Естественно, что, чем меньше эта ошибка, тем теснее группируются значения оценки около оцениваемого параметра. Поэтому всегда желательно, чтобы ошибка оценки была по возможности наименьшей, т. е. выполнялось условие

. (8.10)

Оценку , удовлетворяющую условию (8.10), называют оценкой с минимальным квадратом ошибки.

Эффективнойназывается оценка, для которой средний квадрат ошибки не больше среднего квадрата ошибки любой другой оценки, т. е.

,

где – любая другая оценка параметра.

Известно, что дисперсия любой несмещенной оценки одного параметра удовлетворяет неравенству Крамера – Рао

,

где – условная плотность распределения вероятностей полученных значений случайной величины при истинном значении параметра.

Таким образом, несмещенная оценка , для которой неравенство Крамера – Рао обращается в равенство, будет эффективной, т. е. такая оценка имеет минимальную дисперсию.

Точечные оценки математического ожидания и дисперсии

Если рассматривается случайная величина , имеющая математическое ожиданиеи дисперсию, то оба эти параметра считаются неизвестными. Поэтому над случайной величинойпроизводитсянезависимых опытов, которые дают результаты:. Необходимо найти состоятельные и несмещенные оценки неизвестных параметров и.

В качестве оценок иобычно выбираются соответственно статистическое (выборочное) среднее значениеи статистическая(выборочная) дисперсия:

; (8.11)

. (8.12)

Оценка математического ожидания (8.11) является состоятельной согласно закону больших чисел (теорема Чебышева):

.

Математическое ожидание случайной величины

.

Следовательно, оценка является несмещенной.

Дисперсия оценки математического ожидания:

.

Если случайная величина распределена по нормальному закону, то оценкаявляется также и эффективной.

Математическое ожидание оценки дисперсии

.

В то же время

.

Так как , а, то получаем

. (8.13)

Таким образом, – смещенная оценка, хотя является состоятельной и эффективной.

Из формулы (8.13) следует, что для получения несмещенной оценки следует видоизменить выборочную дисперсию (8.12) следующим образом:

, (8.14)

которая считается "лучшей" по сравнению с оценкой (8.12), хотя при больших эти оценки практически равны друг другу.

Методы получения оценок параметров распределения

Часто на практике на основании анализа физического механизма, порождающего случайную величину , можно сделать вывод о законе распределения этой случайной величины. Однако параметры этого распределения неизвестны, и их необходимо оценить по результатам эксперимента, обычно представленных в виде конечной выборки. Для решения такой задачи чаще всего применяются два метода:метод моментов и метод максимального правдоподобия.

Метод моментов. Метод состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

Эмпирические начальные моменты -го порядка определяются формулами:

,

а соответствующие им теоретические начальные моменты -го порядка – формулами:

для дискретных случайных величин,

для непрерывных случайных величин,

где – оцениваемый параметр распределения.

Для получения оценок параметров распределения, содержащего два неизвестных параметра и, составляется система из двух уравнений

где и– теоретический и эмпирический центральные моменты второго порядка.

Решением системы уравнений являются оценки инеизвестных параметров распределенияи.

Приравняв теоретический эмпирический начальные моменты первого порядка, получаем, что оценкой математического ожидания случайной величины , имеющей произвольное распределение, будет выборочное среднее, т. е.. Затем, приравняв теоретический и эмпирический центральные моменты второго порядка, получим, что оценка дисперсии случайной величины, имеющей произвольное распределение, определяется формулой

.

Подобным образом можно найти оценки теоретических моментов любого порядка.

Метод моментов отличается простотой и не требует сложных вычислений, но полученные этим методом оценки часто являются неэффективными.

Метод максимального правдоподобия. Метод максимального правдоподобия точечной оценки неизвестных параметров распределения сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

Пусть – непрерывная случайная величина, которая в результатеиспытаний приняла значения. Для получения оценки неизвестного параметранеобходимо найти такое значение, при котором вероятность реализации полученной выборки была бы максимальной. Так какпредставляют собой взаимно независимые величины с одинаковой плотностью вероятности, тофункцией правдоподобия называют функцию аргумента :

.

Оценкой максимального правдоподобия параметра называется такое значение, при котором функция правдоподобия достигает максимума, т. е. является решением уравнения

,

которое явно зависит от результатов испытаний .

Поскольку функции идостигают максимума при одних и тех же значениях, то часто для упрощения расчетов используют логарифмическую функцию правдоподобия и ищут корень соответствующего уравнения

,

которое называется уравнением правдоподобия.

Если необходимо оценить несколько параметров распределения, то функция правдоподобия будет зависеть от этих параметров. Для нахождения оценокпараметров распределения необходимо решить системууравнений правдоподобия

.

Метод максимального правдоподобия дает состоятельные и асимптотически эффективные оценки. Однако получаемые методом максимального правдоподобия оценки бывают смещенными, и, кроме того, для нахождения оценок часто приходится решать достаточно сложные системы уравнений.

Интервальные оценки параметров

Точность точечных оценок характеризуется их дисперсией. При этом отсутствуют сведения о том, насколько близки полученные оценки истинным значениям параметров. В ряде задач требуется не только найти для параметра подходящее численное значение, но и оценить его точность и надежность. Необходимо узнать, к каким ошибкам может привести замена параметраего точечной оценкойи с какой степенью уверенности следует ожидать, что эти ошибки не выйдут за известные пределы.

Такие задачи особенно актуальны при малом числе опытов , когда точечная оценкав значительной степени случайна и приближенная заменанаможет привести к значительным ошибкам.

Более полный и надежный способ оценивания параметров распределений заключается в определении не единственного точечного значения, а интервала, который с заданной вероятностью накрывает истинное значение оцениваемого параметра.

Пусть по результатам опытов получена несмещенная оценкапараметра. Необходимо оценить возможную ошибку. Выбирается некоторая достаточно большая вероятность(например), такая, что событие с этой вероятностью можно считать практически достоверным событием, и находится такое значение, для которого

.(8.15)

В этом случае диапазон практически возможных значений ошибки, возникающей при замене на, будет, а большие по абсолютной величине ошибки будут появляться лишь с малой вероятностью.

Выражение (8.15) означает, что с вероятностью неизвестное значение параметрапопадет в интервал

. (8.16)

Вероятность называетсядоверительной вероятностью, а интервал, накрывающий с вероятностьюистинное значение параметра, называетсядоверительным интервалом.Заметим, что неправильно говорить, что значение параметра лежит внутри доверительного интервала с вероятностью. Используемая формулировка (накрывает) означает, что хотя оцениваемый параметр и неизвестен, но он имеет постоянное значение и, следовательно, не имеет разброса, поскольку это не случайная величина.

Задача определения доверительного интервала может быть решена только тогда, когда удается найти закон распределения случайной величины . В общем случае этот закон зависит от закона распределения случайной величиныи, следовательно, и от его неизвестных параметров (в частности, и от самого оцениваемого параметра). Однако иногда удается перейти при получении оценкик таким функциям опытных данных, закон распределения которых зависит только от величиныи закона распределения случайной величиныи не зависит от неизвестных параметров.

Пусть проведено независимых испытаний над случайной величиной, числовые характеристики которой – математическое ожиданиеи дисперсия– неизвестны. Для этих параметров получены точечные оценки:

; . (8.17)

Требуется найти доверительный интервал , соответствующий доверительной вероятности, для математического ожиданияслучайной величины.

Так как случайная величина представляет собой суммунезависимых и одинаково распределенных случайных величин, то согласно центральной предельной теореме при достаточно больших(на практике порядка 1020) ее закон распределения близок к нормальному. Таким образом получаем, что случайная величинараспределена по нормальному закону с математическим ожиданиеми дисперсией(см. (7.3–7.4)). Если величина дисперсиинеизвестна, то в качестве ее оценки можно использовать. В этом случае найдем такое, для которого

.

При использовании формулы (4.37) получаем

,

где – среднее квадратичное отклонение оценки.

Из уравнения

находим значение :

, (8.18)

где – функция, обратная,– квантиль порядкастандартного нормального распределения.

Таким образом, приближенно решена задача построения доверительного интервала в виде

,

где определяется формулой (8.18).

Чтобы избежать при вычислении обратного интерполирования в таблицах функции, обычно составляется небольшая таблица, в которой приводятся значения квантилейв зависимости от наиболее частоиспользуемых значений доверительной вероятности (табл. 8.4).

Таблица 8.4

0,9

1,643

0,95

1,960

0,99

2,576

0,9973

3,000

0,999

3,290

Величина определяет для нормального закона распределения число средних квадратичных отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания на этот участок была равна.

С использованием величины доверительный интервал будет иметь вид

.

Интервальные оценки математического ожидания и дисперсии нормальных случайных величин

Для случайной величины , имеющей гауссово распределение, найдены точные методы построения доверительных интервалов оценок математического ожидания и дисперсии.

Если случайная величина распределена нормально с математическим ожиданиеми дисперсией, то случайная величина

(8.19)

имеет распределение сстепенями свободы, а случайная величина

(8.20)

подчиняется закону распределения Стьюдента с степенями свободы.

В формулах (8.19–8.20) и– точечные оценки математического ожидания и дисперсии в соответствии с (8.17).

Для обоих неизвестных параметров инеобходимо построить доверительные интервалы.

Для математического ожидания величину (половину длины доверительного интервала) выбираем из условия

. (8.21)

В левой части выражения (8.21) перейдем от случайной величины к величине , распределенной по закону Стьюдента. Для этого умножим обе части неравенствана положительную величинуи получим

,

а при использовании (8.20)

,

где величину находим из условия

или .

По таблице процентных точек распределения Стьюдента (прил. 4) находим значение и получаем

,

и соответственно доверительный интервал оценки математического ожидания будет иметь вид

. (8.22)

Для нахождения доверительного интервала оценки дисперсии выразим случайную величину через величинув соответствии с (8.19):

.

Знание закона распределения случайной величины позволяет найти доверительный интервал, в который эта величина попадает с вероятностью . Поскольку распределениеасимметрично (см. рис. 8.8), брать интервалсимметричным, как для нормального распределения или распределения Стьюдента, неправомерно. Поэтому доверительный интервал строят так, чтобы площади под кривой распределения от 0 дои отдо бесконечности были равны:

; (8.23)

. (8.24)

Для интеграла (8.24) при заданном по таблице процентных точекраспределения (прил. 3) находят. Для полученияперепишем выражение (8.23) в виде

,

откуда

.

Таким образом, получаем для случая неизвестного математического ожидания

,

а доверительный интервал

(8.25)

накрывает неизвестную дисперсию с заданной вероятностью .

Пример. Проведенонезависимых измерений случайной величины, имеющей нормальное распределение. Получены следующие результаты: 20, 21, 21, 25, 19, 22, 23, 23, 18, 21, 21, 17, 18, 24, 20, 22, 21, 19, 19, 22, 18, 23, 22, 18, 20. Необходимо определить 90 %-ные доверительные интервальные оценки математического ожидания и дисперсии измеренной случайной величины.

Точечные оценки математического ожидания и дисперсии:

;

.

По таблице процентных точек t-распределения Стьюдента дляи(прил. 4) находим, что. Поэтому в соответствии с (8.22) получаем интервальную оценку математического ожидания в виде

.

По таблице процентных точек распределения дляи(прил. 3) находим, чтои. Таким образом, согласно (8.25) интервальная оценка дисперсии гауссовой случайной величиныбудет иметь вид

.