Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_matstat.docx
Скачиваний:
64
Добавлен:
22.09.2019
Размер:
5.97 Mб
Скачать
  1. Доверительный интервал и доверитель­ная вероятность (надежность). Построение доверительного интервала для математического ожидания случайной величины, распределенной по нормальному закону.

§14. Точность оценки, доверительная вероятность (надежность). Доверительный интервал

Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше,- точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих понятий выясняется ниже).

Пусть найденная по данным выборки статистическая характеристика Θ* служит оценкой неизвестного параметра Θ. Будем считать Θ постоянным числом (Θ может быть и случайной величиной). Ясно, что Θ* тем точнее определяет параметр Θ, чем меньше абсолютная величина разности |Θ - Θ*|. Другими словами, если δ>0 и |Θ - Θ*|<δ, то чем меньше δ, тем оценка точнее. Таким образом, положительное число δ характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка Θ * удовлетворяет неравенству |Θ - Θ*|<δ; можно лишь говорить о вероятности γ, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки Θ по Θ* называют вероятность γ, с которой осуществляется неравенство |Θ - Θ*|<δ. Обычно надежность оценки задается наперед, причем в качестве γ берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что |Θ - Θ*|<δ, равна γ:

Р[|Θ - Θ*|<δ]= γ.

Заменив неравенство |Θ - Θ*|<δ равносильным ему двойным неравенством <Θ - Θ*< δ, или Θ*- δ <Θ< Θ* + δ, имеем

Р[Θ* - δ <Θ< Θ* + δ] = γ.

Это соотношение следует понимать так: вероятность того, что интервал(Θ*-δ, Θ*+δ) заключает в себе (покрывает) неизвестный параметр Θ, равна γ.

Доверительным называют интервал (Θ*-δ, Θ*+δ), который покрывает неизвестный параметр с заданной надежностью γ.

Замечание. Интервал (Θ*-δ, Θ*+δ) имеет случайные концы (их называют доверительными границами). Действительно, в разных выборках получаются различные значения Θ*. Следовательно, от выборки к выборке будут изменяться и концы доверительного интервала, т. е. доверительные границы сами являются случайными величинами - функциями от х1, x2, ..., хn.

Так как случайной величиной является не оцениваемый параметр Θ, а доверительный интервал, то более правильно говорить не о вероятности попадания Θ в доверительный интервал, а о вероятности того, что доверительный интервал покроет Θ.

Метод доверительных интервалов разработал американский статистик Ю. Нейман, исходя из идей английского статистика Р. Фишера.

§ 15. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение σ этого распределения известно. Требуется оценить неизвестное математическое ожидание а по выборочной средней . Поставим своей задачей найти доверительные интервалы, покрывающие параметр а с надежностью γ.

Будем рассматривать выборочную среднюю как случайную величину ( изменяется от выборки к выборке) и выборочные значения признака х1, x2, ...,хn - как одинаково распределенные независимые случайные величины Х1, Х2, ...,Хn (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно а и среднее квадратическое отклонение - σ.

Примем без доказательства, что если случайная величина X распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально. Параметры распределения таковы (см. гл. VIII, § 9):

M( )=a, .

Потребуем, чтобы выполнялось соотношение

Р(|Х - а| < δ) = γ,

где γ - заданная надежность.

Пользуясь формулой (см. гл. XII, § 6)

Р(|Х-а| < δ) = 2Ф(δ/σ),

заменив X на и σ на , получим

Р(|Х-а|) ) = 2Ф(δ ) = 2Ф (t),

где t = δ .

Найдя из последнего равенства , можем написать

Р (| —а | < ) = 2Ф(t).

Приняв во внимание, что вероятность P задана и равна γ, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю вновь обозначим через )

Смысл полученного соотношения таков: с надежностью γ можно утверждать, что доверительный интервал ( , ) покрывает неизвестный параметр а; точность оценки .

Итак, поставленная выше задача полностью решена. Укажем еще, что число t определяется из равенства 2Ф(t) = γ. или Ф(t)= γ /2; по таблице функции Лапласа (см. приложение 2) находят аргумент t, которому соответствует значение функции Лапласа, равное γ /2.

Замечание 1. Оценку называют классической. Из формулы , определяющей точность классической оценки, можно сделать следующие выводы:

1) при возрастании объема выборки п число δ убывает и, следовательно, точность оценки увеличивается;

2) увеличение надежности оценки γ = 2Ф(t) приводит к увеличению t(Ф (t) — возрастающая функция), следовательно, и к возрастанию δ; другими словами, увеличение надежности классической оценки влечет за собой уменьшение ее точности.

Пример. Случайная величина X имеет нормальное распределение с известным средним квадратическим отклонением σ = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки γ= 0,95.

Решение. Найдем t. Из соотношения 2Ф(t)=0,95 получим Ф(t) = 0,475. По таблице приложения 2 находим t=1,96.

Найдем точность оценки:

.

Доверительный интервал таков: ( -0,98; + 0,98). Например, если = 4,1, то доверительный интервал имеет следующие доверительные границы:

- 0,98 = 4,1- 0,98 = 3,12; + 0,98 = 4,1 + 0,98 = 5,08.

Таким образом, значения неизвестного параметра а, согласующиеся с данными выборки, удовлетворяют неравенству 3,12 < а < 5,08. Подчеркнем, что было бы ошибочным написать Р(3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Поясним смысл, который имеет заданная надежность. Надежность γ = 0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр действительно заключен; лишь в 5% случаев он может выйти за границы доверительного интервала.

Замечание 2. Если требуется оценить математическое ожидание с наперед заданной точностью δ и надежностью γ, то минимальный объем выборки, который обеспечит эту точность, находят по формуле

(следствие равенства ).

Примеры построения доверительных интервалов для параметров нормального закона (случай одной и двух выборок).

Пример: Нормальное распределение. Пусть х1…хn – выборка из N(a, ) распределения. Построить ДИ для а, если - неизв. Выберем , не зависящую от второго параметра.

Решение: . По лемме Фишера имеет распределение Стьюдента: . Выберем : (используя таблицу,

Находим . Т.о.

S-выб.дисперсия. ДИ

2. Строим ДИ для (а – неизв); по п.3 лемме Фишера:

. Очевидно, что , может быть выбраны неоднозначно. Решение Х2 {рисунок}

Длина ДИ характеризует точность оценки. В случае Стьюдента построенный доверительный интервал кратчайший. Для - более сложная задача, поэтому находят ДИ из условий ; . Решение задачи . {Если нет априорной информации, нужно брать 2-сторонний интервал, если есть – односторонний}

  1. Пусть - независимые. - неизвестна (мешающий параметр). Построим ДИ для a-b. Согласно лемме Фишера:

Т.о.

По лемме Фишера п.3

ДИ: для параметра (a-b) {считается что задано}

Построим ДИ.

4. ДИ для

П.3 леммы Фишера : ; По замечанию к лемме Фишера получим - распределение Снедекора

- ДИ для

Примечание к примеру 3: мешающий параметр - одномерный, если , т.е. могут быть разные, т.е. мешающий – двумерный, то задача не решена, проблема Беренса-Фишера

{рисунок}

Доверительная оценка Ĥ называется состоятельной, если она стягивается в точку.

Если Ĥ- ДИ, то состоятельность равносильна тому, что .

В примерах 1-4 ДИ – состоятельные (т.к. в нормальных законах)

Пример5: Пусть x1…xn – выборка из ; - функция распределения х1. Пусть при фиксиров. х – монотонная функция от . Тогда в качестве . Отметим ; , где - функция распределения

  1. Корреляционный момент. Проверить обладает ли свой­ствами состоятельности и несмещенности оценка корреляционного момента. Функциональная, статистическая и корреляционная зависимости. Условные средние. Выборочное уравнение регрессии.

Для описания системы двух случайных величин кроме математических ожиданий и дисперсий составляющих используют и другие характеристики; к их числу относятся корреляционный момент и коэффициент корреляции.

Корреляционным моментом μху случайных величин X и Y называют математическое ожидание произведения отклонений этих величин:

μху={M[X-M(X)][Y-M(Y)]},

Для вычисления корреляционного момента дискретных величин используют формулу

а для непрерывных величин - формулу

Корреляционный момент служит для характеристики связи между величинами X и Y. Как будет показано ниже, корреляционный момент равен нулю, если X и Y независимы; следовательно, если корреляционный момент не равен нулю, то X и Y - зависимые случайные величины.

Замечание 1. Учитывая, что отклонения есть центрированные случайные величины (см. гл. VIII, § 2), корреляционный момент можно определить как математическое ожидание произведения центрированных случайных величин:

μху=M[ ].

3амечание 2. Легко убедиться, что корреляционный момент можно записать в виде

μху=M(XY) -M(X)M(Y).

Статистические оценки могут быть точечными и интервальными.

Точечные оценки представляют собой число или точку на числовой оси. Чтобы оценка была близка к значению параметра , она должна обладать свойствами состоятельности, несмещенности и эффективности.

Определение. Оценка параметра называется состоятельной, если она сходится по вероятности к оцениваемому параметру, то есть для любого :

.

Поясним смысл этого равенства.

Пусть - очень малое положительное число. Тогда данное равенство означает, что чем больше объем выборки , тем ближе оценка приближается к оцениваемому параметру .

Свойство состоятельности нужно проверять в первую очередь. Оно обязательно для любого правила оценивания. Несостоятельные оценки не используются.

Определение. Оценка параметра называется несмещенной, если , то есть математическое ожидание оценки равно оцениваемому параметру. Если , то оценка называется смещенной.

Это свойство оценки желательно, но не обязательно. Часто полученная оценка бывает смещенной, но ее можно поправить так, чтобы она стала несмещенной.

Иногда, оценка бывает асимптотически несмещенной ,

то есть .

Требования несмещенности особенно важно при малом числе опытов.

Определение. Несмещенная оценка параметра называется эффективной, если она среди всех несмещенных оценок, в определенном классе оценок данного параметра, обладает наименьшей дисперсией.

Можно показать, что:

- является состоятельной, несмещенной и эффективной оценкой в классе линейных оценок;

- является состоятельной, смещенной оценкой ;

- является состоятельной, несмещенной оценкой ;

(при больших разница между и мала.

используется при малых выборках, обычно при ) ;

- относительная частота появления события в независимых испытаниях является состоятельной, несмещенной и эффективной оценкой, в классе линейных оценок, неизвестной вероятности ( - вероятность появления события в каждом испытании);

- эмпирическая функция распределения выборки является состоятельной, несмещенной оценкой функции распределения случайной величины .

Для нахождения оценок неизвестных параметров используют различные методы. Наиболее распространенными являются: метод моментов, метод максимального правдоподобия (ММП), метод наименьших квадратов (МНК).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]