Lektsii (1) / Lecture 16
.pdfICEF, 2012/2013 STATISTICS 1 year LECTURES
Лекция 16 |
15.01.13 |
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
(CONFIDENCE INTERVALS)
Наличие точечной оценки θˆ параметра θ не позволяет в общем случае «локализовать» положение этого параметра. Поэтому естественной является следующий вопрос: нельзя ли найти такой интервал I = (a,b) , зависящий от наблюдений x1, x2 ,..., xn ,
который «накрывает» параметр θ с достаточно большой вероятностью.
Определение. Интервал I = (a,b) = (a(x1, x2 ,..., xn ), b(x1, x2 ,..., xn )) называется доверительным интервалом для параметра θ с уровнем доверия 1−α (или 100(1−α)% ),
если
P(θ I ) ≥1−α .
Обычно рассматривают 90%-ные (α = 0.1 ), 95%-ные (α = 0.05 ), 99%-ные (α = 0.01 ) доверительные интервалы.
Не существует универсального метода построения доверительных интервалов, однако есть некоторые приёмы, позволяющие находить такие интервалы для определённых классов задач.
Пример 1. Пусть генеральная совокупность является нормальной, X N (µ,σ) , и пусть x1, x2 ,..., xn − выборка из этой генеральной совокупности. Предположим, что стандартное отклонение σ известно. Тогда, как известно, величина
Z = (x −µ) n
σ
является стандартной нормальной случайной величиной. Используя таблицы, получаем:
|
|
|
(x −µ) n |
|
|
|
|
|
|
||||||
0.95 = Pr(| Z |<1.96) = Pr |
|
|
|
|
|
<1.96 . |
|
σ |
|||||||
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Разрешая последнее неравенство относительно µ , получаем:
|
σ |
|
σ |
|
|
Pr x −1.96 |
|
< µ < x +1.96 |
|
|
= 0.95 . |
n |
|
||||
|
|
n |
|
Но это по определению означает, что интервал
|
σ |
|
σ |
|
I = x −1.96 |
|
, x +1.96 |
|
|
n |
|
|||
|
|
n |
является 95%-ным доверительным интервалом для среднего значения µ .
Целесообразно ввести новое понятие процентной точки, которое будет постоянно использоваться в дальнейшем.
Определение. Пусть 0 < β <1. Число zβ называется 100% β −ной точкой стандартной нормальной случайной величины Z, если Pr(Z > zβ ) = β .
Иными словами, 100% β −ная точка стандартной нормальной случайной величины − это такое число, что правый хвост стандартной нормальной кривой, расположенный правее точки zβ имеет площадь β . Например, z0.1 =1.28, z0.05 =1.65, z0.025 =1.96 .
Упражнение. Покажите, что z1−β = −zβ .
Тогда для произвольного уровня доверия 1−α , повторяя те же самые рассуждения, получаем 100(1−α)% -ный доверительный интервал:
|
|
|
|
|
σ |
|
σ |
||
|
I1−α = x |
− zα / 2 |
|
|
|
, x + zα / 2 |
|
. |
|
|
|
|
n |
|
|||||
|
|
|
|
|
|
|
n |
||
Используют также обозначение |
|
|
|||||||
|
µ = x ± z |
|
σ |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
α / 2 |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как мы видим, в этом случае центром доверительного интервала является стандартная точечная оценка популяционного среднего − выборочное среднее. Такой доверительный интервал называют двусторонним (two-sided) или симметричным, а половину его длины − границей ошибки (margin of error). Таким образом, в данном случае граница ошибки
равна z |
σ |
. |
|
||
α / 2 |
n |
|
|
Confidence interval for the mean of normal population (standard deviation is unknown) t−distribution
Let |
X N (µ,σ) be a normal population and let x1,..., xn |
be a sample from this population. The |
|||||||||
(1−α) −confidence interval for the µ is |
|
|
|
|
|||||||
|
|
µ = x ± z |
|
σ |
|
|
|
(1) |
|||
|
|
|
|
|
|
|
|||||
|
|
|
|
α / 2 |
n |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
when standard deviation is known. (As usually, |
x = |
1 |
∑n |
xi is a sample mean and |
|||||||
|
|||||||||||
|
|
|
|
|
|
|
|
|
n i=1 |
|
|
s = |
1 |
∑n |
(xi |
− x )2 is a sample standard deviation.) |
|
||||||
|
|
|
|||||||||
|
|
n −1 i=1 |
|
|
|
|
|
|
|
|
Now the standard deviation is assumed to be unknown. How the previous formula (1) should be changed? Let’s remind that the (1) was obtained by using the following fact: the random variable
(x −µ) n is the standard random variable. Now consider the random variable
σ
t = |
(x −µ) n . |
(2) |
|
s |
|
It can be proved (the corresponding result is called Fisher’s Lemma) that the distribution of t does not depend on parameters µ,σ and depends only on n (sample size).
The distribution of the random variable t in (2) is called t−distribution or Student’s distribution with n−1 degrees of freedom. We will denote the t−distribution with k degrees of freedom by t(k) . Thus
(x −µ) n t(n −1) . s