Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тер вер.doc
Скачиваний:
67
Добавлен:
03.10.2013
Размер:
1.28 Mб
Скачать

18 Статистические оценки Точечные

Пусть выборка

Zn

Δ =

col(X1, ... , Xn)

соответствует функции распределения

F(x,θ)

Δ =

P{X ≤ x},

зависящей от неизвестного параметра θ. Точечной (выборочной) оценкой неизвестного параметра θ называется функция

 ^ θ(Zn)

случайной выборки Zn, реализация

 ^ θ(zn)

которой принимается за приближенное значение θ.

2Оценка

 ^ θ(Zn)

параметра θ называется несмещенной, если ее МО при любом n равно θ, т.е.

 M[

 ^ θ(Zn)] = θ.

3Оценка

 ^ θ(Zn)

называется состоятельной, если она сходится по вероятности к θ, т.е.

 ^ θ(Zn)

 P

θ при n → ∞.

Свойствами состоятельности и несмещенности могут обладать сразу несколько оценок неизвестного параметра θ.

Несмещенная оценка

 ^ θ

*(Zn)

параметра θ называется эффективной, если

D[

 ^ θ

*(Zn)] ≤ D[

 ^ θ

(Zn)] 

для всех несмещенных оценок

 ^ θ(Zn),

т.е. ее дисперсия минимальна по сравнению с дисперсиями других несмещенных оценок при одном и том же объеме n выборки Zn.

θ1

Δ =

mX ,   θ2

Δ =

σX .

Замечание 2.   Пусть СВ X имеет нормальное распределение N(mX,σX) с неизвестными параметрами

В этом случае выборочное среднее является эффективной оценкой МО.

zn

Δ =

col(x1, x2, ... , xn):

2. Метод максимального правдоподобияНа практике часто удается предсказать вид плотности распределения fX(x,θ1, ... , θs) непрерывной СВ X с точностью до неизвестных параметров θ1, ... , θs (например θ1 = mX, θ2 = dX при s = 2), которые требуется оценить по выборке Zn.Рассмотрим выборку Zn, соответствующую плотности fX(x,θ1, ... , θs) СВ X. Функцией правдоподобия называется плотность распределения n-мерной СВ Zn с реализацией

L(zn,θ1, ... , θs)

Δ =

fZ

n

(zn,θ1, ... , θs)

Л13.Р1.О1       =

   n  ∏  k=1

fX(xk,θ1, ... , θs).

Оценкой максимального правдоподобия (ММП-оценкой), найденной по методу максимального правдоподобия, называется оценка

 ^ θ(Zn),

максимизирующая для каждой реализации zn функцию правдоподобия:

 ^ θ(Zn) = arg

max   θ

L(zn,θ),   θ

Δ =

col(θ1, ... , θs) .

Аналогично определяется ММП-оценка θ при неоднородной выборке

Zn

Δ =

col(X1, ... , Xn),

когда СВ Xk, к = 1,n , по-прежнему независимы, но имеют различные плотности распределения fXk(xk,θ1, ... , θs), зависящие от одного и того же набора неизвестных параметров θ1, ... , θs .

3. Метод наименьших квадратовРассмотрим линейную регрессионную модель из предыдущего раздела, не предполагая, что ошибки Wk имеют нормальное распределение, и, кроме того, считая, что коэффициенты Xk случайны:

Yk

Δ =

aXk + b + Wk ,

k = 1,n . Пусть M[Wk] = 0, D[Wk] = σ2 и неизвестна, СВ Wk, k = 1,n, независимы. Предположим, что СВ Xk и Wk, k = 1,n, независимы, причем Xk имеют одно и то же, но неизвестное распределение FX(x). По результатам наблюдений (y1,x1),...,(yn,xn) требуется оценить неизвестные параметры a и b в линейной регрессионной модели. Для неоднородной выборки

zn

Δ =

col(y1, ... , yn, x1, ... , xn)

рассмотрим квадратическую функцию:

Q(zn,a,b) = 

 1

 n

   n  ∑  k=1

(yk - axk - b)2 ,

характеризующую среднюю по n квадратическую ошибку предсказания того, что в n наблюдениях СВ Y примет значения yk, k = 1,n .

МНК-оценками, полученными по методу наименьших квадратов неизвестных параметров a и b в линейной регрессионной модели

Yk

Δ =

aXk + b + Wk ,

k = 1,n, называются оценки

 ^ a(Zn) и

 ^ b(Zn) ,

значения которых минимизируют квадратическую функцию Q(zn,a,b), построенную по апостериорной выборке zn.

случае видно, что функция Q(zn,a,b) совпадает по форме с точностью до коэффициентов с логарифмической функцией правдоподобия из примера Л15.Р2.П1:

Q(zn,a,b) = -2σ2

 ~ L(zn,a,b) -2σ2n ln(σ√2π).

Поэтому минимум функции Q(zn,a,b) по параметрам a и b достигается при тех же значениях

 ^ a и

 ^ b ,

что и в методе максимального правдоподобия (минимизация функции Q(zn,a,b) по a и b эквивалентна максимизации функции

 ~ L(zn,a,b))

  ^ MX

Найденные по методу наименьших квадратов оценки

 ^ a(zn) и

 ^ b(zn)

неизвестных параметров a и b имеют место для произвольных случайных ошибок Wk и случайных коэффициентов Xk, тогда как по методу максимального правдоподобия эти же оценки получены в предположении о нормальности Wk и для детерминированных значений xk, k =1,n. Иными словами, МНК-оценки оказываются более робастными (т.е. менее чувствительными к априорной информации о случайных коэффициентах Xk и ошибках Wk) по сравнению с ММП-оценками.

19 Статистическая проверка гипотезСтатистическими гипотезами называются любые предположения относительно закона распределения СВ X, проверяемые по выборке Zn.По выборке Zn требуется проверить гипотезу H0 о том, что mX= m, где m - некоторое фиксированное число.Статистикой называется произвольная функция Z = φ(Zn) выборки Zn, для значений которой известны условные плотности распределения f(z|H0) и f(z|H1) относительно проверяемой гипотезы H0 и конкурирующей с ней альтернативной гипотезы H1.Из опред следует, что Z есть СВ. Практическое применение математической статистики состоит в проверке соответствия результатов экспериментов предполагаемой гипотезе. С этой целью строится процедура (правило) проверки гипотезы.Критерием согласия называется правило, в соответствии с которым по реализации

z

Δ =

φ(zn)

статистики Z, вычисленной на основании апостериорной выборки zn, гипотеза H0 принимается или отвергается. Критической областью G называется область реализаций z статистики Z, при которых гипотеза H0 отвергается.Доверительной областью G называется область значений z статистики Z, при которых гипотеза H0 принимается.Уровнем значимости p критерия согласия называется вероятность события, стоящего в том, что гипотеза H0 отвергается, когда она верна, т.е.

p

Δ =

P{Z G|H0} ,

где вероятность P соответствует условной плотности распределения f(z|H0). Мощностью γ критерия согласия называется вероятность события, состоящего в том, что гипотеза H0 отвергается, когда она неверна, т.е.

γ

Δ =

P{Z G|H1} ,

где вероятность P соответствует условной плотности f(z|H1). Критической точкой zβ называется точка на оси Oz, являющаяся квантилью уровня

β

Δ =

1 - p

распределения F(z|H0), соответствующего плотности распределения f(z|H0). На рис.1 показана графическая интерпретация введенных понятий, где β + p = 1, δ + γ = 1.

В качестве критерия согласия примем правило:     1)   если значение

z

Δ =

φ(zn)

статистики Z = φ(Zn) лежит в критической области G, то гипотеза H0 отвергается и принимается альтернативная гипотеза H1;   2)   если реализация

z

Δ =

φ(zn)

статистики Z = φ(Zn) лежит в доверительной области G, то гипотеза H0 принимается. При реализации данного правила могут возникнуть ошибки двух видов. Ошибкой 1-го рода называется событие, состоящее в том, что гипотеза H0 отвергается, когда она верна. Вероятность этой ошибки равна

p

Δ =

P{Z G|H0} .

Ошибкой 2-го рода называется событие, состоящее в том, что гипотеза H0 принимается, когда она неверна. Вероятность этой ошибки равна

δ

Δ =

P{Z G|H1} = 1 - γ .

Из рисунка видно, что с уменьшением вероятности p ошибки 1-го рода возрастает вероятность ошибки 2-го рода и наоборот, т.е. при выборе критической и доверительной областей должен достигаться определенный компромисс.

Проверка гипотезы о значении параметров нормального распределения Замечание 1.   Пусть известно, что СВ X имеет нормальное распределение. Требуется проверить гипотезу H0, состоящую в том, что mX = m (m - некоторое фиксированное число), используя апостериорную выборку zn. Возможны два случая: дисперсия (σX)2 известна или неизвестна.

Предполо- жение

Статистика Z критерия согласия

Распре- деление

Доверительная область G принятия гипотезы Н0

      σX известно

    ^ (MX - m)√n

      σX

N(0,1)

[-uα , uα]

      σX неизвестно

    ^ (MX - m)√n-1

           ^         √DX

S(n-1)

[-tα(n - 1) , tα(n - 1)]

Для каждого случая в соответствии с примерами Л15.Р4.П1 и Л15.Р4.П2 получаем свой критерий согласия. (ниже uα, tα(n - 1) - квантили уровня

α

Δ =

1 - p / 2

распределений N(0,1) и S(n-1) соответственно). Пусть СВ X нормально распределена, но ее дисперсия неизвестна. Требуется проверить гипотезу H0, что σX = σ (σ - некоторое фиксированное число), на основе апостериорной выборки zn. Возможны два случая: mX - известно или mX - неизвестно (ниже χα(k), χ1-α(k) - квантили уровня α и 1-α распределения Χ2(k) с k степенями свободы,

α

Δ =

1 - p / 2 для k = n,n-1) :

Предпо- ложение

Статистика Z критерия согласия

Распре- деление

Доверительная область G принятия гипотезы Н0

      mX известно

   n  ∑(Xk - mX)2  k=1

      σ2

Χ2(n)

[-χ1-α(n) , χα(n)]

      mX неизвестно

         ^     nDX

       σ2

Χ2(n-1)

[-χ1-α(n-1) , χα(n-1)]

На практике обычно задают p [0.01 , 0.05].

Проверка гипотезы о законе распределения случайной величины Замечание 1.   Пусть имеется апостериорная выборка zn и требуется проверить гипотезу H0, состоящую в том, что непрерывная СВ X имеет определенный закон распределения f(x) (например, нормальный, равномерный и т.д.). Истинный закон распределения f(x) неизвестен. Для проверки такой гипотезы обычно используют критерий согласия хи-квадрат (критерий Пирсона). Правило проверки состоит в следующем:     1.   Формулируется гипотеза H0, состоящая в том, что СВ X имеет плотность распределения определенного вида f(x,θ1, ... , θs) с s неизвестными параметрами θ1, ... , θs(например, m и σ для нормального распределения, a и b - для равномерного и т.д.)     2.   По апостериорной выборке zn методом максимального правдоподобия (или методом наименьших квадратов) находятся оценки

 ^ θ1, ... ,

 ^ θs

неизвестных параметров θ1, ... , θs     3.   Действительная ось R1 разбивается на j + 1 непересекающихся полуинтервалов Δ0, ... , Δj так, как это сделано в Л13.Р2.31 при построении гистограммы. Подсчитывается число nk элементов выборки, попавших в каждый полуинтервал Δk , k = 1, j-1, кроме Δ0 и Δj.     4.   Вычисляются вероятности pk попадания СВ X в полуинтервалы Δk , k = 0, j , по формуле

pk =

αk+1  ∫ αk

f(x, 

 ^ θ1, .... ,

 ^ θs) dx ,

где α0 = -∞, αj+1 = +∞. Для разрядов Δk , k = 1,j-1 значения pk можно вычислить приближенно по формуле

pk f(xk,

 ^ θ1, .... ,

 ^ θs)(αk+1-αk),

где

xk

Δ =

(αk+1 + αk) / 2

- середина разряда Δk.     5.   Вычисляется реализация статистики критерия хи-квадрат по формуле

z

Δ =

φ(zn)

Δ = np0 +

  j-1  ∑  k=1

(nk-npk)2 / (npk) + (npj) .

    6.   В соответствии с критерием согласия хи-квадрат гипотеза H0 принимается (т.е. она согласуется с выборкой zn), если φ(zn) ≤ χ1-p(j-s), где χ1-p(j-s) - квантиль уровня 1-p распределения хи-квадрат с (j-s) степенью свободы, p - заданный уровень значимости (обычно p = 0.05), s - количество неизвестных параметров предполагаемого закона распределения f(x,θ1, ... , θs). Если же φ(zn) > χ1-p(j-s), то гипотеза H0 отвергается. При разбиении на полуинтервалы Δk, необходимо учитывать, чтобы npk ≥ 5 для k = 1, j-1 . В противном случае (npk < 5) соседние полуинтервалы объединяются.