Posit1nov (1)
.pdf
Для широкого класса задач статистического оценивания типичное поведение квадратичного риска для достаточно хороших оценок – убывание со скоростью 1/n, то
есть
R2(ˆgn, θ) u(θ)/n,
где u(θ) – положительная функция. Отсюда√следует, что Rδn (ˆg, θ) → 0 для любой последовательности δn → 0 такой, что nδn → ∞. Это свойство называют √n-состоятельностью оценок. Оно означает, что типичный порядок отклонения оценки gˆn от оцениваемой характеристики g(θ) есть 1/√n.
Замечание 11.1 В конечнопараметрических задачах оценивания обычно хорошие оценки обладают свойствами состоятельности и √n-состоятельности. Это вер-
но и для ряда бесконечномерных задач оценивания (например при оценивании неизвестной функции распределения F = FX независимой однородной выборки). Вме-
сте с тем для широкого класса бесконечномерных задач оценивания (например при оценивании неизвестной плотности распределения f = fX ) обычно не существует √n-состоятельных оценок: порядок точности оценивания зависит от задан-
ного класса = {f } неизвестных плотностей и рассматриваемой меры близости
k ˆ − k fn f .
11.1.4 Задача доверительного оценивания
При решении задачи оценивания параметров или числовых характеристик распре-
ˆ |
(то есть |
деления мы получаем некоторое случайное значение θ Θ или gˆ G |
|
точку в множестве Θ или G; такие оценки называют также точечными), причем |
|
ˆ |
|
заранее не ясно, сколь сильно отличается оценка θ или gˆ от оцениваемой величины |
|
θ или g(θ). Во многих задачах желательно указать не точку, а область |
˜ |
Θ в мно- |
|
˜
жестве Θ или область G в множестве G, в которой лежит неизвестное значение θ или g(θ). Достоверно такую область нельзя указать (кроме, разумеется, всего мно-
˜ ˜
жества Θ = Θ или G = G). Поэтому задача доверительного оценивания ставится
следующим образом.
Задается величина γ (0, 1), которую называют уровнем надежности. Требует-
|
|
˜ |
|
˜ |
ся на основе данных наблюдений X X построить такую область Θγ = Θγ (X) Θ |
||||
˜ |
˜ |
|
|
|
или Gγ = Gγ (X) G, чтобы выполнялось соотношение |
|
|
||
|
˜ |
˜ |
|
(11.1) |
|
Pθ(θ Θγ ) |
≥ γ или Pθ(g(θ) Gγ ) ≥ γ для любого θ Θ. |
|
|
|
˜ |
˜ |
|
|
Такая область Θγ (или |
Gγ ) называется доверительной областью надежности γ. |
|||
Обычно величину γ |
выбирают близкой к 1: γ = 0, 9; 0, 95; 0, 99. Соотношения |
|||
(11.1) означают, что неизвестное значение θ или g(θ) лежит в области |
˜ |
˜ |
||
Θγ или Gγ с |
||||
близкой к 1 вероятностью.
В случае одномерного параметра θ R1 или одной числовой характеристики g(θ) в качестве доверительной области обычно выбирают доверительный интервал
˜ ˜
Θγ = [θγ−, θγ+] или Gγ = [gγ−, gγ+], где θγ± = θγ±(X) или gγ± = gγ±(X) – статистики,
представляющие из себя концы доверительного интервала.
При асимптотическом подходе задача заключается в том, чтобы на основе дан-
X ˜
ных наблюдений Xn n построить такую последовательность областей Θn,γ =
87
˜ ˜ ˜ → ∞
Θn,γ (Xn) Θ или Gn,γ = Gn,γ (Xn) G, чтобы при n выполнялись предель-
ные соотношения
˜ ≥ ˜ ≥ lim Pn,θ θ Θγ γ или lim Pn,θ g(θ) Gγ γ для любого θ Θ.
Такие области называются асимптотическими доверительными областями уровня надежности γ; аналогично определяется и понятие асимптотического доверительного интервала уровня надежности γ.
11.2Задача проверки статистических гипотез
11.2.1Гипотеза и альтернатива
Часто на основе данных наблюдения нужно проверить те или иные предположения о распределении вероятностей экспериментальных данных P = Pθ, например о том, что это распределение совпадает с заданным заранее: θ = θ0, что оно имеет заданные характеристики (среднее, дисперсию и т.д.): g(θ) = g0, или принадлежит
заданному классу распределений (является равномерным, нормальным и т.д.). Любое такое предположение называется cтатистической гипотезой H и выражается соотношением H : θ ΘH . Здесь ΘH – некоторое подмножество Θ.
Если множество ΘH состоит из одного элемента ΘH = {θH }, то гипотеза H называется простой: H : θ = θH . Если множество ΘH состоит более чем из одного элемента, то гипотеза H называется сложной.
Обычно имеется несколько возможных гипотез H1, ..., Hm, которым соответствуют непересекающиеся подмножества Θ1 = ΘH1 , ..., Θm = ΘHm . Требуется на основе данных наблюдений X X принять решение о справедливости одной из гипотез.
Мы будем рассматривать двухальтернативные задачи проверки гипотез, то есть m = 2. В этом случае одна из гипотез H0 : θ Θ0 называется основной (нулевой) гипотезой, а другая H1 : θ Θ1 называется альтернативой; Θ0, Θ1 Θ, Θ0 ∩Θ1 =
.
Часто в задачах проверки гипотез задается лишь основная гипотеза H0 : θ Θ0. При этом обычно имеется в виду, что альтернатива H1 соответствует случаю, когда основная гипотеза не выполнена: H1 : θ / Θ0, то есть Θ1 = Θ\Θ0 – дополнение множества Θ0 в Θ. Такие задачи называются задачами проверки согласия (с гипотезой H0).
11.2.2Тесты проверки гипотез
Правило принятия или отклонения основной гипотезы называется тестом проверки гипотез (его называют также критерием проверки гипотез). Тест можно рассматривать как функцию наблюдений ψ(X), X X, принимающую значения ψ(X) = 0 (это соответствует принятию основной гипотезы) или ψ(X) = 1 (это со-
ответствует отклонению основной гипотезы, то есть принятию альтернативы). Тест однозначно определяется одним из двух непересекающихся и дополняющих друг друга подмножеств
X0 = {X X : ψ(X) = 0}; X1 = {X X : ψ(X) = 1}; X0 = X \ X1.
88
Множество X0 называется допустимым, а множество X1 называется критическим. Если наблюдаемые данные x попадают в X1, то основная гипотеза H0 отвергается (принимается альтернатива H1); в противном случае (x X0) основная гипотеза H0 принимается. Обычно критерий задается с помощью статистики критерия L = L(X), X X, и числового порога критерия T :
(
0 при L(X) < T,
ψ(X) =
1 при L(X) ≥ T.
Алгоритм принятия решения составляют два этапа:
1)вычисление по наблюдениям X значения статистики L = L(X);
2)сравнение L = L(X) с порогом T ;
основная гипотеза принимается при L < T и отвергается при L ≥ T .
11.2.3Ошибки I и II рода и их вероятности
Решения, принимаемые на основе случайных данных с помощью того или иного теста ψ, могут быть как правильными, так и ошибочными. В задачах проверки
гипотез различают ошибки двух типов.
1.Ошибки I рода: отклонение основной гипотезы H0, в то время как она справедлива, то есть ψ(X) = 1 при θ Θ0.
2.Ошибки II рода: принятие основной гипотезы H0, в то время как имеет место альтернатива, то есть ψ(X) = 0 при θ Θ1.
Количественной характеристикой ошибок I и II рода являются их вероятности. Они характеризуют достоверность решений, принимаемых с помощью того или иного теста проверки гипотез.
Вероятность ошибок I рода теста ψ обозначается α(ψ, θ) и зависит от значения
параметра θ Θ0:
α(ψ, θ) = Pθ(X1), θ Θ0.
Уровнем значимости α(ψ) теста ψ называется величина максимальной веро-
ятности ошибок I рода:
α(ψ) = sup α(ψ, θ).
θ Θ0
Вероятность ошибок II рода теста ψ обозначается β(ψ, θ) и зависит от значения параметра θ Θ1:
β(ψ, θ) = Pθ(X0), θ Θ1.
Часто рассматривают также функцию мощности γ(ψ, θ) теста ψ:
γ(ψ, θ) = Pθ(X1) = 1 − β(ψ, θ), θ Θ1.
Функция мощности γ(ψ, θ) отличается от вероятности ошибок I рода α(ψ, θ) лишь областью изменения аргумента θ. Тест называется несмещенным, если
γ(ψ, θ1) ≥ α(ψ, θ0) для всех θ0 Θ0, θ1 Θ1.
Для теста ψ, заданного с помощью статистики L и порога T ,
α(ψ, θ0) |
= |
1 − Gθ0 (T ), θ0 Θ0; |
β(ψ, θ1) |
= |
Gθ1 (T ), γ(ψ) = 1 − Gθ1 (T ), θ1 Θ1, |
89
где Gθ(T ) = Pθ(L < T ) есть значение функции распределения статистики L для порога T , вычисленное при значении параметра θ Θ.
11.2.4Подход Неймана – Пирсона
В задачах проверки гипотез желательно построить такие тесты, у которых вероятности ошибок как I рода, так и II рода были бы минимальны. Это требование, однако, противоречиво: обычно уменьшение вероятностей ошибок I рода влечет увеличение вероятностей ошибок II рода (уменьшение мощности) и наоборот. Например, для теста, основанного на некоторой статистике L, уменьшение вероятностей ошибок I рода требует увеличения порога T , a уменьшение вероятностей ошибок II рода требует уменьшения порога T .
Вэтой связи обычно используют подход Неймана – Пирсона, состоящий в следующем. Задается малая величина α (0, 1) – максимально допустимая величина
вероятностей ошибок I рода (ее называют также допустимым уровнем значимости) и рассматриваются тесты ψ = ψα, для которых α(ψ) ≤ α. Выбор величины α зависит от конкретной задачи. Часто выбирают α = 0, 1, 0, 05 или 0, 01; если оши-
бочное отклонение основной гипотезы сопряжено с большими потерями, выбирают
α= 0, 001 и менее.
Втеории проверки гипотез разрабатываются методы построения тестов проверки различных гипотез при различных альтернативах и изучаются различные характеристики достоверности принимаемых решений, то есть вероятности ошибок и мощность тестов. Наиболее общие результаты удается получить в рамках асимптотического подхода.
11.2.5Асимптотические задачи проверки гипотез
При асимптотическом подходе последовательность тестов ψ = ψn часто называется
просто тестом и проводится исследование асимптотических (предельных) свойств
тестов ψ = {ψn} при n → ∞.
Для того чтобы характеризовать вероятности ошибок I рода, вводятся следующие определения. Говорят, что тест ψ = {ψn} имеет асимптотический уровень значимости α(ψ), α(ψ) [0, 1], если
αn(ψn) = sup α(ψn, θ) → α(ψ), n → ∞.
θ Θ0
При использовании подхода Неймана – Пирсона в асимптотическом варианте ограничение накладывается на асимптотический уровень значимости: α(ψ) ≤ α.
Важнейшие асимптотические свойства, характеризующие вероятности ошибок II рода, – это свойства состоятельности тестов. При асимптотическом подходе тест
ψ = {ψn} называется состоятельным, если β(ψn, θ) → 0 при n → ∞ для любого θ Θ1. Тест ψ = ψn называется состоятельным для последовательности θn Θ1,
если β(ψn, θn) → 0 при n → ∞.
Состоятельность теста ψ = {ψn} означает, что для любой простой альтернативы, соответствующей фиксированному значению параметра θ Θ1, вероятность ошибок II рода при достаточно больших n может быть сделана произвольно малой.
90
Однако это не значит, что тест ψ = {ψn} будет состоятельным для любой последовательности θn Θ1, то есть вероятность ошибок II рода будет мала при всех θ Θ1 для достаточно больших n. Напротив, в задачах проверки согласия, как правило, часто оказывается, что для любого n можно найти такие значения θn Θ1, при которых вероятность ошибок II рода будет достаточно большой: β(ψn, θn) ≥ β0. Это имеет место для последовательностей θn Θ, слишком близких к множеству Θ0,
соответствующему нулевой гипотезе.
Для заданной нормы k · k в L, Θ L, введем меру близости альтернативы
θ Θ1 и гипотезы H0: |
ρ θ, |
Θ0) = |
inf |
θ |
− |
θ |
. |
|
|
( |
θ0 |
Θ0 k |
|
0k |
|
||
|
|
|
|
|
|
|
|
|
Тест ψ = ψn называется √n-состоятельным, если β(ψn, θn) → 0 при n → ∞ для такой последовательности θn Θ1, что √nρ(θn, Θ0) → ∞.
Для задач проверки гипотез справедливо замечание, аналогичное замечанию 11.1, с заменой слова "оценка" словом "тест".
Наряду с состоятельностью в асимптотической теории проверки гипотез изучаются свойства тестов, связанные со скоростью убывания вероятностей ошибок I и II рода, а также методы построения наилучших в том или ином смысле тестов.
Отметим, что различные тесты состоятельны для различных последовательностей альтернатив θn и имеют разную скорость убывания вероятностей ошибок II
рода. Этим объясняется многообразие различных критериев, используемых в статистике.
11.3Оценивание и проверка гипотез
Задачи оценивания тесно связаны с задачами проверки гипотез. Пусть, например, гипотезе и альтернативе соответствуют множества Θ0 и Θ1 в Θ, причем
d |
(Θ0 |
, |
Θ1) = θ1 |
|
inf |
|
Θ0 k |
θ |
|
θ |
> |
0 |
||||||
|
|
|
Θ1,θ0 |
|
1 − |
0k |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
(это условие означает, что множества Θ0 и Θ1 отделены друг от друга). Пусть θn – |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
состоятельная оценка параметра θ Θ. Тогда при гипотезе H0 значение оценки θn |
||||||||||||||||||
с большой вероятностью будет близко к Θ0, а при альтернативе H1 – к Θ1. Поэтому, |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|
ˆ |
|
|
|
ˆ |
сравнивая между собой расстояния d(θn, Θ1) и d(θn |
, Θ0) оценки θn от множеств Θ0 |
|||||||||||||||||
и Θ1, где |
ˆ |
|
|
|
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
, |
|
|
inf |
− |
θ |
k ≥ 0 |
, |
j = 0, 1 |
|||||||||
d θ |
|
|
θ |
|||||||||||||||
( |
n |
|
Θj ) = θ |
|
Θj |
k n |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(то есть принимая гипотезу |
|
|
|
|
|
|
ˆ |
|
|
|
|
ˆ |
|
|
|
|||
|
H0 при d(θn, Θ1) > d(θn, Θ0) и альтернативу H1 в про- |
|||||||||||||||||
тивном случае), мы получим состоятельный тест проверки гипотез. |
||||||||||||||||||
C другой стороны, пусть |
|
˜ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Gγ – доверительная область для характеристики g(θ) |
||||||||||||||||||
c уровнем доверия γ (0, 1). Рассмотрим задачу проверки гипотезы H0 : g(θ) G0, где G0 – заданное множество значений характеристики g(θ). Эту гипотезу можно представить в виде H0 : θ Θ0, где Θ0 – множество таких значений параметра, при которых g(θ) G0.
Раccмотрим тест проверки согласия с гипотезой H0 следующего вида: гипотеза
˜
H0 принимается, если доверительная область Gγ пересекается с множеством G0, то
91
˜ |
|
|
|
есть при Gγ ∩ G0 6= , и отвергается в противном случае. Поскольку при θ Θ0 |
|||
˜ |
˜ |
6= , для вероятности ошибок первого |
|
событие g(θ) Gγ влечет событие Gγ ∩ G0 |
|||
рода для этого теста имеем: |
|
|
|
˜ |
6= ) ≤ 1 |
˜ |
Θ0, |
α(ψ, θ) = 1 − Pθ(Gγ ∩ G0 |
− Pθ(θ Gγ ) ≤ 1 − γ, θ |
||
так что мы получаем тест уровня значимости не больше α = 1 − γ. |
˜ |
||
Аналогично, имея последовательность доверительных областей Gn,γ c асимптотическим уровнем доверия γ (0, 1), мы получаем последовательность тестов асимптотического уровня значимости не больше α = 1 − γ.
Во многих задачах описанные конструкции приводят к оптимальным или асимптотически оптимальным тестам.
12Статистические задачи, связанные с неизвестной функцией распределения
В этом разделе мы рассмотрим модель независимой однородной выборки c неизвестной функцией распределения F = FX , где X – случайная величина.
Неизвестная функция распределения FX = F может рассматриваться как функциональный параметр F F, где F – некоторое множество функций распределе-
ния.
Мы рассмотрим методы решения основных статистических задач: оценивания, доверительного оценивания неизвестной функции распределения, а также проверки некоторых гипотез о функции распределения F = FX .
12.1Эмпирическая функция распределения
Пусть X – случайная величина. С выборкой X(n) = (X1, ..., Xn) можно связать
эмпирическую функцию распределения (ЭФР) Fn(t) = Fn(t, X(n)):
Fn(t) = n1 число элементов Xi выборки X(n), меньших t .
Эмпирическую функцию распределения можно описать иначе.
1. Обозначим через 1IA(X), X X, индикаторную функцию (индикатор) мно-
жества A X: |
A |
|
|
(0, если X / A. |
|
|||
|
1I |
(X) = |
1, если |
X A, |
|
|||
|
|
|
|
|
|
|
|
|
Пусть A(t) = {X < t} – |
событие, состоящее в том, что случайная величина примет |
|||||||
|
|
1 |
– вещественное число. Тогда |
|
||||
значение, меньшее t, где t R |
|
|
||||||
|
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
(n)) = |
X |
|
|
|
Fn(t) = Fn(t, X |
|
1IA(t)(Xi). |
(12.1) |
||||
|
|
|
|
|
|
n |
i=1 |
|
|
|
|
|
|
|
|
|
|
92
2. Пусть среди элементов выборки нет равных. Обозначим через Xn дискретную случайную величину, принимающую значения X1, ..., Xn c вероятностями 1/n:
P (Xn = Xi) = n1 ; i = 1, ..., n.
Если среди элементов выборки есть равные (значение Xi встречается ni раз), то P (Xn = Xi) = ni/n. Тогда Fn(t) = FXn (t) – функция распределения случайной величины Xn.
3. Вариационным рядом выборки X(n) = (X1, ..., Xn) называется упорядоченный набор X(1) ≤ ... ≤ X(n), составленный из элементов выборки X(n). Величины X(k) называются порядковыми статистиками порядка k, 1 ≤ k ≤ n. Величины X(1) = min Xi, X(n) = max Xi называются крайними членами вариационного ряда.
Формально положим X(0) = −∞, X(n+1) = ∞. Тогда
k |
при X(k) < t < X(k+1), k = 0, ..., n. |
(12.2) |
Fn(t) = n |
При заданной выборке X(n) = (X1, ..., Xn) эмпирическая функция распределения Fn(t, X(n)) есть кусочно-постоянная функция, равная 0 при t < X(1), равная 1 при t ≥ X(n) и со скачками nk/n в точках X(k) вариационного ряда выборки.
|
Соотношение (12.2) определяет функцию Fn(t) везде, кроме точек вариацион- |
ного ряда. В точках вариационного ряда значения Fn(X(k)) определяются требова- |
|
нием непрерывности слева. Если все члены вариационного ряда различны (сре- |
|
ди |
элементов выборки нет равных), то Fn(X(k+1)) = k/n, k = 0, ..., n − 1. Ес- |
ли |
среди элементов выборки есть равные (значение X(k) встречается nk раз), то |
Fn(X(k+1)) = Fn(X(k)) + nk /n при X(k+1) > X(k) и Fn(X(k+1)) = Fn(X(k)) при
X(k+1) = X(k), k = 0, ..., n − 1; Fn(X(0)) = 0.
Можно показать, что эти три определения эквивалентны.
12.2Статистические свойства ЭФР
Статистические свойства эмпирической функции распределения связаны с трактовкой наблюдаемых данных как реализации набора X(n) = (X1, ..., Xn) независимых случайных величин с функцией распределения F (t) = FX (t). В этом случае Fn(t) = Fn(t, X(n)) при фиксированном t есть случайная величина, а при переменном t – случайная функция от t.
Замечание. Для непрерывной функции распределения F = FX случайная величина χ = F (X) имеет равномерное распределение на интервале [0, 1]. Поэтому
совместное Pn,F -распределение значений F (X(1)), ..., F (X(n)) совпадает с совместным распределением вариационного ряда χ(1), ..., χ(n) выборки из равномерного распределения на интервале [0, 1] и не зависит от функции распределения F .
12.2.1Свойства ЭФР при фиксированном значении аргумента
Зафиксируем t и рассмотрим свойства случайной величины gˆn = Fn(t) = Fn(t, X(n)) как оценки значения g(F ) = F (t). Заметим, что входящие в (12.1) случайные ве-
93
личины Yi(t) = 1IA(t)(Xi) независимы, одинаково распределены и имеют бернуллиевское распределение Bp с параметром p = F (t), то есть Y (t) = 1IA(t)(X) Bp.
Поэтому
EF Y (t) = F (t); DF Y (t) = F (t)(1 − F (t)).
В силу (12.1) отсюда имеем:
En,F (Fn(t)) |
= |
1 |
En,F |
|
|
||||
n |
||||
Dn,F (Fn(t)) |
= |
1 |
Dn,F |
|
2 |
||||
|
|
n |
||
n |
|
= EF Y (t) = F (t); |
(12.3) |
|||
i=1 Yi(t)! |
||||||
X |
Yi(t)! |
|
|
|
|
|
n |
1 |
|
|
|||
i=1 |
= n DF Y (t) = |
|
||||
X |
|
|
|
|
|
|
|
1 |
− F (t)). |
(12.4) |
= |
n F (t)(1 |
Соотношение (12.3) показывает, что значение эмпирической функции распределения Fn(t) = Fn(t, X(n)) является несмещенной оценкой значения неизвестной функции распределения g(F ) = F (t) (см. подразд. 13.1).
Из несмещенности оценки следует, как отмечено в подразд. 13.1, что квадратичный риск совпадает с дисперсией и с учетом (12.4) есть
R2(Fn(t), F ) = Dn,F (Fn(t)) = F (t)(1 − F (t))/n → 0, n → ∞.
Отсюда следует (cм. п. 11.1.3), что эта оценка является состоятельной и √n-
состоятельной.
12.2.2Свойства ЭФР ”в целом”
Для того чтобы рассматривать свойства эмпирической функции распределения как оценки функции распределения "в целом", то есть одновременно при всевозможных t, нужно ввести меру близости Fn и F . Можно считать, что F = Θ L, где в качестве линейного пространства L рассматривается множество ограниченных измеримых функций u = u(t) на R1.
Есть разные способы измерения расстояния между функциями распределения, основанные на различных нормах в линейном пространстве L. Одним из наиболее
важных в статистике является расстояние Колмогорова |
|
|||||||||||||
ρ |
F, F |
|
sup |
| |
F (t) |
|
F (t) |
, |
(12.5) |
|||||
∞( |
|
|
0) = t |
|
|
|
− |
0 |
| |
|
|
|||
основанное на норме максимального отклонения |
|
|
|
|
|
|||||||||
k |
u |
k∞ |
= |
t | |
|
( )| |
, u |
L. |
|
|
|
|||
|
|
|
sup |
u t |
|
|
|
|
||||||
Сформулируем некоторые теоремы о расстояниях Колмогорова.
Теорема 12.1 (Гливенко – Кантелли). Пусть множество F состоит из всех функций распределения. Тогда для любой F F c вероятностью 1 справедливо предельное равенство ρ∞(Fn, F ) → 0 при n → ∞.
94
Теорема Гливенко – Кантелли утверждает, что с вероятностью 1 числовая последовательность ρ∞(Fn, F ) стремиеся к нулю, то есть с вероятностью 1 эмпирическая функция распределения Fn(t) сходится к теоретической функции распределения F (t) = FX (t) случайной величины X.
Из теории вероятностей известно, что сходимость с вероятностью 1 влечет за собой сходимость по вероятности: для любого ε > 0
Pn,F (ρ∞(Fn, F ) > ε) → 0, если n → ∞.
Это соотношение означает соcтоятельность эмпирической функции распределения как оценки функции распределения при использовании расстояния Колмогорова для измерения близости. Более точные оценки близости основаны на следующей теореме.
Теорема 12.2 (Колмогорова). Пусть множество FH состоит из непрерывных функций распределения. Тогда для любой F FH справедливо предельное равенство
|
√ |
|
|
|||||||
Pn,F |
nρ∞(Fn, F ) < u → K(u), если n → ∞, |
|||||||||
где функция K(u) определяется равенством |
|
|
||||||||
|
( |
j= |
( 1) |
|
e− |
|
, |
если u > 0. |
||
K(u) = |
0, ∞ |
−∞ − |
j |
|
2(ju)2 |
|
если u ≤ 0, |
|||
|
|
|
|
P |
|
|
|
|
|
|
Функция K(u) называется функцией распределения Колмогорова. Она непрерывна, строго возрастает при u > 0, и K(u) → 1 при u → ∞. Таблицы функции
распределения Колмогорова содержатся, например, в [2].
Случайные величины dn = √nρ∞(Fn, F ) могут быть выражены в явном виде через значения F (X(i)) неизвестной функции распределения в точках X(i) вариаци-
онного ряда выборки:
d |
n = |
|
|
1 i n |
{| |
( |
X |
(i)) − |
|; | |
( |
X |
(i)) − ( |
− 1) |} |
(12.6) |
|
√n max max |
|
F |
|
i/n |
F |
i |
/n . |
||||||
≤ ≤
Из замечания п. 12.2 следует, что не только предельные, но и допредельные Pn,F - распределения статистик dn не зависят от неизвестной непрерывной функции распределения F FH при всех n. Статистики, обладающие таким свойством, назы-
ваются свободными от распределения.
Из теоремы Колмогорова и из свойств функции K(u) вытекает следующее соотношение: для любой числовой последовательности un и любой последовательности
непрерывных функций распределения F (n) FH |
|
|
Pn,F (n) |
√nρ∞(Fn, F (n)) < un = K(un) + o(1). |
(12.7) |
95
12.3Доверительные области для функции распределения
Используя теорему Колмогорова 12.2, можно построить доверительную полосу для неизвестной функции распределения. Положим
− |
√ |
|
|
+ |
√ |
|
|
|
n), |
||||||
Fn,γ (t) = max(0, Fn(t) − uγ / |
n), |
Fn,γ (t) = min(1, Fn(t) + uγ / |
|
||||
где величина uγ определяется из условия K(uγ ) = γ.
Рассмотрим множество Fn,γ,∞, состоящее из непрерывных функций распределения F FH , график которых лежит внутри полосы, ограниченной графиками ступенчатых функций Fn,γ± (t), −∞ < t < ∞. Тогда теорема Колмогорова означает, что для любой непрерывной функции распределения F FH
Pn,F (F Fn,γ,∞) = Pn,F (dn < uγ ) → K(uγ ) = γ, n → ∞.
Другими словами, множества Fn,γ,∞ представляют собой асимптотическую
доверительную полосу для неизвестной функции распределения c уровнем доверия
γ: при больших n c вероятностью, близкой к γ, неизвестная функция распределения будет лежать внутри полосы Fn,γ,∞.
12.4Критерии согласия Колмогорова
Пусть F0 FH – заданная непрерывная функция распределения. Рассмотрим задачу проверки простой гипотезы H0 : FX = F0 о функции распределения генеральной совокупности X. Эту задачу можно трактовать как задачу проверки согласия и в качестве множества F рассматривать множество FH всех непрерывных функций распределения, то есть H1 : FX FH , FX 6= F0.
Назовем критерием Колмогорова асимптотического уровня значимости α по-
следовательность тестов |
|
(0, |
|
√nρ∞(Fn, F0) < uα, |
|||
n 1 |
n |
|
если dn = |
||||
|
|
|
1, |
если dn = |
√ |
|
|
ψ (X |
, ..., X |
) = |
nρ∞(Fn, F0) ≥ uα, |
||||
|
|
|
|
|
|
|
|
где величина uα = u1−α определяется из условия K(uα) = 1 − α.
Для критерия Колмогорова вероятность ошибок I рода есть
α(ψn) = Pn,F0 (dn ≥ uα) = 1 − Pn,F0 (dn < uα) → 1 − K(uα) = α
при n → ∞ в силу теоремы Колмогорова.
Для оценки вероятностей ошибок II рода критерия Колмогорова зафиксируем альтернативу F 6= F0. В силу теоремы Гливенко – Кантелли Fn(t) → F (t) при n → ∞ равномерно по t R1, так что ρ∞(Fn, F0) → ρ∞(F, F0) > 0. Следовательно, √nρ∞(Fn, F0) → ∞ при n → ∞ по Pn,F -вероятности. Поэтому
√
β(ψn, F ) = Pn,F ( nρ∞(Fn, F0) < uα) → 0, n → ∞.
Отметим также неравенство
ρ∞(Fn, F0) ≥ ρ∞(F, F0) − ρ∞(Fn, F ),
96
