Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка эксперим данных Роганов

.pdf
Скачиваний:
23
Добавлен:
22.05.2015
Размер:
1.37 Mб
Скачать

критериев, называемых критериями согласия, составляет одну из важных задач математической статистики.

Рассмотрим случай простой гипотезы H = (FX (x)= F (x)). Пусть

X1, X2 , ..., Xn – случайная выборка, т.е. наблюдаемые значения случайной величины Х, и пусть Fn* (x) эмпирическая функция распределения выборки.

Определим некоторую неотрицательную меру D отклонения

эмпирической

функции

распределения

Fn* (x) от предполагаемой

(теоретической)

функции

распределения

F(x) D = D(Fn* , F ). Величину D

можно определить многими способами, в соответствии с которыми получаются различные критерии для проверки интересующей нас гипотезы. Например, можно положить

 

D(F* , F )= sup

 

F* (x)F(x)

 

 

 

 

 

 

n

x

 

n

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

D(Fn* , F )= [Fn* (x)F(x)]2k g(x)dx

 

 

−∞

где g(x)> 0,

g(x)dx < ∞ . В первом случае для проверки данной гипотезы

 

−∞

 

 

 

 

 

получим критерий Колмогорова, во втором случае (при k =1) – критерий ω2

Мизеса.

Величины X1, X2 , ..., Xn, образующие выборку, в случае справедливости выдвинутой гипотезы можно рассматривать как независимые одинаково распределенные случайные величины с функцией распределения

F(x). Но тогда величина D, как бы она ни была определена, является функцией от случайных величин и поэтому сама есть величина случайная.

 

Предположим, что выдвинутая гипотеза верна, т.е. FX (x)= F(x). Тогда

распределение случайной величины

D может быть найдено. Зададим число

ε > 0

столь малое, что можно

считать практически невозможным

111

осуществление события с вероятностью ε в единичном опыте. Считая известным распределение случайной величины D, можно найти такое число

Do , что

P{D > D0 }=ε . Пусть имеются фактически наблюдаемые значения

X1, X2 , ..., Xn. По этим значениям строим функцию Fn* (x)

и вычисляем

величину

D(F * , F ). Если полученная величина D окажется больше D , то это

 

n

o

означает, что событие с вероятностью ε произошло (т.е. произошло событие, которое считаем практически невозможным).

Таким образом, если D > Do, то предположение о справедливости выдвинутой гипотезы привело к выводу, что произошло практически невозможное событие, т.е. гипотеза опровергнута опытом. Если же вычисленная величина D(Fn* , F ) окажется меньше Do , то считают, что гипотеза не противоречит опытным данным и, возможно, может быть принята.

Отметим, что опровержение гипотезы при D > Do ни в коем случае не означает логического опровержения, равно как и подтверждение гипотезы в

случае D < Do не означает логического

доказательства справедливости

гипотезы. Действительно, событие

D > Do

может произойти и в случае

справедливости гипотезы, но если ε

достаточно мало, то на практике этой

возможностью можно пренебречь. Событие D < Do может осуществиться и в случае, если наша гипотеза неверна, поэтому ее необходимо проверить с помощью большого числа различных критериев, прежде чем считать ее подтвержденной опытными данными.

Выясним статистический смысл ε . Предположим, что производится последовательность серий однородных испытаний. Рассмотрим n серий, в которых гипотеза Н справедлива. Если mn – число тех из них, в которых эта

гипотеза отклонена, то mn ε при n → ∞. n p

112

Число ε , выбор которого зависит от характера задачи, называют уровнем значимости критерия, а величину Do , определяемую из условия

P{D > D0 }= ε , – пределом значимости.

Распределение величины D(Fn* , F ) зависит от n,

и вычисление его при

конечных значениях

n трудно и нецелесообразно. Вместо этого вычисляют

предельное (при n → ∞) распределение величины D и используют его в

качестве приближения для распределения величины

D

при достаточно

больших значениях n.

 

 

 

 

В

случае,

когда

гипотетическая

функция

распределения

F(x,α1,α2

...,αk )

содержит

неизвестные

параметры

α1, α2 , ..., αk ,

подлежащие оценке по выборке, так же рассматривают некоторую меру

D(Fn* , F ) отклонения эмпирической функции распределения

F(x,α1,α2 ...,αk ). Последняя в этом случае сама является величиной случайной, так как α1, α2 , ..., αk – функции наблюдаемых значений, и,

следовательно, случайные величины.

Критерий χ2 в случае простой гипотезы

При получении критерия для проверки гипотезы, состоящей в том, что функция распределения FX (x) случайной величины Х есть вполне определенная функция F(x), мы условились образовывать меру D

отклонения эмпирической функции распределения Fn* (x) выборки

X1, X2 , ..., Xn от предполагаемой (теоретической) функции распределения

F(x). Наиболее употребительной является мера, введенная Пирсоном,

приводящая к так называемому критерию χ2 Пирсона. Разобьем множество

значений величины Х на r множеств

S1, S2 , ..., Sr

без общих

точек.

Практически такое разбиение обычно

осуществляется

с помощью

(r 1)

113

чисел a1 < a2 <...< ar1. При этом правый конец каждого интервала исключают из соответствующего множества, а левый – включают (рис. 3).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3

Пусть

pi , i = 1, 2, ..., r

 

вероятность

 

 

того,

 

что

величина

Х

 

 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

 

принадлежит множеству Si , pi = 1. Пусть νi , i = 1, 2, ..., r

– количество

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

величин из числа наблюдаемых

X1, X2 , ..., Xn, принадлежащих множеству

Si . Тогда νi

/ n

– частота попадания величины Х

в множество

Si при n

 

 

r

 

 

 

r

 

 

 

 

 

 

 

 

 

 

наблюдениях. Очевидно, что νi

= n, νi / n = 1.

 

 

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

Для разбиения, приведенного на

рис.3,

pi

есть

приращение

гипотетической

функции распределения

на

множестве Si ,

а

νi / n

приращение эмпирической функции распределения

Fn* (x) выборки на том

же множестве. За меру D отклонения эмпирической функции распределения

от теоретической принимают величину

 

 

 

 

 

 

 

 

 

 

 

 

r

n ν

2

r

(ν

i

np

)2

 

 

 

 

 

 

χ 2 =

 

 

 

pi

=

 

 

i

 

 

 

 

 

 

 

 

 

 

 

npi

 

 

 

 

 

 

 

i=1

pi n

 

i=1

 

 

 

 

 

 

 

Величина χ2 случайная и нас интересует ее распределение,

вычисленное в предположении, что принятая гипотеза верна, т.е.

FX (x)= F(x).

Если распределение величины χ2 известно, то по заданному уровню значимости можно найти предел значимости для проверки принятой гипотезы. Не вычисляя распределение величины χ2 при каждом значении n,

укажем ее предельное (при n → ∞) распределение. Ответ на вопрос о

114

предельном распределении величины χ2 дает теорема Пирсона, которая приводится без доказательства.

Теорема Пирсона. Какова бы ни была функция распределения F(x)

случайной величины Х, при n → ∞ распределение величины χ2 стремится к

χ2 - распределению с (r 1) степенями свободы, т.е. при n → ∞

P(χ 2 < x)x kr1 (t)dt

0

в каждой точке х, где kr1 (x) – плотность распределения χ2 с (r 1)

степенями свободы.

С помощью теоремы Пирсона введем критерий для проверки гипотезы. Зададим число ε > 0 такое, что событие с вероятностью ε (ε – уровень значимости) можно считать практически невозможным. По таблице для распределения χ2 с (r 1) степенями свободы найдем такое число χε2

(предел значимости), что

kr1

(x)dx = ε

.

χε2

 

Предположим, что n достаточно велико, тогда по теореме Пирсона

вероятность (χ2 > χε2 ) приблизительно составляет ε , т.е. событие χ2 > χε2

можно считать практически невозможным. Таким образом, если гипотеза верна, т.е. Fε (x)= F(x), то значения χ2 , превышающие предел значимости

χε2 , практически невозможны. Если для данной выборки окажется, что

χ2 > χε2, то гипотезу считают опровергнутой опытными данными; если же

χ2 χε2 , то опытные данные можно считать совместимыми с принятой

гипотезой, однако одного этого еще недостаточно для установления истинности гипотезы.

115

Применение теоремы Пирсона на практике дает достаточно хорошие результаты во всех случаях, когда величины npi 10, i = 1, 2, ..., r .

Критерий согласия Колмогорова

Рассмотрим случай, когда гипотетическая функция распределения полностью определена, т.е. задана функция F(x)= FX (x), которую предположим непрерывной. Мера D отклонения эмпирической функции распределения Fn* (x) выборки X1, X 2 , ..., X n от гипотетической функции распределения F(x), предложенная А. Н. Колмогоровым, определяется следующим образом:

Dn = D{Fn* , F}=sup Fn* (x)F(x),

x

где sup – верхняя грань множества по всевозможным значениям х.

x

 

 

Очевидно,

Dn – величина случайная, и

нас интересует ее предельное при

n →∞

распределение, вычисленное

в предположении, что гипотеза

справедлива. Ответ на поставленный вопрос дает следующая теорема. Теорема Колмогорова. Если функция распределения F(x) непрерывна,

то при n →∞

 

 

+∞

k

2

 

2

 

 

P(

nDn < x)K(x)= k=−∞(1)

e2k

x

 

при

x > 0

 

 

 

0

 

 

 

при

x 0.

 

 

 

 

 

 

Функция распределения К(х) табулирована ввиду ее важности для практики.

!!!!!!!!!!!!!!НЕТ ПАРАГРАФОВ 1-3!!!!!!!!!!

§ 4. Экспоненциальное распределение

Такие величины используются при моделировании на тренажерах "времени появления". Например, если в заданный интервал времени порывы ветра бывают в среднем один раз, то промежутки времени между двумя

116

последовательными порывами ветра имеют экспоненциальное распределение со средним значением μ . Это распределение записывается как:

F(x) =1ex / μ , x 0 .

Отсюда следует, что если X имеет экспоненциальное распределение со средним значением 1, то μ X подчиняется экспоненциальному распределению со средним μ . Поэтому достаточно рассмотреть случай при

μ =1. Из известных методов [Кнут] рассмотрим логарифмический метод и метод случайной минимизации.

Логарифмический метод. Заметим,

что y = F(x) =1ex / μ

можно

представить в виде

x = F 1 ( y) = −ln(1y) . Поэтому, вследствие соотношения

X = F 1 (U ) , величина

ln(1y) имеет экспоненциальное распределение. Так

как 1 U распределена равномерно, если

U равномерное распределенное

случайное число, то случайная величина

 

 

X = −lnU

распределена экспоненциально со средним значением, равным единице (в программах, реализующих алгоритм следует избегать U = 0 ).

§ 5. Нормальное распределение

Считается, что нормальное распределение со средним значением, равным нулю, и стандартным отклонением, равным единице, возможно является важнейшим из неравномерных непрерывных распределений. Стандартная запись такого распределения:

F(x) =

1

x et 2 / 2 dt .

 

2π

−∞

Для его генерации существует несколько методов. Один из них получил название метода полярных координат.

117

В основе этого метода лежит использование двух независимых случайных чисел U1 и U 2 для получения двух независимых нормально распределенных величин X1 и X 2 [Кнут]. Предлагается следующий алгоритм

(рис. А2) генерирующий по два нормально распределенных числа. При необходимости увеличения количества требуемых величин необходимо повторять этот алгоритм снова и снова, получая каждый раз по паре требуемых чисел.

Существует метод доказательства точности предложенного алгоритма. Он связан с аналитической геометрией, что во многом послужило причиной

названия данного алгоритма.

 

 

 

Рассмотрим

алгоритм

генерации

двух независимых

нормально

распределенных

величин X1

и X 2

по двум заданным

равномерно

распределенным случайным величинам U1 и U 2 :

1.Получить два случайных числа U1 и U 2 , равномерно распределенных между 0 и 1.

2.Пересчитать интервал распределения, задав границы –1 +1 для

переменных V1 и V2 . Для этого вычислить V1 = 2U1 1 и V2 = 2U 2 1.

3.S =V12 +V22 .

4.If S 1 then шаг 1

else

5. X1 =V1

2 ln S

,

X 2 =V2

2 ln S .

 

S

 

 

S

6. Повторить шаги 1-5.

При S <1, точка плоскости с декартовыми координатами (V1 , V2 ) является

случайной точкой, равномерно расположенной внутри единичного круга

радиусом R .

118

Переходя к

полярным

координатам

V1 = R cos Θ ,

V2 = R sin Θ, находим

S = R2 , X1 = cos Θ

2ln S , X 2

= sin Θ − 2ln S .

 

 

Используя

еще

одни

полярные

координаты

обозначенные как

X1 = R' cos Θ' , X 2 = R' sin Θ' видим, что Θ = Θ' и R'= − 2ln S .

Пары чисел

R иΘ ,

также как и пары чисел R' и Θ', независимы внутри

единичного круга.

 

 

 

 

Кроме того, Θ' равномерно распределена между 0 и 2π , а вероятность

того, что

R'< r , равна вероятности

события

2ln S r 2 ,

т.е. вероятности

события

S er 2 / 2 . Последняя

равна

1er2 / 2 ,

так

как S = R2 равномерно

распределена между нулем и единицей.

 

 

 

 

Вероятность того, что R'

лежит между

r

и

r + dr

поэтому равна

производной от 1er 2 / 2 , а именно rer 2 / 2 dr .

 

 

 

 

Подобным же образом вероятность попадания Θ'

в интервал между Θ и

Θ + dΘ есть (1/ 2π )dΘ .

 

 

 

 

 

 

Тогда вероятность того, что X1 x1 , а X 2 x2 , равна

 

 

1

er 2 / 2

r dr dΘ =

1

e( x2 +y2 ) / 2 dx dy =

 

 

 

 

{(r,Θ)|r cos Θ≤x

, r sin Θ≤x

} 2π

 

2π

{( x, y)|xx , yx

}

1

2

 

 

 

 

 

1

2

 

 

 

1 x1

x2 / 2

 

1 x2

y2 / 2

 

=

 

 

e

 

 

 

e

 

 

 

2π

 

dx

2π

 

dy .

 

 

−∞

 

 

−∞

 

 

Это доказывает, что X1 и X 2 независимы и нормально распределены.

Рассмотренный случай относится к нормальному распределению с нулевым средним значением и стандартным отклонением, равным единице.

119

Если

случайная величина

X имеет такое распределение, то

у

функции

распределения случайной величины

 

 

 

 

 

Y = μ + σ X

 

 

 

 

 

 

среднее значение равно μ , а стандартное отклонение σ .

Более того,

если

X1 и

X 2 — независимые

нормальные

случайные величины

со

средним

отклонением нуль и единичным стандартным отклонением и если

 

 

Y1 = μ1 +σ1 X1 , Y2 = μ2 +σ2 (ρ X1 + X 2 1ρ2 ),

 

 

 

 

то Y1

и Y2 — зависимые случайные величины, распределенные со средними

значениями ν1 и μ2 ,

стандартными

отклонениями

σ1

и

σ2

и

коэффициентами корреляции ρ .

 

 

 

 

 

§ 6. Другие виды числовых распределений

На практике, достаточно часто требуется не только нормальное распределение, но и другие виды распределений. Большинство из них были рассмотрены Джоном фон Нейманом, а затем улучшались по мере необходимости.

Существует множество алгоритмов формирования случайных и псевдослучайных последовательностей [Кнут]. Рассмотрим наиболее простые и часто используемые.

Самое общее распределение действительных случайных величин описывается в терминах "функции распределения" F(x) . То есть необходимо,

чтобы случайная величина X принимала значение, меньшее или равное x с вероятностью F(x) :

F(x) = вероятность (X x) .

Эта функция всегда монотонно увеличивается от нуля до единицы:

F(x1 ) F(x2 ) , если x1 x2 ;

120