Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка эксперим данных Роганов

.pdf
Скачиваний:
23
Добавлен:
22.05.2015
Размер:
1.37 Mб
Скачать

F(−∞) = 0 ,

F(+∞) =1.

Если F(x) непрерывна и строго возрастает (так что F(x1 ) < F(x2 ) , если x1 < x2 ), она принимает все значения между нулем и единицей, и существует

обратная функция F 1 ( y) , такая, что если 0 < yi <1, то y = F(x) тогда и только тогда, когда x = F 1 ( y) .

Общий метод вычисления случайной величины X с непрерывной строго возрастающей функцией распределения F(x) заключается в том, что полагают

X = F 1 (U ) .

То есть вероятность того, что X x , является вероятностью того, что F 1 (U ) x , то есть вероятностью события U F(x) , а она равна F(x) . Тогда

задача сводится к одной из проблем численного анализа, позволяющего вычислить F 1 (U ) с заданной точностью. Для этого разработан ряд приемов.

Прежде всего, если X1 и X 2 — независимые

случайные величины с

функциями распределения F1 (x) и F2 (x) , то

 

max(X1 , X 2 ) имеет распределение F1 (x)F2 (x) ,

(Г3)

min(X1 , X 2 ) имеет распределение F1 (x) + F2 (x) F1 (x)F2 (x) .

Например, случайное число U имеет функцию распределения F(x) = x для

0 x 1 . Если

U1 , U 2 , ..., Ut — независимые

случайные числа,

то

max(U1 , U 2 , ..., Ut ) имеет функцию распределения

F(x) = xt , 0 x 1. Заметим,

что обратная функция в этом случае есть F 1 ( y) = t y . Таким образом,

при

t = 2 получим X =

U и X = max(U1 , U 2 ) , которые приводят к эквивалентным

распределениям случайной величины X .

 

 

Пользуясь (Г3), можно получать произведение двух функций распределения. На основании этого разработаны методы смешивания двух распределений.

121

Предположим, что

F(x) = pF1 (x) + (1 p)F2 (x), 0 < p <1.

Можно вычислить значение случайной величины X с распределением

F(x) , определив сначала случайное число U .

Если

U < p , считаем,

что X

имеет

распределение

F(x) , определив сначала случайное число U . Если

U < p ,

считаем, что

X имеет распределение

F1 (x) ,

если же U p ,

тоX

случайная величина с распределением F2 (x) .

 

 

 

Эта процедура может быть полезна, если

p близко к единице, а

F1 (x)

распределение, которое легко можно моделировать. Тогда, несмотря на тот, что выработка случайных значений по распределению F2 (x) может быть более трудоемкой, чем для требующегося полного распределения F(x) , более трудные вычисления должны проводиться редко с вероятностью (1p) .

В основе алгоритмов получения различных распределений, как правило, лежат последовательности псевдослучайных числе с равномерным распределением.

§ 7. Случайная выборка

Особенностью авиационного тренажеростроения является необходимость моделирования изменения состояния виртуальной среды вокруг обучаемого в реальном масштабе времени, с полным циклом обработки информации за 60—120 мсек [Роганов]. Необходимое быстродействие достигается сокращением вычислений, проводимых в реальном масштабе времени за счет использования различных таблиц, где в нереальном масштабе времени, при разработке тренажера заранее рассчитаны все необходимые значения. Этот прием относится и к формированию различных псевдослучайных последовательностей. В итоге, решив задачу получения псевдослучайной последовательности с заданным законом распределения и содержащего

122

N записей, получаем задачу — как корректно выбрать из этого массива n записей, при условии, что n < N .

Наиболее очевиден подход, когда любая запись выбирается с одной и той же вероятностью близкой к n / N . Однако, при использовании такого метода в

выборке

получается n записей только в среднем, причем стандартное

отклонение равно n(1 (n / N )) , выборка может оказаться или слишком

большой, или слишком малой для достижения желаемых результатов.

 

В литературе [Кнут] приводится алгоритм "корректной выборки"

лишенный этого недостатка. Идея такого подхода — если m записей уже

отобрано,

мы должны включить (t +1) -ю запись в выборку с вероятностью

(n m) /(N t) .

Эта вероятность выражается именно такой величиной,

поскольку из всех возможных способов выборка n записей из N таким

образом, что m из них отбираются из первых t , в точности

N t 1

N t

n m

,

 

/

=

 

 

 

 

 

N t

n m 1

n m

с возможной последующей выборкой t +1 элемента.

 

Рассмотрим алгоритм выборки чисел из заданной последовательности,

решающий задачу выбора n записей из

N , где 0 < n N . Данный алгоритм

реализует описанный выше метод "корректной выборки":

 

 

1.

t = 0 , m = 0

 

 

 

 

2.

Выработать

псевдослучайное

число

U ,

равномерно

распределенное между

нулем и единицей.

 

 

3.

If (N t)U n m then Включить запись в выборку;

m = m +1, t = t +1

 

 

else

 

 

 

4.t = t +1.

5.Повторить шаги 2-4.

123

Глава 8 Аппроксимация закона распределения экспериментальных данных

§ 1. Задачи аппроксимации

Конкретное содержание обработки одномерных экспериментальных данных (ЭД) зависит от поставленных целей исследования. В простейшем случае достаточно определить первый момент распределения, например, среднее время обработки запросов к распределенной базе данных. В других случаях требуется установить вероятностно-временные характеристики распределения, например, оценить вероятность своевременной обработки запросов или вероятность безотказной работы системы в течение заданного периода времени. Для нахождения таких значений требуется знание закона распределения как наиболее полной характеристики соответствующей случайной величины.

Вклассической математической статистике предполагается известным вид закона распределения и производится оценка значений его параметров по результатам наблюдений. Но обычно заранее вид закона распределения неизвестен, а теоретические предположения не позволяют его однозначно установить. Обработка ЭД также не позволит точно вычислить истинный закон распределения показателя. В таком случае следует говорить только об аппроксимации (приближенном описании) реального закона некоторым другим, который не противоречит ЭД и в каком-то смысле похож на этот неизвестный истинный закон.

Всоответствии с этими положениями постановка задачи аппроксимации закона распределения ЭД формулируется следующим образом.

Имеется выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки п фиксирован.

Необходимо подобрать закон распределения (вид и параметры), который бы в статистическом смысле соответствовал имеющимся наблюдениям.

124

Ограничения: выборка представительная, ее объем достаточен для оценки параметров и проверки согласованности выбранного закона распределения и ЭД; плотность распределения унимодальная.

Наличие в функции плотности распределения нескольких мод может быть следствием различных причин, например существованием различных по длине маршрутов прохождения запросов в системе обработки. Выборку с несколькими модами разделяют на составные части так, чтобы каждая из них имела одну моду. В последнем случае функция распределения исходной выборки представляет собой взвешенную сумму соответствующих функций

s

отдельных выборок: F(x)= pi Fi (x), где s – количество выборок, выбранное

i=1

исходя из требований унимодальности распределения; pi – вероятность принадлежности элемента выборки к выборке i; Fi(x) – функция распределения выборки i.

Решение поставленной задачи аппроксимации осуществляется на основе применения "типовых" распределений, специальных рядов или семейств универсальных распределений [3, 7, 8, 9, 12].

§ 2. Аппроксимация на основе типовых распределений

Задача аппроксимации на основе типовых распределений решается итерационно и включает выполнение трех основных шагов:

предварительного выбора вида закона распределения; определения оценок параметров закона распределения; оценки согласованности закона распределения и ЭД.

Если заданный уровень согласованности достигнут, то задача считается решенной, а если нет, то шаги повторяются снова, начиная с первого шага, на котором выбирается другой вид закона, или начиная со второго – путем некоторого уточнения параметров распределения.

Выбор вида закона распределения осуществляется посредством анализа гистограммы распределения, оценок коэффициентов асимметрии и

125

эксцесса. По степени "похожести" гистограммы и графиков плотностей распределения типовых законов или по "близости" значений оценок коэффициентов и диапазонов их теоретических значений выбираются распределения – кандидаты для последующей оценки параметров. На рис. 8.1

– 8.4 представлены графики типовых функций плотностей распределения, часто применяемых в задачах аппроксимации ЭД, а в табл. 8.1 приведены функции плотности и теоретические параметры этих распределений.

Рис 8.1. Логарифмически нормальное распределение а) μ = 0; б) σ = 1

Рис. 8.2. Экспоненциальное распределение

Рис. 8.3. Распределение Вейбулла

Рис. 8.4 Гамма-распределение а) λ =1 б) ν =3

Таблица 8.1

126

 

 

 

 

 

 

 

 

 

 

 

Математическое ожидание m1,

 

 

Тип и функция плотности

дисперсия m2,

 

 

асимметрия b1 = m3 / m23 / 2 ,

 

 

 

 

распределения

 

 

 

 

 

 

 

 

 

 

 

 

эксцесс b2 = m4

/ m22

 

 

Нормальное

 

 

 

m1 = μ1, m2 = σ2 = 2,

1

exp((x μ1 )2

/(2σ 2 )), − ∞ < x < +∞

b1 = 0, b2 = 3

 

 

 

 

σ 2π

 

 

 

 

 

 

 

 

 

 

 

 

 

Логарифмически нормальное

m1 = exp(μ1 +0,5μ2 ),

 

1

 

 

 

 

(ln x μ )2

 

,0, х 0

m2 = exp(2μ1 + μ2 )(exp(μ2 )1),

 

 

 

 

 

 

 

1

 

x > 0

 

 

 

σx 2π

exp

 

2σ

2

,

b1 = (exp(μ2 )+ 2) exp(μ2 )1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b2 = exp(4μ2 )+ 2exp(3μ2 )+3exp(2μ2 )3

 

 

Экспоненциальное

 

m1 = 1/λ m2 = 1/λ2

 

 

λexp(-λx), x0, 0, x < 0

b1 = 2,

b2 = 9

 

β

x

 

 

Вейбулла

 

 

m1 =δg1, m2

=δ 2 (g2 g12 ),

β 1

 

x

β

 

x 0, 0, x < 0

 

 

3

 

δ

 

 

exp

 

 

,

b1 = (g3 3g1g2 + 2g13 )/(g2 g12 ) 2 ,

δ

 

 

 

 

δ

 

 

 

a = (g4 4g1g3 +6g2 g12 3g14 ),

 

 

 

 

 

δ > 0, β > 0

 

 

 

 

 

 

 

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b2 = (g2 g12 )2 ,

 

 

 

 

 

 

 

 

 

 

 

 

gi = Γ(1+i / β )

 

 

 

 

 

 

Гамма

 

 

m =ν / λ,

m =ν / λ2

,

 

λν

 

xν 1 exp(λx),

 

 

 

1

2

 

 

 

x 0, 0, x < 0

b1 = 2 / ν ,

b2 = 3(ν + 2)/ν

Γ(ν )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ν > 0, λ > 0

 

 

 

 

Следует

 

отметить,

что

гамма-распределение

соответствует

распределению Эрланга, если λ – целое, и экспоненциальному

распределению при ν = 1.

 

 

 

 

 

 

После выбора подходящего вида распределения производится оценка

его параметров, используя методы максимального правдоподобия, моментов

или квантилей. В целях упрощения решения задачи в табл. 8.2 приведены

расчетные формулы для вычисления оценок параметров типовых

распределений.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8.2

127

Тип

 

Оценка параметров распределения

 

распределения

 

 

 

 

по выборочным данным

 

Нормальное

 

 

 

 

n

 

 

 

 

 

 

 

 

n

 

(xi μ)2

 

 

 

μ1

=

1 xi ,

μ2

=σ 2

 

=

n

1

 

 

 

 

 

 

n i=1

 

 

 

 

 

1 i=1

 

 

 

Логарифмически

 

μ1 =

 

n

μ2

 

 

 

 

 

1

n

 

(ln xi μ)2

 

 

1 ln xi ,

=σ 2

 

=

n

 

нормальное

 

 

 

n i=1

 

 

 

 

 

1 i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Экспоненциальное

 

 

 

 

λ =

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

Вейбулла

 

 

 

ln a ln xq ln b ln xp

 

 

 

ln a ln b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β =

 

 

,

 

δ = exp

ln a ln b

 

 

 

,

ln xq ln xp

 

 

 

 

 

 

 

 

 

 

 

 

 

0 < q < p <1, a = −ln(1p), b = −ln(1q)

 

 

 

 

xq, xp — выборочные квантили

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

Гамма

 

(0,50010,1649q 0,0544q )1,

0 < q 0,577,

 

 

 

a =

 

 

 

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

(8,899 +9,060q +0,9775q2 )

1, 0,577 < q 17,

 

 

 

 

(17,80 +11,97q + q

2

)q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где q=ln(μ 1/6), β = μ1 /(1 + a),

 

n

 

 

μ1 = 1 xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i =1

 

Применительно к выбранному закону распределения производится проверка гипотезы о том, что имеющаяся выборка может принадлежать этому закону. Если гипотеза не отвергается, то можно считать, что задача аппроксимации решена. Если гипотеза отвергается, то возможны следующие действия: изменения значений оценок параметров распределения; выбор другого вида закона распределения; продолжение наблюдений и пополнение выборки. Конечно, такой подход не гарантирует нахождение "истинного" или даже подбора подходящего закона распределения. Преимущество применения типовых законов распределения состоит в их хорошей изученности и возможности получения состоятельных, несмещенных и относительно высоко эффективных оценок параметров. Однако

128

рассмотренные выше типовые законы распределения не обладают необходимым разнообразием форм, поэтому их применение не дает необходимой общности представления случайных величин, которые встречаются при исследовании систем.

§ 3. Аппроксимация на основе специальных рядов

Типовые ряды, известные из математического анализа (ряды Тейлора, Фурье), не подходят для описания функций распределений, так как не обладают свойствами, присущими этому виду функций. Для подобного описания предложены специальные функции, например, основанные на полиномах Чебышева – Эрмита. К числу таких функций относится ряд Грама

Шарлье

(8.1)

где Ф(u) – функция нормального распределения центрированной и нормированной случайной величины u=(х – μ 1)/μ 20,5, Ф(k)(u) – k-я производная от функции нормального распределения.

Вычисление Ф(u) не требует численного интегрирования, так как имеются ее приближения на основе полиномов, а производные представимы элементарными функциями:

Ф(3)(u)=(u2 –1)fн(u),

 

Ф(4)(u)=(– u3 + 3u)fн(u),

(8.2)

Ф(6)(u)=(– u5 +10u3 –15u)fн(u), fн(u)= (2π ) – 0,5exp(– u2/2).

Ряд Грама – Шарлье целесообразно использовать для описания распределений, близких к нормальному. В других случаях начинают проявляться серьезные недостатки: ряд может вести себя нерегулярно (увеличение количества членов ряда иногда снижает точность аппроксимации); ошибки аппроксимации возрастают с удалением от центра распределения; сумма конечного числа членов ряда при большой асимметрии распределения приводит к отрицательным значениям функций, особенно на

129

Fi*n

краях распределений. Этот ряд применяют только при весьма умеренном коэффициенте асимметрии, не превышающем 0,7. Следовательно, применение рядов тоже не обеспечивает необходимой общности решения задач аппроксимации.

Пример 8.1. Оценить качество аппроксимации ЭД, табл. 2.4, на основе ряда Грама – Шарлье. Проверку согласованности провести с использованием критерия хи-квадрат при уровне значимости α = 0,05.

Решение. В примере 2.3 были вычислены значения оценок моментов:

μ 1 =27,508, μ 2 = 0,913, μ 3= 0,132, μ 4 =1,819.

На основе табл. 2.4 построим табл. 5.3.

 

 

 

 

 

 

 

 

Таблица 8.3

 

 

 

 

3

 

 

 

 

 

 

I

1

2

 

4

5

6

 

 

 

 

 

 

 

 

 

 

 

 

n i

5

9

10

 

9

5

6

 

 

 

 

 

 

 

 

 

 

 

 

Верхняя

26,37

26,95

27,53

 

28,11

28,69

 

 

граница, xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F (xi)

0,127

0,303

0,517

 

0,721

0,877

1

 

 

 

 

 

 

 

 

 

 

 

 

Fi

0,127

0,176

0,214

 

0,204

0,156

0,123

 

 

 

 

 

 

 

 

 

 

 

 

Fi

5,588

7,744

9,416

 

9,976

6,864

5,412

 

 

 

 

 

 

 

 

 

 

 

 

(ni Fi)2/Fi

0,062

0,204

0,036

 

0,000

0,506

0,063

 

 

 

 

 

 

 

 

 

 

 

 

В таблице значения функции распределения F(xi) для верхней

границы интервала и

теоретическое

значение

оценки вероятности

Fi

попадания случайной величины в i-й интервал вычислены на основе ряда Грама – Шарлье. Обозначения оценки частоты попадания Fi= случайной величины в i-й интервал, вероятности Fi попадания случайной величины в интервал xi xi–1, взвешенного квадрата отклонения (ni Fi)2/Fi аналогичны табл. 3.2. Сумма взвешенных квадратов отклонения χ 2 = 0,872 (критическое значение составляет 7,815).

Выборка имеет слабо выраженную асимметрию. По сравнению с аналогичным значением χ 2 = 1,318 при аппроксимации ЭД нормальным распределением, ряд Грама – Шарлье дает более "точное" описание данных.

§ 4. Аппроксимация на основе универсальных семейств распределений

130