Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка эксперим данных Роганов

.pdf
Скачиваний:
23
Добавлен:
22.05.2015
Размер:
1.37 Mб
Скачать

Существуют различные подходы к построению универсальных семейств распределений. Рассмотрим два наиболее типичных. Первый подход является дальнейшим развитием метода моментов, а второй основан на замене исходной выборки другой, распределение которой является стандартным.

Аппроксимация на основе семейства распределений К. Пирсона

В рамках первого подхода одно из универсальных семейств распределений предложил К. Пирсон. Моменты распределения случайной величины, даже если все они существуют, не характеризуют полностью этого распределения, но они определяют его однозначно при некоторых условиях, которые выполняются почти для всех используемых на практике распределений. Иначе говоря, при решении задач обработки ЭД знание моментов эквивалентно знанию функции распределения и совпадение значений первых r моментов двух распределений говорит о приблизительной одинаковости распределений. Не зная точно вид функции распределения, но, найдя r первых моментов, можно подобрать другое распределение с теми же первыми моментами. Практически такая аппроксимация оказывается хорошей при совпадении первых трех – четырех моментов.

Анализ характерных черт функций плотности унимодальных распределений показывает, что эти распределения начинаются с нуля, поднимаются до максимума, а затем уменьшаются снова до нуля. Это означает, что для описания подобных функций плотности распределений f(x) необходимо выбрать такие уравнения, для которых df(x)/dx=0 при следующих условиях: f(x)=0, тогда по крайней мере на одном краю распределения будет соприкосновение с осью абсцисс высшего порядка; x=a, где величина a соответствует моде распределения. Этим условиям для центрированной переменной x удовлетворяет дифференциальное уравнение df / dx = (x-a)f /(b0 + b1x + b2x2), решение которого приводит к семейству распределений Пирсона. Действительно, в этом уравнении df(x)/dx равно нулю, если f(x)=0 или x=a. Семейство распределений Пирсона включает не только унимодальные, но и распределения, имеющие U-образную форму (две моды).

131

Уравнение содержит четыре неизвестных параметра. Их вычисление основано на методе моментов – четыре выборочных момента приравниваются к соответствующим моментам теоретического распределения, являющимся функциями от неизвестных параметров. Решая полученную систему уравнений относительно неизвестных параметров, получают искомые оценки параметров в виде функций выборочных моментов

a = μ3 (μ4 +3μ22 )/ A

 

B0 = −μ2 (4μ2 μ4 3μ32 )/ A

 

B1 = −μ3 (μ4 +3μ22 )/ A

(8.3)

B2 = −(2μ2μ4 3μ32 6μ23 )/ A

 

A =10μ2μ4 18μ23 12μ32

Выражения для плотности f(x) выводятся путем интегрирования дифференциального уравнения. Интегрирование позволяет получить 11 типов функций плотности распределения, три из которых являются основными, а остальные – их частными случаями, в том числе и такие общеизвестные, как нормальное, экспоненциальное, гамма-распределение. Распределение f(x) сосредоточено:

на конечном интервале, если корни уравнения B0 + B1x + B2x2 = 0 представляют собой действительные числа различных знаков;

на положительной полупрямой, если корни – действительные числа одного знака и a>0, или на отрицательной полупрямой при a<0;

на всей оси абсцисс, если уравнение не имеет действительных корней. Принимая моду за начало отсчета исходной центрированной

величины, т.е., полагая t = х a, исходное уравнение представим в виде

dtd (ln f (t))= t(B0 + B1t + B2t2 ).

Первый основной тип распределения получается в случае, когда корни уравнения B0 + B1t + B2t2 = 0 являются действительными числами с различными знаками. Обозначим корни уравнения через –c1 и c2 соответственно, где величины c1 и c2 – положительные числа. Тогда по известной теореме

B0 + B1t + B2t2 = B2(t +c1)(t - c2).

132

Исходное уравнение преобразуем к виду

d

(ln f1

(t))=

t

 

=

c1

 

1

 

+

c2

 

1

.

dt

B2 (t +c1 )(t c2 )

B2 (c1 +c2 )(t +c1 )

B2 (c1 +c2 )(t c2 )

 

 

 

 

 

Обозначим γ= c1/(B2(c1+ c2)) и η= c2/(B2(c1+ c2)). Тогда можно записать

d(ln f1 (t))= d[ln(t +c1 )γ +ln(c2 t)η ].

Решение дифференциального уравнения с точностью до некоторого коэффициента k1 можно представить в виде f1(t) = k1(c1 + t)γ(c2 - t)η. Размах данного распределения сосредоточен на интервале (–c1, c2). Проведем замену переменной t = (c1+ c2)y -c1 , учитывая, что dt = (c1+c2)dy, включим постоянный сомножитель (c1+c2)γ+η+1 в состав коэффициента k1. В итоге получим f1(y)=k1yγ (1–y)η , где y изменяется в пределах от 0 до 1. Интегрируя

в

этих пределах

функцию

f1(t), можно

найти значение k1 из условия

1

k1 yγ (1y)η dy =1.

Интеграл

в данном

выражении по определению

0

 

 

 

 

соответствует бета-функции B(γ+1, η+1), которая определяется через гамма-

функцию B(γ+1, η+1) = Г(γ+1)Г(η+1)/Г(γ+η+2). Итак, k1= 1/B(γ+1, η+1).

Окончательно плотность распределения

 

f1(y) = (1/B(γ+1, η+1))yγ(1 - y)η,

(8.4)

где 0y1.

Переменная у определяется через исходный (не центрированный и несмещенный) аргумент x в соответствии с ранее введенными подстановками: y = (c1 + x - μ1 - a)/(c1 + c2).

Функция плотности распределения первого типа соответствует бетараспределению, рис. 8.5. Функция распределения

 

 

Γ(γ +η + 2) y

 

γ

η

 

F1

(y)=

 

 

y

 

(1y) dy

(8.5)

Γ(γ +1)Γ(η +1)0

 

 

 

 

 

 

 

При наличии действительных корней одного знака получается распределение Пирсона шестого типа. Пусть корни –c1 и –c2 меньше нуля, т. е. B2, c1 и c2 положительны (с12), тогда можно записать

d

(ln f6

(t))=

 

c1

 

 

 

1

 

+

 

c2

 

 

 

1

 

 

,

dt

B

(c +c

2

)(t +c )

B

(c +c

2

)(t +c

2

)

 

 

 

 

 

 

 

2

1

1

 

 

2

1

 

 

 

 

 

133

где –с1< t < . Обозначим α=-c1/(B2(c1-c2) и β=c2/(B2(c1-c2). После преобразований получим d(ln f6 (t))= d[ln[(c1 +t)α (c2 +t)β ]] или f6(t)=k6(c1+t)α (c2 +

t)β .

Здесь, как и для распределения первого типа, t = x μ 1 a. Используем подстановку (c1-c2)/(c2+t) , тогда dt = -(c2 - c1)z-2dz.

Рис. 8. 5. Распределение Пирсона первого типа (бета-распределение)

a) η >1, γ >1;

б) η <1, γ < 1;

в) η =2, γ ≤ 1;

г) η = γ ≥ 1

Функция плотности распределения шестого типа примет вид f6(t)=k6(1– z)α z (α +β +2). Нормировочный коэффициент k6 определяется аналогично ранее рассмотренному варианту. Нормирующее условие имеет

вид

1 = k6 1

z(α +β +2)(1z)α dz .

Следовательно, коэффициент

k6

 

0

 

 

 

 

 

 

 

определяется через бета-функцию: k6 = 1/В(– α β – 1, α +1).

 

 

 

Окончательно функция плотности распределения шестого типа

 

 

 

f6(z) = 1/[В(– α β – 1, α +1)] z – (α +β +2)(1–z)α .

 

(8.6)

 

Функция распределения шестого типа

 

 

 

 

F (z)=1

Γ(β )

 

z

z(α+β +2)(1z)α dz

 

 

 

Γ(α β 1)Γ(α +1)0

.

(8.7)

 

 

6

 

 

 

 

 

 

 

134

Для положительных корней уравнения B0 + B1t + B2t2 = 0 диапазон изменения аргумента – < t <c1, а выражения для плотности и функции распределения получаются такие же, только при выводе используется другая подстановка z=(c2 c1)/(c2 t). Таким образом, шестой тип распределения является разновидностью первого типа.

Функции распределения (8.5) и (8.7) представляют собой неполные бета-функции Ву(p, q). Когда оба показателя степени в формулах (8.4) и (8.6) больше нуля, плотность имеет единственную моду и обращается в нуль на краях интервала. Если один из показателей отрицателен, то значение плотности на одном краю интервала стремится к бесконечности и распределение имеет L– или J–образную форму. При двух отрицательных показателях распределения принимают U–образную форму, значения функций плотности стремятся к бесконечности на обоих краях. В указанных случаях применение численного интегрирования для вычисления значений функций распределения невозможно.

Вычисления значений функций распределения первого и шестого типов целесообразно осуществлять разложением интеграла (неполной бета-

функции) в гипергеометрический ряд. Гипергеометрический ряд

 

F (a,b, c, w)=1+

ab

a(a +1)b(b +1)

 

2

 

 

 

w +

 

 

w

 

+...

(8.8)

1 c

1 2 c(c +1)

 

сходится абсолютно и равномерно при |w|<1. Для ускорения сходимости ряда неполную бета-функцию вычисляют по различным формулам в зависимости от значения предела интегрирования

 

1

 

p

q

B (p,q)=

 

 

z

 

(1z) F(1, p + q, p +1, z), при z 0,5,

 

 

z

p

 

 

(8.9)

 

 

 

 

1B1z (q, p), при z > 0,5

 

 

 

 

В формуле (8.9) для распределения первого типа p = γ + 1 и q = η + 1, а

для распределения шестого типа p = – α β – 1, q = α + 1.

Если корни уравнения B0 + B1t + B2t2 = 0 комплексные числа, то получается распределение Пирсона четвертого типа с диапазоном изменения переменной по всей оси абсцисс и единственной модой. Путем

135

тождественных преобразований и вводя соответствующие обозначения, исходное дифференциальное уравнение представим в виде

 

d

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

t

 

 

(ln f4

(t))=

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

B2 ((t +ϕ)2 +δ 2 ).

 

dt

 

 

 

B

2

 

B

 

B

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B

t +

 

1

 

+

0

1

 

 

 

 

 

 

 

 

 

 

2B

B

4B2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где ϕ= B1/(2B2),

δ 2 = B0 / B2 B12 /(4B22 ).

 

 

 

 

 

 

 

 

 

 

 

Используя правила интегрирования элементарных дробей, уравнение

преобразуем к виду

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln f4 (t)= ln R +

1

 

ln((t

+ϕ)2

+δ 2 )

 

ϕ

arctg

t +ϕ

.

 

 

2B

 

 

B

δ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

δ

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

Следовательно, функция плотности четвертого типа

f4 (t)= R{(t +ϕ)2 +δ 2}1/(2B2 ) ×exp{ϕ /(B2δ )arctg((t +ϕ)/δ )} (8.10)

Коэффициент R находится из нормирующего условия (интеграл от плотности распределения в пределах изменения переменной равен единице). Для вычисления коэффициента приходится проводить численное интегрирование, так как первообразная функция через элементарные функции не представима. Чтобы перейти к конечным пределам при

численном

интегрировании,

 

воспользуемся

заменой

переменной

t +ϕ

, тогда интегрирование следует провести в пределах от –π /2 до

v = arctg

 

 

δ

π /2 (здесь, как и ранее, t = x– μ1 a). Окончательно получим

 

 

 

 

F

(v)=

v cos2(1

/(2B2 )+1)(v)exp(ϕv /(B2

δ ))dv

 

 

 

 

π / 2

 

 

 

 

(8.11)

 

 

 

π / 2

 

 

 

 

 

 

 

4

 

(1

/(2B2 )+1)(v)exp(ϕv /(B2

δ ))dv

 

 

 

 

 

cos2

 

π / 2

Последовательность подгонки описания эмпирических данных распределениями Пирсона включает следующие этапы:

вычисление значения оценок первых четырех моментов эмпирического распределения путем обработки ЭД;

136

вычисление параметров В0, В1, В2, а семейства распределений, переход от исходной переменной x к центрированной и смещенной переменной t;

анализ корней квадратного уравнения B0, B1, B2, и определение типа распределения. При этом реальная область значений случайной величины играет второстепенную роль. Например, четвертое распределение Пирсона может служить хорошей аппроксимацией распределения ограниченной случайной величины или наоборот первое распределение – для случайной величины с бесконечными пределами изменения;

вычисление параметров выбранного типа распределения; проверку гипотезы о возможности применения выбранного

распределения для описания ЭД.

Распределения Пирсона вполне удовлетворительно обобщают результаты наблюдений. Но эти оценки не являются наилучшими, так как имеют неминимальные дисперсии, а, следовательно, не являются наилучшими оценками параметров генеральной совокупности.

Области в плоскости квадрата коэффициента асимметрии b12 и коэффициента эксцесса b2, соответствующие различным распределениям семейства Пирсона, показаны на рис. 8.6. Из рисунка видно, что распределения Пирсона охватывают широкую область возможных видов распределений и включают в себя как частные случаи нормальное, экспоненциальное, гамма и другие типовые распределения. Нормальное и экспоненциальное распределения не имеют параметров формы, поэтому на рисунке отображаются точками, гамма-распределение имеет только один параметр формы и ему соответствует линия. Иначе говоря, типовые распределения обладают скромными возможностями по аппроксимации ЭД.

137

Рис. 8.6. Области аппроксимации ЭД семейством распределений Пирсона

Недостаток рассмотренного метода состоит в большой трудоемкости расчетов значений функции распределения.

Пример 8.2. Необходимо подобрать распределение Пирсона для описания ЭД, табл. 2.4, и оценить качество аппроксимации. Проверку согласованности провести с использованием критерия хи-квадрат при уровне значимости α =0,05.

Решение. Значения оценок моментов были вычислены ранее:

μ1 =27,508, μ2 = 0,913, μ3= 0,132, μ4 =1,819.

По формулам (8.3) вычислим параметры распределения:

А = 2,6995; а = 0,2112; В0 = – 2,2290; В1 = – 0,2112; В2 = 0,4804.

Корни уравнения b0+b1x+b2 x2 = 0 – действительные числа различных знаков: – с1 = – 1,945; с2 = 2,385. Значит, распределение относится к первому типу и сосредоточено на ограниченном интервале. Построим табл. 8.4,

иллюстрирующую расчеты.

Таблица 8.4

 

I

 

1

2

3

4

 

5

6

 

 

 

 

 

 

 

 

 

 

 

 

 

n i

 

5

9

10

9

 

5

6

 

 

 

 

 

 

 

 

 

 

 

 

 

Верхняя граница, xi

 

26,37

26,95

27,53

28,11

 

28,69

 

 

 

 

 

 

 

 

 

 

 

 

 

F (xi)

 

0,165

0,348

0,550

0,740

 

0,892

1

 

 

 

 

 

 

 

 

 

 

 

 

 

Fi

 

0,165

0,183

0,202

0,190

 

0,152

0,108

 

 

 

 

 

 

 

 

 

 

 

 

 

Fi

 

7,260

8,052

8,888

8,360

 

6,688

4,752

 

 

 

 

 

 

 

 

 

 

 

 

 

(ni Fi)2/Fi

 

0,703

0,112

0,139

0,049

 

0,426

0,327

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В таблице значения функции распределения F(xi) для верхней

границы интервала и

теоретическое значение

оценки

вероятности

Fi

попадания случайной величины в i-й интервал вычислены на основе

138

распределения Пирсона первого типа. Расчет оценки частоты Fi=n × Fi, вероятности Fi попадания случайной величины в интервал xi xi–1, взвешенного квадрата отклонения (n i Fi)2/Fi проводится аналогично примеру 8.1. Значение критерия составляет χ 2 =1,757.

По сравнению с критическим значением хи-квадрат, равным 7,815, аппроксимация с помощью распределения Пирсона дает вполне допустимый результат, хотя в данном случае и уступает по "точности" аппроксимации с помощью ряда Грама – Шарлье (χ 2 = 0,872). Повысить точность аппроксимации можно, если проанализировать плотность аппроксимирующего распределения. Полученная функция плотности имеет небольшой коэффициент эксцесса, поэтому наблюдаются относительно большие отклонения функции распределения от ЭД. Такая ситуация является следствием значительной погрешности в оценке четвертого момента из-за ограниченного объема выборки. Следовательно, для повышения качества аппроксимации необходимо увеличить значение четвертого момента. Увеличим значение четвертого момента до 2,2 (ошибки в 20 – 25% при оценке четвертого момента по выборке малого объема вполне реальны) и пересчитаем все параметры. В результате получится значение χ 2 =0,864, что практически одинаково с аппроксимацией рядом Грама – Шарлье.

Потенциально аппроксимация по Пирсону является более универсальной по сравнению с рядами Грама – Шарлье. Семейство Пирсона охватывают широкий класс законов распределений, а не только близкие к нормальному, как это имеет место при применении рядов.

Аппроксимация на основе семейства распределений Джонсона

Этот универсальный вид аппроксимации основан на таком преобразовании g(x) исходной случайной величины Х (заданной в некотором интервале), которое позволит рассматривать результат преобразования как стандартизованную случайную величину, распределенную по нормальному закону. Данное преобразование допустимо при следующих условиях: функция плотности распределения случайной величины Х является унимодальной; функция g(x) является монотонной на заданном интервале;

139

область значений функции g(x) лежит в диапазоне от – до . Указанным условиям отвечает система функций, предложенная Джонсоном. Достоинство данного подхода состоит в том, что значения эмпирической функции распределения случайной величины Х вычисляются как значения функции нормального распределения. Преобразование Джонсона в общем случае имеет вид

x = γ + ητ(z, e, λ) ; η>0, –< γ < ∞, λ>0, – < e <,

(8.12)

где γ ,η ,ε ,λ – параметры распределения; u – центрированная и нормированная случайная величина, распределенная по нормальному закону;

τ – некоторая функция; х – случайная величина с произвольной унимодальной плотностью распределения.

В качестве τ предложено использовать три вида функций:

 

 

1)τ1 (z,ε, λ)

z

ε

 

 

 

 

 

 

 

 

 

= ln

 

 

 

 

 

, z

ε,

 

 

 

 

 

 

 

 

λ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z ε

 

 

 

 

 

 

 

 

 

 

2)τ2

(z,ε, λ)= ln

 

 

 

 

 

 

, ε z

ε +λ,

 

λ +ε z

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

z ε

 

 

 

 

 

 

 

 

3)τ3 (z,ε, λ)= arcsh

 

 

 

 

 

, −∞ < z < ∞.

 

 

 

 

λ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для семейства функций первого вида

du =

 

 

η

dx , тогда

 

x ε

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

η

 

 

1

 

 

 

 

x ε

2

 

f1(x)=

 

 

 

 

 

 

 

 

 

 

 

exp

 

 

γ

+ηln

 

 

 

 

 

 

2π (x ε)

2

λ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(8.13)

(8.14)

Эта функция соответствует логарифмически нормальному распределению и называется семейством распределений SL Джонсона. Логарифмически нормальное распределение не обладает общностью исходного семейства, так как оно фактически зависит от трех, а не от

 

z ε

 

четырех параметров. Действительно, выражение

γ +ηln

 

 

можно

λ

 

 

 

 

записать в виде γ η lnλ, и величину γ ηln λ следует рассматривать как единый параметр.

Аналогично можно найти плотность распределения для второго и третьего семейств распределений Джонсона:

140