Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Downloads / pdf_in_archive (2) / 1_obrabotka.pdf
Скачиваний:
38
Добавлен:
02.04.2015
Размер:
1.05 Mб
Скачать

2.6.3. Проверка гипотезы о согласовании эмпирического и теоретического распределения по критериям согласия

Обычно используют так называемые критерии согласия Пирсона (χ2) и Крамера-Смирнова (ω2). В ряде случаев используют также критерий Колмогорова, основанный на сравнении интегральных функций распределения, но он менее информативен [14]. Критерий Пирсона можно применять при объемах выборок n 50, а Критерий ω2 уже при n 40 . Последний критерий не требует предварительного группирования данных, т. е. свободен от ошибок, связанных со способом их группирования. Наиболее широко применяется критерий Пирсона, так как соответствующее распределение χ2 затабулировано и общеизвестно; кроме того он позволяет использовать результаты, полученные на предыдущих шагах. Проверка гипотезы по критерию Пирсона выполняется следующим образом.

 

Для

каждого

интервала группирования определяют величину

Z i =

(x io

x n )

, где

xio – абсцисса,

соответствующая середине i-го

S n

 

 

 

 

интервала.

 

 

 

 

Для вычисленных значений Zi находят значения плотности

вероятности ϕ (Z i )

теоретического

распределения, проверяемого в

качестве гипотезы, используя статистические таблицы или рассчитывая их самостоятельно по виду распределения с эмпирическими параметрами, определенными ранее методом моментов.

По теоретической кривой плотности распределения ϕ (Z i ) вычисляют теоретические числа значений (выравнивающие частоты) ni в

каждом интервале:

 

n = n

d

ϕ(z

) .

(2.143)

 

i

 

i

 

 

 

Sn

 

 

Объединяют соседние интервалы, эмпирическое число значений в которых меньше 5 (для сглаживания ошибок в данных).

Для каждого интервала после объединения вычисляют величину

χ 2i :

 

2

=

(ni ni )2

 

χ

i

 

.

(2.144)

 

 

 

 

ni

 

Вычисляют величину χ2, суммируя χ2i

по всем интервалам:

 

m0

(n

n )2

 

 

 

χ 2=

i

 

i

,

(2.145)

 

 

n

 

 

i=1

 

i

 

 

 

где

m0 – общее

число интервалов после

объединения интервалов с

малыми частотами.

 

 

 

 

Определяют число степеней свободы, соответствующее величине χ2:

где

k=m0–1–r,

оцениваемых по выборке

параметров теоретического

r – число

распределения.

Например, для нормального распределения по выборке определяют два параметра m и σ, поэтому r=2, а k = m0 3. Такое выражение для k в

случае нормального распределения получается потому, что частоты подчинены трем связям. Действительно, помимо условия, что сумма эмпирических частот (объем выборки n) фиксирована, от теоретического распределения естественно потребовать, чтобы выравнивающие частоты давали среднее значение и СКО, равные соответствующим параметрам, определенным по выборке. Таким образом, имеем три связи и k = m0 3.

При

подборе другого распределения, например, биномиального:

k = m0 2,

так как в этом случае имеются две связи: а) сумма

эмпирических частот фиксирована и б) выравнивающие частоты должны давать среднее значение, равное соответствующему параметру, определенному по выборке. Аналогично определяется k для других распределений.

По полученному значению k, выбрав уровень значимости α (вероятность ошибки первого рода), определяем по статистическим таблицам распределения Пирсона критические (нижнее и верхнее)

значения критерия χ 2H и χ 2B

для двух значений

вероятности:

P{χ 2χ 2H }

= P{χ 2 χ 2B }= α 2 ;

P{χ 2H < χ 2 < χ 2B }=1 α 2 .

Данная

рекомендация для определения

критических значений критерия

соответствует

квазисимметричной

критической области

на

кривой

плотности критерия χ2 (см. §2.5.). Можно использовать также одностороннюю критическую область для больших значений критерия,

при этом определяется критическое значение χ 2kp , такое,

что

P{χ 2 < χ 2kp }=1 α .

 

 

 

Гипотеза о согласовании эмпирического и теоретического

распределений

принимается,

если

χ 2H < χ 2 < χ 2B

(для

квазисимметричной критической области) или χ 2 < χ 2kp (для

односторонней критической области).

В. И. Романовский предложил очень простое правило, значительно облегчающее применение критерия согласия Пирсона для оценки расхождения между эмпирическими и выравнивающими частотами. Если

χ 2 k

3 ,

то расхождение можно считать существенным и гипотеза

2k

отклоняется,

если же

χ2 k

< 3, то расхождение можно считать

2k

случайным и гипотеза принимается. Это правило основано на том, что математическое ожидание и СКО величины χ2 равны: E (χ 2 )= k ;

σ 2χ2 = 2k , а также на том, что вероятность значений χ2, отличающихся от

k меньше чем не 3σ2, т. е. на 3 2k в ту или иную сторону, близка к единице.

Иногда оказывается, что условия проверки выполняются для нескольких распределений; тогда в качестве искомого принимается то, которое имеет наибольшую статистическую достоверность. Для этого уменьшают последовательно значение α и повторяют проверку оставшихся теоретических распределений до тех пор, пока не останется единственное, согласующееся с эмпирическим, которое и принимается за искомое.

2.6.4. Оценка истинного значения и ошибки измерения

Информация о виде закона распределения позволяет получить точечную и интервальную оценки истинного значения измеряемой величины. За оценку истинного значения принимается оценка центра распределения, положение которого зависит от закона распределения.

1) Для симметричных экспоненциальных распределений с [0;0,45] эффективной оценкой является меридиана, Me:

 

 

 

1

 

 

 

 

 

 

 

 

M e

n

=

 

 

x

n

+ x

n

 

 

при четном n,

(2.147)

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

+1

 

 

 

 

 

 

2

 

2

 

 

M en = x (n+1)

при нечетном n,

(2.148)

2

2) Для распределений, близких к нормальному с [0,45;0,67],

эффективными оценками являются среднее x или усредненное среднее x n (0,05) , x n (01, ) :

 

1

 

n

 

 

 

x n =

x i ,

(2.149)

 

 

n i=1

 

 

 

 

 

 

1

 

nl

 

x n (ε) =

 

x i ,

(2.150)

 

n

 

 

 

 

 

2l i=l+1

 

где

ε n l εn +1 для случая,

когда с каждого конца вариационного

ряда исключают по l значений для получения более устойчивой оценки центра распределения. Обычно используют значения ε=0,05 либо ε=0,1. Данная оценка должна применяться с известной осторожностью, так как необоснованное исключение данных может исказить информацию, содержащуюся в выборке (см. пример в начале этого параграфа).

3) Для распределений, близких к равномерному и арксинусоидальному с[0,671;] целесообразно использовать центр размаха, x R1 :

x R

=

x1 + x n

.

(2.151)

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[

]

эффективной оценкой

4) Для двухмодальных распределений с 0,671;

является центр срединного размаха, x R2 :

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

R2

=

 

 

 

x

n

+ x

 

 

 

 

 

при n, кратном 4,

 

 

 

 

 

 

 

 

 

 

2

 

 

 

3n

 

 

 

 

 

 

 

 

 

 

 

 

 

+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

4

 

 

 

 

 

 

 

 

 

 

(2.152)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

R2

=

 

 

 

x

n+2

+ x

 

 

 

 

 

 

 

при четном n,

 

(2.153)

 

 

 

 

 

 

 

 

 

2

 

 

 

3n+2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

4

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

R2

=

 

 

 

x

n1

+ x

 

 

 

 

 

 

при (n–1), кратном 4,

 

(2.154)

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

n1

 

 

 

 

 

 

 

 

 

 

+1

 

 

n

 

 

 

 

 

 

 

 

 

 

4

 

 

 

4

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

R2

=

 

 

 

x

n+1

+ x

 

 

 

 

 

 

при (n+1), кратном 4,

 

(2.155)

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

n+1

 

 

 

 

 

 

 

 

 

 

+1

 

 

n

 

 

 

 

 

 

 

 

 

 

4

 

 

 

4

 

 

 

 

Оценка дисперсии получается непосредственным вычислением. Например, для центра размаха, x R1 имеем:

D(x R

) =

1

[D(x1) +D(x n )]=

D(x)

,

(2.156)

4

2

1

 

 

 

 

 

 

 

 

 

 

т. е. дисперсия равна половине выборочной дисперсии. Значение дисперсии D(x) определяется через параметры распределения (см. §2.2). При выводе (2.156) использовано очевидное равенство: D(x1) = D(x 2 ) = D(x) , так как x1 и xn имеют одинаковую дисперсию,

являясь значениями одной и той же величины x.

Оценка доверительного интервала определяется требуемым значением доверительной вероятности. Для модельных распределений (равномерного, треугольного, трапецеидального) доверительный интервал рассчитывается непосредственно по известным параметрам распределения на основе простой связи между ним и доверительной вероятностью (см. Приложение 1, задача 1). Для нормального и других сложных распределений следует пользоваться статистическими таблицами. Информация об истинном значении измеряемой величины представляется в виде:

 

x = x ц ±

(2.157)

либо

 

 

x = xH x B

(2.158)

с указанием доверительной вероятности P и оценки центра распределения

xц,

где xH, xB

нижняя и верхняя границы интервала соответственно:

x H

= x ц (P) ;

x B = x ц + (P) ; xц – оценка центра распределения. В

частности, если распределение нормальное, то оценкой центра является выборочное среднее (см. §2.2. и Приложение 1, задача 2). Более сложной является совместная обработка количественных и качественных данных. Некоторые подходы к решению этой задачи рассмотрены в Приложении

2.