Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Управление качеством

..pdf
Скачиваний:
18
Добавлен:
15.11.2022
Размер:
22.01 Mб
Скачать
Рис. 3.24. Распределение случайной величины по закону Симпсона

3.13.5. Треугольный закон распределения (закон Симпсона)

К распределению по закону Симпсона приводит сложение двух случайных величин, подчиненных закону равной вероятности при одинаковых параметрах рассеяния. Кривая рассеяния имеет вид равнобедренного треугольника (рис. 3.24), из-за чего закон Симпсона часто называют законом треугольника.

При выборе в качестве начала отсчета случайной величины ее плотность распределения и математическое ожидание имеют следующий вид:

 

1

 

 

 

| x |

 

 

 

 

1

 

,

приa < x < a,

(3.50)

 

a

f (x) = a

 

 

 

 

 

 

 

 

 

 

0,

 

при x < −a, x > a,

 

 

 

 

 

 

 

 

Mx = 0,

 

σ =

 

a

,

ω = 2a = 2σ 6 .

(3.51)

 

 

6

 

 

 

 

 

 

 

 

3.14. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

На разных стадиях статистического исследования часто возникает необходимость в экспериментальной проверке некоторых предположений (гипотез). Например, необходимо убедиться, что измеряемые величины нормально распределены. Наша цель состоит в том, чтобы проверить, не противоречит ли высказанное предположение (гипотеза) имеющимся выборочным данным.

Для количественного сопоставления эмпирического (статистического) и теоретического распределений или, иными словами,

221

для того, чтобы принять или отвергнуть ту или иную статистическую гипотезу, используют результаты наблюдений. Пусть n наблюдений представлены последовательностью х1, х2, , хn. Тогда для проверки статистической гипотезы все пространство наблюдений разделяют на два непересекающихся подмножества Rn1 и Rn2, т.е. Rn1 Rn2 = 0. Проверяемую гипотезу принимают по результатам наблюдений, если выборочная точка последовательности (х1, х2, , хn) попадает в область Rn1, и отвергают при попадании этой точки в подмножество Rn2, которая носит название критической. Выбор этой области однозначно определяет и область Rn1.

Статистическая гипотеза характеризует поведение наблюдаемых признаков и является утверждением о параметрах распределения исследуемого признака (например, о среднем, дисперсии и т.д.). Такая гипотеза называется параметрической. Гипотеза о характере вида распределения случайной величиныназывается непараметрической.

Правило, по которому применяется или отклоняется выдвинутая гипотеза, называется статистическим критерием. Процедура обоснованного сопоставления высказанной статистической гипотезы с имеющимися в нашем распоряжении выборочными данными осуществляется с помощью того или иного статистического критерия и называется проверкой статистических гипотез.

Правило, по которому строится тот или иной статистический критерий, состоит в том, что выбирается некоторая функция f (Θ ) = = F(х1, х2, , хn), которая является мерой расхождения между измеренными и предполагаемыми теоретическими значениями исследуемой величины. Эта функция является случайной величиной и называется статистикой критерия. Закон распределения статистики критерия Θ позволяет с заданной вероятностью принять или отклонить выдвинутую гипотезу.

Особый интерес представляет простой случай, когда среди параметров распределения случайной величины неизвестным является один, причем этот параметр может принимать лишь два конкретных значения Θ 0 и Θ 1.

Пусть Θ 0 желаемое («хорошее») значение параметра Θ , а Θ 1 – нежелаемое («плохое») значение. Задача формулируется как про-

222

верка гипотезы о том, что Θ = Θ о. При проверке статистических гипотез эта выдвигаемая гипотеза обычно обозначается Н0 (нулевая гипотеза). Тогда гипотезу о том, что Θ = Θ 1, называют конкурирующей (альтернативной) и обозначают Н1.

При проверке гипотезы Н0 против Н1 возможны два рода ошибок. Ошибка первого рода – это ошибка, когда отвергается верная гипотеза Н0. Ошибка второго рода – это ошибка, когда принимается неверная гипотеза Н1.

Вероятность ошибки первого рода обозначим γ 1 = Р (отвергается Н0 | верна Н0). Символически можно записать в следующем виде:

γ1

= P ( x1 , x2 ,..., xn )

Rn2

 

H0

 

,

(3.52а)

 

 

 

 

 

 

 

 

 

т.е. вероятность ошибки 1-го рода γ 1 есть вероятность принадлежности искомой выборки критической области Rn2 при условии истинности рассматриваемой гипотезы Н0.

Ошибку второго рода обозначим γ 2 (принимается Н0 | верна Н1). Ошибка второго рода с вероятностью γ 2 состоит в том, что принимается неверная гипотеза Н0, в то время как в действительности верна конкурирующая гипотезаН1, чтосимволически записывается ввиде

γ2

= P ( x1 , x2 ,..., xn )

Rn1

 

H1

,

(3.52б)

 

 

 

 

 

 

 

 

т.е. вероятность ошибки 2-го рода γ 2 есть вероятность принадлежности искомой выборки области допустимых значений Rn1, при условии истинности конкурирующей гипотезы Н1. Величину 1 − γ 1, т.е. вероятность того, что гипотеза Н0 будет отвергнута, когда она ошибочна, называют мощностью критерия и обозначают π .

В литературе величину γ 1 иногда называют риском изготовителя, а величину γ 2 риском заказчика или потребителя.

Ошибку 1-го рода по аналогии с ошибкой при определении доверительного интервала называют уровнем значимости, тогда величина 1 – γ 1 будет доверительной вероятностью, т.е.

1 γ1

= P ( x1 , x2 ,..., xn )

Rn1

 

H0

.

 

 

 

 

 

 

 

223

Доверительная вероятность это вероятность не совершить ошибку и принять верную гипотезу Н0. Вероятность отвергнуть ложную гипотезу Н0 называют мощностью критерия, т.е.

1 γ2

= P ( x1 , x2 ,..., xn )

Rn2

 

H1

.

 

 

 

 

 

 

 

Альтернативная гипотеза может принимать различные значения в зависимости от существа решаемых задач. Рассматриваемую как функцию от произвольного значения Θ вероятность отвержения нулевой гипотезы, когда справедлива альтернативная Θ 1, называют функцией мощности критерия. Чем больше мощность критерия, тем меньше вероятность совершения ошибки второго рода γ 2. Во всех случаях мощность критерияувеличивается при увеличении объема выборки.

В заданном объеме выборки невозможно одновременно сделать γ 1 и γ 2 сколь угодно малыми, поэтому, выбрав тем или иным способом критическую область γ 1, находят критическую область Rn2, для которой величина ошибки γ 2 принимает минимальное значение.

Различают простые и сложные гипотезы. Статистическая гипотеза называется простой, если она однозначно определяет распределение исследуемого признака, в противном случае гипотеза называется сложной. Например, простой гипотезой является утверждение о том, что изучаемый признак X имеет нормальный закон распределения со средним значением, равным нулю, и единичной дисперсией. Если же высказывается предположение, что наблюдаемый признак X имеет нормальное распределение (не указываются при этом конкретные значения среднего и дисперсии или указывается значение только одного параметра), то это сложная гипотеза.

Распределение статистики критерия Θ позволяет найти области принятия и отклонения гипотез. Задавая критические значения Θ 1– γ 1/2 и Θ γ 1/2 (рис. 3.25), получаем области отклонения гипотезы (критические области). Точки Θ 1– γ 1/2 и Θ γ 1/2 называют критическими точками или квантилями, а интервал между ними – интерквантильным. Величина γ 1 является уровнем значимости критерияи обычно выбирается достаточно малой. Наиболее часто задают величину γ 1 = 0,1…0,001. На рис. 3.25 величина γ 1 равна сумме заштрихованных площадей.

224

Рис. 3.25. Распределение статистики критерия Θ

Рассмотрим часто применяемый критерий согласия χ ² (критерий Пирсона) для проверки статистических гипотез. Суть этого критерия состоит в следующем. Пусть нужно проверить гипотезу Н0, состоящую в том, что результаты наблюдений образуют выборку из n значений Х – случайной величины, которая имеет некоторое заданное теоретическое распределение. Ставится задача – определить, насколько близко выборочное распределение случайной величины к ее теоретическому распределению.

Для решения этой задачи все пространство значений наблюдаемой величины разобьем на непересекающиеся области S1, S2, …, Sk. Обозначим через Pi вероятности попадания (при заданном распределении) в области Si, а через mi число попавших в эти области наблюдений (частоты).

По данным наблюдений и с учетом теоретического распределения случайной величины определим:

k

(mi nPi )

2

k

2

 

 

χнабл2 =

 

=

mi

n .

(3.53)

nPi

 

 

i =1

 

i=1

nPi

 

225

Величину f = k 1 называют числом степеней свободы, где

k – число сравниваемых частот (разрядов). При n → ∞

плотность

распределения величины χ2 выражается соотношением

 

 

 

 

 

k 3

x

 

 

 

 

 

x

 

e

 

 

 

 

 

φ(x ) =

 

2

2

 

 

.

(3.54)

 

k 1

 

k

1

 

 

 

 

 

 

 

2

2 Г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

На практике при применении критерия согласия χ² пространство выборок разбивают не менее чем на пять непересекающихся областей Sk (k 5), а число реализаций, попавших в область, должно быть не менее десяти. Для χ²-распределения вычислены таблицы

вероятностей P = P (χнабл2 < χкр2 ) (см. табл. П2). При использовании

таблицы следует иметь в виду следующее. Если в качестве теоретического распределения задано однопараметрическое распределение, то берут число степеней свободы, равное f = k – 1. Если задано многопараметрическое распределение, то число степеней свободы принимают равным f = k – p – 1, где p – число неизвестных параметров.

По значению χнабл2 , вычисленному по формуле (3.53), и известному числу степеней свободы f, используя табл. П2, находят P. Если значение P близко к единице, т.е. χ0,92 , χ0,992 , ..., χ0,9992 , то вероятность того, что χ2 > χкр2 мала, и, следовательно, гипотезу Н0 нуж-

но отбросить.

Для применения критерия χ² применяют метод, когда полученные данные группируют по интервалам частот и сравнивают с ожидаемым числом наблюдений для принятого распределения. На основе этого сравнения вычисляют критерий, который приближенно следует χ²-распределению только в том случае, если модель выбрана правильно. Если модель выбрана неправильно, то значение критерия превысит значение случайной величины, распределенной по закону χ². Для оценки правильности принятой модели используют численные значения процентилей χ2P( f ) -распределения, приве-

денные в табл. П. 2.

226

Критерий Пирсона вычисляют по формуле

2

k

(mi mi') 2

 

χнабл =

 

 

,

(3.55)

m

'

 

i =1

 

 

 

 

i

 

 

где k число сравниваемых частот; mi и mi' эмпирическая и теоретическая частоты в i-м интервале.

Полученные статистические данные делят таким образом, чтобы в каждый интервал попадало не менее пяти наблюдений. Если в какомлибо интервале число наблюдений окажется меньше пяти, то его объединяют с соседним интервалом таким образом, чтобы ожидаемое числонаблюдений в объединенном интервале было неменее пяти.

Расчет значений χ2набл удобно выполнять в форме табл. 3.3. После заполнения всей таблицы вычисляется число степеней свободы:

f = k p – 1,

где k – число сравниваемых частот (в нашем примере k = 7); p – число параметров теоретического распределения (для нормального закона p = 2). В нашем примере f = 7 – 2 – 1 = 4.

Область допустимых значений критерия χ2 или область принятия гипотезы характеризуется неравенством

χ2набл < χ2кр (γ 1, f),

где χ2набл – значение критерия, вычисленное по данным наблюдений; χ2кр (γ 1, f) – критические значения критерия при заданных γ 1 и f; γ 1 – уровень значимости в технике, обычно принимается равным 0,05.

По табл. П2 находим χ2кр (0,05; 8) = 15,5. Поскольку 5,88 < 15,5,

то гипотеза о нормальном распределении анализируемой погрешности справедлива.

Используя метод разбиения на интервалы, можно определить вероятность попадания случайного наблюдения в i-й интервал из соотношения

P (xiн xxiв ) , i = 1, 2, …, k,

(3.56)

где xiн нижняя граница i-го интервала; xiв верхняя граница i-го интервала; k – число интервалов.

227

 

 

 

 

 

Таблица

3 . 3

 

 

Вычисление критерия Пирсона

 

 

 

 

 

 

 

 

 

 

 

 

Номер

mi

 

mi'

| mi – mi'|

| mi – mi'|2

 

| m

m'| 2

 

 

i

i

 

 

 

 

 

 

 

 

интервала

 

 

 

 

 

 

mi

 

 

 

 

 

 

 

 

 

 

1

2

 

3

4

5

 

6

 

 

1

3

}

2,94

1,71

2,9241

 

0,31

 

2

11

9, 29

 

 

8

 

6,35

 

 

 

 

 

 

3

11

 

13,48

2,48

6,1504

 

0,46

 

4

20

 

18,80

1,20

1,4400

 

0,08

 

5

27

 

25,88

1,12

1,2544

 

0,05

 

6

36

 

30,17

5,83

33,9889

 

1,13

 

7

29

 

30,59

1,59

2,5281

 

0,08

 

8

18

 

26,63

8,63

74,4769

 

2,80

 

9

17

 

19,92

2,92

8,5264

 

0,43

 

10

17

 

14,79

2,21

4,8841

 

0,33

 

11

8

 

7,06

0,94

0,8836

 

0,12

 

12

4

 

3, 42

 

 

 

 

 

 

13

 

 

 

0,69

0,4761

 

0,09

 

1 6

1, 40 5,31

 

 

14

 

 

 

 

 

 

 

 

 

1

 

0, 49

 

 

 

 

 

 

Сумма

200

 

 

 

 

 

5,88

 

Границы интервала х1, х2, , хk определяют с помощью теоретического распределения с использованием следующих оценок параметров:

P (x x1 )=

1

, P (xx2 =)

2

, ..., P (x

xk 1=)

k 1

, (3.57)

 

 

 

 

k

k

 

k

нижняя граница первого интервала и верхняя граница последнего интервала являются соответственно наименьшим и наибольшим значениями, которые может принимать случайная величина. Границы интервалов установлены таким образом, что для каждого интервала вероятность попадания случайной величины в него оценивается как 1/k.

Математическое ожидание Мхi числа наблюдений в каждом интервале для принятой теоретической модели определяют как

Мхi=N/k, i = 1, 2, …, k.

(3.58)

228

Подсчитывают число наблюдений в каждом интервале mi и вычисляют критерий

 

k

 

k

 

 

χнабл2 =

(

mi2

) N .

(3.59)

 

 

N

i =1

 

 

Сравнивают вычисленное значение χ2набл с табличным значением для заданного уровня значимости и числа степеней свободы. Если вычисленное значение χ2набл превышает его табличное значение для α = 0,95, то вероятность того, что полученные данные имеют принятое распределение, не превышает 0,05, и модель отвергают как не удовлетворяющую требованиям.

Кроме того, можно пользоваться критерием Романовского:

AP =

χ2

f

.

(3.60)

 

 

 

 

 

 

2 f

 

Если АР < 3, гипотеза принимается, если АР > 3, гипотеза от-

вергается. В нашем случае AP =

5,88 8

= 0,53 , следовательно, эм-

 

 

2 8

 

пирическое распределение соответствует нормальному закону.

Если теоретические значения параметров известны, то луч-

шим критерием является критерий Колмогорова λк.

 

λк = DК N 1 ,

(3.61)

где DК – наибольшее отклонение теоретической кривой распределения от экспериментальной; N – общее количество экспериментальных точек.

При неизвестных параметрах этот критерий также применим, но в этом случае дает несколько завышенные оценки. Применение данногокритерия рассмотрим напримере, представленном в табл. 3.4.

В колонках 4 и 5 табл. 3.4 приведены накопленные суммы, которые образуются путем прибавления последующих частот к сумме предыдущих. Затем составляется разность между накопленными тео-

229

Таблица 3 . 4

Вычисление критерия Колмогорова

Номер

mi

mi'

mi

mi'

mi – mi'

интервала

(накопленные)

(накопленные)

(накопленные)

 

 

1

2

3

4

5

6

1

3

2,94

3

2,94

+0,06

2

8

6,35

11

9,29

+1,71

3

11

13,48

22

22,77

–0,77

4

20

18,80

42

41,57

+0,48

5

27

25,88

69

67,45

+1,55

6

36

30,17

105

97,62

+7,38

7

29

30,59

134

128,21

+5,79

8

18

26,63

152

154,84

–2,84

9

17

19,92

169

174,76

–5,76

10

17

14,79

186

189,55

–3,55

11

8

7,06

194

196,61

–2,61

12

4

3,42

198

200,03

–2,03

13

1

1,40

199

201,43

–2,43

14

1

0,49

200

201,92

–1,92

Сумма

200

 

 

 

 

ретическими и накопленными эмпирическими суммами (колонка 6) и находится максимальное значение этой разности. В данном примере она равна 7,38.

После этого находим

Dmax = 7,38/N = 7,38/200 = 0,037, N = ∑mi = 200.

Коэффициент λк находится по формуле

λк = Dmax N = 0,036· 200 = 0,50904.

Пользуясь табл. 3.5 для данного значения λк, находим Р(λ) – вероятность того, что гипотетическая функция выбрана правильно. Для λк = 0,5 имеем Р(λ) = 0,9639, т.е. эмпирическая и теоретическая кривые согласуются хорошо.

Пример 1. В процессе испытаний десяти генераторов были зафиксированы следующие значения наработок между отказами,

выраженные в часах: 2, 4, 4, 5, 5, 5, 6, 8, 8, 10, 12, 12, 15, 15, 16, 16, 18, 18, 19, 20, 21, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 24, 24, 24, 2, 3, 4, 4, 4, 4, 5, 5, 5, 6.

230