Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами

.pdf
Скачиваний:
83
Добавлен:
27.10.2023
Размер:
31.74 Mб
Скачать

172

Глава 3

можно провести, используя непосредственно мультиномиальное распределение вероятности. С широким применением этого крите­ рия можно ознакомиться по работе [20].

Пример 3.7.5. Критерий %2

Резина, полученная на регенерационной фабрике, распреде­ ляется по сортам А, В, С и D. Предыдущий опыт показал, что распределение продукции по сортам было таково: А, 53,4%; В, 26,6%; С, 13,3%; D, 6,7%. В последнюю неделю получена серия:

Сорт Партия

А340

В130

С

100

D

30

Изменилось ли распределение продукции?

Решение

Метод решения состоит в том, чтобы протабулировать наблю­ даемые частоты nt и рассчитать теоретические частоты п*, основы­ ваясь на том, чтобы полная их сумма равнялась сумме наблю-

 

Наблюдае­

Теоретиче­

 

Сорт

мая частота

ская частота

*

 

п і

" Î

 

 

 

Щ

А

340

320

400

320

 

 

 

В

130

160

900

160

 

 

 

С

100

80

400

80

 

 

 

D

30

40

100

4

 

 

 

Сумма

600

600

14,4

даемых частот. Число

степеней свободы равно ѵ — к — 1 — g =

= 4 — 1 = 3 (g = 0, так как частоты, п* вычисляются по изве­

стной плотности распределения вероятности). Из табл. В.2

нахо­

дим, что для V = 3 и, например, вероятности, равной 0,95,

%2 =

= 7,81. Безусловно, 14,4 больше, чем 7,81; даже

для Р — 0,99

имеем % і - а = 11,34. Следует предположить, что в

процессе

про­

изошли изменения.

 

 

Статистический

анализ и его

применения

173

Пример 3.7.6. Получение случайных чисел

Метод получения случайных чисел был применен 250 раз; были получены следующие результаты:

Пи*пя

Частота

ПиДта

Частота

цифра

появления

Цифра

появления

0

27

5

23

1

18

6

28

2

23

7

25

3

31

8

22

4

21

9

32

Действительно ли этим методом получаются случайные

числа?

Решение

 

 

 

 

 

 

 

 

 

 

 

 

Очевидно,

если наблюдаемые

цифры

являются

случайны­

ми, то каждая цифра должна появляться

с вероятностью 0,1,

так что теоретическое число появлений (из 250) должно

равнять­

ся

25.

Вычисляем

 

 

 

 

 

 

 

 

 

^

{nj-nf}2

_

(27-25)2 ,

(18-25)2 ,

,

(32-25)2 _ 7

0

 

Z j

n*

25

25

 

 

25

'

 

 

І=І

 

 

 

 

 

 

 

 

 

 

 

а

число степеней

свободы ѵ = к — 1 = 1 0

— 1 = 9 . Дл я ѵ = 9

из

табл. В2 находим, что для а

= 0,10

величина

%і-а = 14,68,

что явно больше, чем 7,2; следовательно, можно принять

гипотезу

о

том,

что эти

цифры

случайны.

 

 

 

 

 

Пример 3.7.7.

Проверка

предполагаемых

распределений

 

 

Неисправности некоторых узлов ракеты были протабулирова-

ны Коннором

[21], как показано

в столбцах 1 и 2 табл. П.3.7.7.

С наблюдаемым распределением относительной частоты сравни­ вались два распределения вероятности для того, чтобы: 1) объеди­ нить все данные в одну простую функцию с одним или двумя

коэффициентами,

содержащую всю известную

информацию,

и 2) попытаться

понять причины, вызывающие

неисправности.

Оценка среднего значения экспериментальных данных была введе­ на в качестве единственного параметра в распределение вероят­ ности Пуассона (табл. 2.3.1) и вероятность каждого события (числа

неисправностей) была рассчитана и затем умножена на

полное

число неисправностей 473,

чтобы получить

предсказанное рас­

пределение,

представленное

в третьем столбце табл.

П.3.7.7.

При сравнении значения

17,2 с %і-а = 9,21 из табл. В.2 (для

а = 0,01 и

V = к — 1 — g

= 4 — 1 — 1 = 2 )

хорошего

согла­

сия не было обнаружено. Заметим, что группы с объемом меньше 5 должны быть объединены так, чтобы к = 4. Однако тот же крите-

174

Глава 3

 

 

 

 

Таблица

П.3.7.7

 

Наблю­

 

Отрица­

 

Распре­

тельное

Число неисправностей

даемое

бино­

распреде­

деление

миальное

 

ление

Пуассона

распре­

 

 

 

деление

0

331

317

333

1

104

127

100

2

27

25

29

3

8

3

8

4

1

1

2

5

2

0

1

Сумма

 

473

473

473

2 j

nf

 

17,2

0,31

i = l

 

 

 

 

Xo2,99 из

табл. B.2

 

9,21

6,63

рий для отрицательного биномиального распределения вероят­ ности

р(х)=і[

.

] Ѳ ' ( 1 - Ѳ ) \

 

 

і = і,2, . . . ; г—положительное число, 0 < Ѳ « < 1 ,

указывает на неплохое согласие. Это распределение содержит два

коэффициента г и Ѳ, которые необходимо

оценить, так

что ѵ =

— 4 — 1

— 2 = 1. К а к

распределение Пуассона, так

и

отрица­

тельное

биномиальное

распределение имеют одно и то же среднее

значение

пѲ, но дисперсия распределения

Пуассона

равна пѲ,

а для отрицательного

биномиального распределения

она равна

пѲ/Ѳ = п; таким образом, последнее распределение более раз­ мыто, как и требуется. Целесообразность принятия гипотезы об отрицательном биномиальном распределении и ее следствия обсуждаются в оригинальной работе Коннора.

Вторым способом проверки согласия, который будет лишь упомянут здесь, является критерий Колмогорова — Смирнова. Этот критерий отвечает на вопрос, описывается ли распределение накопленной относительной частоты некоторым распределением накопленной вероятности. Если предполагается, что случайная величина имеет распределение накопленной вероятности Р0 (х), a S (х) — наблюдаемое эмпирическое распределение накопленной относительной частоты, то распределение D = max | Ро (х) —

Статистический анализ

и его

применения

175

— S (х) I можно считать известным [22—24] и использовать в кри­

териях согласия.

 

 

 

 

 

П р о в е р к а

н е з а в и с и м о с т и

п е р е м е н н ы х .

Предположим, что было проведено

п

пар

экспериментальных

измерений двух предположительно независимых (в статистическом смысле) величин. Если п пар данных классифицировать по какимнибудь качественным или количественным признакам этих двух величин, то можно использовать критерий %2 для проверки их предполагаемой независимости. Нулевая гипотеза состоит в том, что величины независимы.

Классифи ­ к а ц и я в е л и ­ чины X

 

 

 

 

 

Таблица

3.7.1

К л а с с и ф и к а ц и я

по двум

 

п р и з н а к а м 1 )

 

Классификация

величины Y

 

 

 

 

 

 

 

Сумма по

 

 

 

 

 

строке

 

 

 

 

 

p

 

 

Уі

Уг

••УР

.2

 

 

 

 

 

 

 

 

J =

1

 

fil

/і2 •

• fip

/1.

 

fzl

/22

• Іър

/2.

 

хт

/ml /тп2 •

• fmp

Іт.

 

Сумма по

 

 

 

 

 

 

столбцу

 

 

 

 

 

 

m

 

 

 

 

n

 

2

f.i

f.г

•f.p

 

 

 

f = 1

1) Точка в индексе обозначает суммирование по переменной, которую она заменяет.

Рассмотрим классификацию согласно табл. 3.7.1, в которой записано число исходов для каждой ячейки; — число появле­ ний пары ХІ, т. е. некоторой группы из X и Y. Обозначим вероятность получить число отсчетов ftj через ѲІ7-, а ее оценку через Ѳ^. Тогда можно образовать величину

m р

S S ( /

' Y X M 2

^ X A ,

ѵ = тр-1.

(3.7.17)

І5=1

'

 

 

 

176 Глава 3

Л е в ая часть этого равенства распределена приблизительно по закону %2.

Если р [ХІ) р (у}) = р (ХІ, у}),

так что случайные величины X

и Y независимы и, следовательно, ѲгѲ,- = Ѳ^, то можно оценить

ßt, Qj следующим образом:

 

й . ~

Iii.

J

так что

n

n.J.

(3.7.18)

f i « - V - -

Подстановка равенства (3.7.18) в соотношение

(3.7 17) дает

величину

 

X 2 = • 2 І 2 1 / " 7 , УР - '2 2 ( 1 Г ^ - І ) - ( З - 7 . « » -

j=l j=i ' i=i j=i г

распределенную приблизительно по -закону %2 с ѵ степенями свободы. При определении /| . и было наложено m - j - р — 1 связей, так что

V = тр — (т -f- р — 1) = тр — m — р + 1.

Число степеней свободы выражения (3.7.19) можно найти дру­ гим способом, замечая, что в классификационной таблице суммы, записанные в последнем столбце, должны складываться до п = = тр, так что число степеней свободы уменьшается на единицу для каждого случая, т. е.

(m — 1) — 1) = тр — m — р + 1.

В третьем способе получения ѵ учитывается, что для Ѳг оценива-

т

лись m параметров, но в силу 2 Ѳ; = 1 только m — 1 этих оценок

г=1

независимы. Аналогично при оценивании Ѳ7- остается только р — 1

степеней

свободы. Следовательно, всего будет

 

 

( т р _ 1) _ ( т _ 1) _ (р _ i ) =

( щ _ 1) (р _ 1)

 

 

степеней

свободы, как и выше.

 

 

 

 

Если

величина %2, вычисленная по формуле (3.7.19),

окажется

больше, чем величина

%2, найденная из таблицы для выбранного

уровня

значимости, то исследуемые

величины не являются

неза­

висимыми. В каждой

ячейке

должно

быть по крайней

мере

пять

отсчетов; в противном

случае

ячейки

необходимо объединить.

Статистический

анализ и его

применения

177

Пример 3.7.8. Критерий независимости

При проведении 87 запусков ракет были получены следующие данные о дальности и отклонении. При доверительной вероятности 0,95 проверим гипотезу, что измерения дальности и отклонения не­ зависимы.

 

Отклонение (в угловых минутах)

Дальность, м

от -250

от —50

от 50

Сумма

 

ДО -50

до 50

до 250

0—1200

5

9

7

21

1200—1800

7

5

9

21

1800—2700

8

21

16

45

Сумма

20

35

32

87

Решение

Минимальная частота появления не меньше 5. Число степеней свободы равно 4.

Х

L V 21-20 + 21-35 + 21.32 + 21-20 ~*~ 21-35 " t " ' " )

J

= 87-0,232 = 20,2.

Из табл. В. 2 для а = 0,05 находим, что хо,95 = 9,488. Таким обра­ зом, величины не являются независимыми.

3.8. О Б Н А Р У Ж Е Н И Е И И С К Л Ю Ч Е Н И Е А Н О М А Л Ь Н Ы Х З Н А Ч Е Н И Й

Даже тщательно спланированные и аккуратно выполненные эксперименты могут дать неоднородные данные. Изменение усло­ вий в течение эксперимента может остаться незамеченным и будут сделаны аномальные измерения, которые приведут к неправиль­ ным значениям, содержащим грубые ошибки; такие значения часто называют «резко выделяющимися» или просто «выбросами». Иска­ жение измерений может быть также следствием неправильной рабо­ ты регистрирующих устройств; при обнаружении неисправности такие значения следует отбросить. Ошибки, вызванные искрой при выключении, перевернутые цифры, неправильно размеченные разряды могут испортить хорошие в других отношениях данные. С другой стороны, выброс может в действительности оказаться просто одним из экстремальных значений распределения вероят­ ности случайной величины, которое, естественно, хотя и редко, появляется и которое не следует отбрасывать. Если исследователь знает, что сделана грубая ошибка, он без колебаний отбросит такое

178 Глава 3

наблюдение. Если же он не имеет достаточных практических осно­ ваний ни принять, ни отбросить экстремальное наблюдение, он должен использовать какой-нибудь статистический критерий. Чтобы не осталось сомнений, какие наблюдения следует отбросить, ему хотелось бы получить ответ на вопрос: какова вероятность того, что наблюдаемые разности являются следствием лишь слу­ чайных ошибок в выборке?

Подход к проблеме исследования далеко отстоящих значений наблюдений зависит от поставленных целей. Если исследователя только интересует, является ли некоторое значение аномальным, возможно, с целью исследования условий, которые могут приво­ дить к подобным экстремальным наблюдениям, то с получением критерия для таких наблюдений и заканчивается рассмотрение. Если же, с другой стороны, он хочет исключить выбросы для того, чтобы получить более точные оценки некоторых параметров сово­ купности, например среднего значения, то его интересует не только критерий для далеко отстоящих наблюдений, но также и оценива­ ние параметров, следующее за применением критерия. По этой причине ему хотелось бы рассмотреть возможное смещение оценки и ее дисперсию, надлежащим образом опираясь на использование критерия для выбросов. Если после применения этого критерия выборочные данные должны быть использованы для проверки гипотезы относительно некоторого параметра совокупности, то для исследователя представляется важным не только сам критерий для выявления выбросов, но также и мощность других критериев для проверки гипотезы.

Критерии для выбросов применяют, преследуя одну из следую­ щих целей:

1.Выровнять наблюдения перед анализом (отбрасывание вы­ бросов).

2.Убедиться, что аномальные значения присутствуют, что указывает на необходимость пересмотра процедуры получения данных.

3.Выделить наблюдения, которые могут представлять особый интерес именно из-за их экстремальности.

Здесь будут кратко рассмотрены критерии первого типа.

В случае классического подхода к решению задачи обнаруже­ ния аномальных точек необходимо предположить, что выборочные наблюдения производятся над случайной, нормально распределен­ ной величиной, образовать соответствующую статистику для обна­ ружения выбросов, чувствительную к резким отклонениям такого рода, найти ее распределение при нулевой гипотезе, утверждающей, что все наблюдения принадлежат одной и той же нормально рас­ пределенной совокупности, и затем отвергнуть гипотезу, если ока­ жется маловероятным, чтобы вычисленная статистика появилась в случайной выборке. Построение таких статистик обычно основы-

Статистический

анализ и его применения

179

вается на том, что исследователь по выборке результатов

экспери­

мента может заметить не согласующееся с остальными наблюдение. Статистики, лежащие в основе критерия обнаружения выбросов, которые называются статистиками экстремальных отклонений, содержат разность между экстремальным значением и выборочным средним значением, а также среднее квадратическое отклонение или его оценку, полученную по рассматриваемой выборке и (или) по независимой выборке. Теория и практические методы отбрасы­ вания выбросов разработаны слабо, что подтверждается следую­ щей цитатой из статьи Гумбеля [25]:

«Отбрасывание аномальных значений на чисто статистической основе было и остается весьма опасной процедурой. Само их при­ сутствие может являться доказательством того, что исследуемая совокупность в действительности отличается от предполагаемой».

Рассмотрим критерий, предложенный Анскомбом [26]. Пусть дана некоторая выборка наблюдений ХІУ Х2, . . ., Хп (и>-3), которая по предположению является случайной выборкой для

случайной

величины

X,

распределенной по нормальному

закону

с параметрами цх

и а\.

Вычислим разности

 

 

 

 

 

Y% =

Xj — X,

i — 1,

2, . . .,

n,

 

 

n

 

 

 

 

 

 

 

 

 

 

где X = 2

Xi/n.

Если

одно из значений X ; выделить, то выбороч-

і = 1

 

 

 

 

 

 

 

 

 

ное среднее для

оставшихся наблюдений

будет равно

 

 

 

п

 

 

 

 

 

 

 

 

 

 

y.XL

= X-ÏL,

v = n - l .

 

 

(3.8.1)

 

 

3=1

 

 

 

 

 

 

 

 

Если выделить несколько значений ХІ7

Х2,.

Хг,

то выбороч­

ное среднее будет

равно

 

 

 

 

 

 

 

 

 

 

Y

Yi +

Y2+...+Yr

 

 

 

(3.8.2)

 

 

 

 

 

n—г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При использовании индекса M для обозначения

наблюдения,

которому

соответствует

максимальная

разность

Y м

= Xм

— X,

правило, предложенное Анскомбом, состоит в следующем (для

случая, когда дисперсия ах

неизвестна): при заданном значении с

наблюдение Хм

отбрасывается,

если

| YM

| > csx. В противном

случае

наблюдение Хм

оставляется.

Для выборок

большого

объема,

если

наблюдение

Хм

отброшено,

оставшаяся

выборка

рассматривается как вновь

полученная

и для нее анализ можно

продолжить. Каждый раз величина ах

оценивается по наблюдени­

ям, оставшимся после отбрасывания Хм.

Величина с может изме­

няться с изменением объема выборки; Анскомб выразил ее неявно

180 Глава 3

через t:

И с 2 ( у +

Ѵ0

1)

-11/2

 

 

 

 

« A i 1 '

( S " 8 " 3 )

ѵ г + ѵ °

-

— )

J

 

а также дал следующее приближенное выражение через распреде­ ление F в явном виде:

С

(і + [ ( 3 ^ д - 1 Ѵ ( ѵ + ѵ 0 ) і )

'

 

( З - 8 - 4 )

где V — п — 1, а ѵ 0 — любое другое число

дополнительных сте­

пеней свободы, которое связано с оценкой ох

по выборке

объема,

не равного п. (Для с нужно взять положительное значение

квадрат­

ного корня.)

 

 

 

 

 

С помощью выражения (3.8.4) можно провести проверку сле­

дующим образом. Если никакие значения

не были

отброшены,

умножим допустимое

относительное приращение

о\,

«премию»,

на величину ѵіп. Обозначим это произведение через q и найдем соот­ ветствующую верхнюю процентную точку для отношения диспер­

сий Fi_q при

трех

и V + ѵ 0

— 1 степенях свободы.

Вычислим

значение с по выражению (3.8.4) и применим критерий для

Хм.

«Премия» зависит от того, насколько сильно опасаются

появления

ложных наблюдений, однако некоторое небольшое

относительное

приращение

ох,

скажем 0,02,

следует принять. Например, если

п = 4, V =

3

и

ѵіп = 0,75,

для «премии» 0,02

имеем

q =

= 0,02 «0,75 =

0,05. Ищем значение Fi-o.os П Р И 3 и 3 степенях сво­

боды. Оно равно Ft_q

= 9,28.

Тогда

 

 

 

^ 0 , 7 5 ) ' ' 4 1 + ^ » L 1 ) / 3 r = 0 . 8 3 1 .

Наблюдение Хм

следует

отбросить,

если

| Y м

| > 0,831 sx.

 

В гл. 4 и 5 будет обсуждаться проблема выбросов в рамках

регрессионного

анализа.

 

 

 

 

 

 

 

 

Пример 3.8.1. Критерий для обнаружения

выброса

 

 

Дан ряд значений:

 

 

 

 

 

 

 

 

 

 

 

^2

х3

хі

ХЬ

 

 

 

 

23,2

23,4

23,5

24,1

25,5

 

 

 

Является ли значение х5

резко

выделяющимся и

следует

ли

выбросить его из данной

выборки?

 

 

 

 

 

 

Решение

 

 

 

 

 

 

 

 

 

 

Вычисляем X = 23,9, а затем Y&

= Хь

— X = 25,5 — 23,9

=

= 1,6; sx = 0,77. Дл я

а

=

0,05, ѵ = 4 и

n =

5 из

выражения

Статистический

анализ и

его применения

181

(3.8.3) имеем

 

 

 

 

5 с 2 - 3

1/2

=

2,7763

 

»(HR

 

 

 

и методом проб и ошибок находим с = 1,49. Согласно критерию 11,6 |>1,49-0,77 = 1,05,

наблюдение Хъ отбрасывается.

3.9. К О Н Т Р О Л Ь Н Ы Е К А Р Т Ы П Р О Ц Е С С О В

Проверку гипотез можно применить весьма простым и практи­ чески удобным способом для контроля качества процесса. Конт­ рольные карты представляют собой графические средства анализа,

Верхний контрольный предел

» •

 

Нижний

контрольный

предел

 

 

I

I I I I I I

I I I

I

I I I I

I I

I I I I I

I

 

 

Время

(или.

число

выборок)

 

 

Ф и г . 3.9.1.

Типичная

контрольная

карта

качества

процесса.

 

которые нетрудно подготовить и использовать в заводских

рабо­

чих условиях. На фиг. 3.9.1 показана типичная контрольная

кар­

та для выборочного среднего значения. Общий метод изготовления

контрольной карты процесса включает:

1) получение выборки,

2) вычисление подходящей статистики,

такой, как выборочное

среднее, размах или накопленная сумма, и 3) графическое построе­ ние этой статистики на карте в виде функции от выборочной после­ довательности или времени.

На карте нужно каким-либо способом отобразить правила принятия решения о том, находится ли данная переменная процес­ са «под контролем». На фиг. 3.9.1 указаны верхний и нижний контрольные пределы. До тех пор пока статистика, откладываемая на этом графике, попадает между этими двумя границами, процесс считается под контролем. Правила принятия решения, используе­ мые для фиксирования этих линий, могут быть основаны на пред­ полагаемом виде распределения (обычно нормальном) для наблю­ даемой случайной величины, или они выводятся с помощью непа­ раметрического анализа, обсуждавшегося в разд. 3.7.

Если на графике статистика превысит контрольные пределы, принимается решение, что процесс «вышел из-под (статистическо-

Соседние файлы в папке книги из ГПНТБ