Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Оптимизация эксперимента в химии и химической технологии

..pdf
Скачиваний:
31
Добавлен:
15.11.2022
Размер:
14.6 Mб
Скачать

подставим значение я=40 и полученную в таблице сумму. В результате имеем

л0)2 =

+ 0,032057=0,03414.

Для уровня значимости р = 0,05

табличное значение (ясо2) i_ P=0,4614 (табл. 4).

Вычисленное значение ясо2 меньше табличного. Следовательно, гипотеза нормаль­ ного распределения концентрации аммиачной селитры в соковом паре не откло­ няется.

21. Подбор плотности распределения вероятности. Нормальное распределение хорошо изучено, для него составлены многочислен­ ные таблицы. Поэтому, если выборочное распределение не согласу­ ется с законом нормального распределения, пытаются подобрать какое-нибудь преобразование результатов измерения Хг, чтобы пре­ образованные величины yi=f(Xi) подчинялись нормальному закону. Например, логарифмическое преобразование заменяет резко асим­ метричное распределение распределением, близким к нормальному. Если обозначить InX=Y, то

X = eY.

(11.138)

Оценкой для математического ожидания нормально распределен­ ной величины У служит среднее выборочное у:

П

Оценка для среднего значения случайной величины X получается следующего вида:

 

 

 

п

п /-------------

 

еу

 

 

П Xi=V *1*2...*/!.

(11.139)

 

 

/=1

/=1

 

 

 

Здесь в качестве среднего значения величины X рассматривается

медиана, равная

еШу. Математическое

ожидание

величины X

равно тх= е ту+а'/2.

Доверительная оценка

для среднего значе­

ния величины У имеет вид

_

^

 

 

 

_,

£

 

 

 

У — t — — < Щ < у + t —— .

 

 

 

V n

 

V n

 

 

Это приводит к следующей

доверительной

оценке

для среднего

значения величины X:

 

 

 

 

п /п

п / --------

 

У

П

xie~tsV"

< еПу < ] /

f \ x i e tsIVJ

(И.140)

 

Z -1

 

 

/=1

 

 

При больших п соотношение (11.140) может быть записано в виде

Преобразование нетрудно подобрать также, если отклонение выборочного распределения от нормального вызвано тем, что в процессе наблюдений изменяется генеральная дисперсия ох2. Опыт показывает, что нормальное распределение наблюдается тогда, когда в одну совокупность объединяются анализы проб, у которых концентрация определяемого компонента отличается не более чем в 3—4 раза. В противном случае между концентрацией х и выбо­ рочным стандартом sx обнаруживается зависимость sx= f(x), и распределение получается асимметричным. Заменим случайную ве­ личину X случайной величиной У: У=ср(А'). Тогда, согласно форму­ ле (11.36), получим

5// = ср' (х) sx = ср' (х) f (х).

(И. 142)

Выберем преобразующую* функцию ср(х) таким

образом, чтобы

дисперсия величины У стала постоянной, т. е.

 

<р'( -* )/(* ) = * ( с > 0 ) .

(11.143)

Тогда искомая преобразующая функция будет

определяться сле­

дующим образом:

(ИЛ4)

H x ) = c \ i b ) -

При помощи найденной преобразующей функции переходим от прямых измерений к косвенным измерениям с постоянной диспер­ сией. Теперь все наблюдения можно рассматривать как выборку цз одной генеральной совокупности. Такое преобразование называ­ ется стабилизацией дисперсии.

Пример 16. При замере концентрации поташа было обнаружено, что ошибка воспроизводимости уменьшается с ростом концентрации:

Концентрация раствора

10

16

20

30

40

х, %

0,2

Ошибка

воспроизводи­

0,25

0,20

0,17

0,11

0,05

мости s*

0,32

Необходимо подобрать преобразующую функцию для измеряемой величины (кон­ центрации), чтобы стабилизировать дисперсию воспроизводимости.

Р е ш е н и е . Для установления зависимости ошибки воспроизводимости от концентрации обработаем опытные данные методом наименьших квадратов, пола­

гая, что зависимость sx=f(x)

линейна. В результате расчетов получим уравнение

 

 

 

sx = 0,31 — 0,007;с.

 

Для стабилизации дисперсии

определим

преобразующую функцию по формуле

у — (х) =

с f

--------- — ---------=

— —

In (0,007л: — 0,031).

T W

J

0,31 — 0,007*

0,007

1 ’

Приняв с = 0,007 Ig е ,

получим

 

 

0 = — lg (0,007лг — 0,031).

Пересчитав-значения концентрации по этой формуле, стабилизируем дисперсию воспроизводимости.

Если выборочное распределение не согласуется с законом нор­ мального распределения, иногда удается получить хорошее анали­ тическое приближение при помощи Л-ряда Шарлье. Используя три первых члена ряда Шарлье, получим формулы для вычисления плотности вероятности f(x) и функции распределения:'

/ (И) =

[<Р (И) — “ £ '<P111

(“) +

^ f V V

(“)].

(11.145)

/=•(«) =

0,5 + Ф ( и ) - ^ - т "

(«) +

-^ -Т 1П

(и),

(И.146)

где vi и у2 — коэффициенты асимметрии и эксцесса, Ф(и) — функ­ ция Лапласа;

и =

(11.147)

<рп (и), ср1П (д), cpIV (и) производные 2,

3 и 4-го

порядка

от плот­

ности вероятности нормального распределения.

 

 

Пример 17. По данным примера

13 (см. стр. 61) подобрать закон распреде­

ления, пользуясь Л-рядом Шарлье.

Проверить,

используя

критерий

Пирсона,

улучшится ли согласие эмпирического распределения с этим законом распреде­

ления по сравнению, с нормальным законом распределения.

были

получены

сле­

 

Р е ш е н и е . В примере 13 по выборке

объема п=200

дующие значения

выборочных

параметров:

х = 4,30

мкм,

sx= 9,71

мкм,

Yi* =

= —0,1247, Y2* = —0,1455. Определим границы для

нормированной случайной

величины U по формуле (11.147), заменяя неизвестные

генеральные

параметры

выборочными:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и = (х — 4 ,30)/9,71.

 

 

 

 

 

 

 

Результаты расчета приведены в таблице.

 

 

 

 

 

 

 

 

1

/ - 1 -s- и1

Ф(и.)

?П (м/ )

 

 

 

 

 

F(u.)

1

- оо-5— 1,99

—0,5ч— 0,4767

04-0,1630

 

 

04-0,1062

 

04-0,0267

2

-1,99ч — 1,47

—0,4767ч-ч-0,4292

0,16304-0,1572

 

0,1062ч— 1,1670

0,02674-0,0715

3

—1,47ч— 0,96

—0,4292ч— 0,3315

0,15724— 0,0197

—0,1670ч— 0,5021

0,07514-0,1712

4

-0,96ч — 0,44

-0,3315ч— 0,1700

-0,01974-0,2920

 

-0,50214-0,4472

 

0,17124-0,3266

5

-0,444-0,07

-0,17004-0,0279

—0,2920ч— 0,3960

-0,4472ч-0,0834

 

0,32664-0,5192

6

0,074-0,59

0,02794-0,2224

—0,3960—0,2185

 

 

0,0834ч-0,5245

 

0,5192ч-0,7147

7

0,59-4-1,10

0,2224-4-0,3673

—0,21854-0,0458

 

 

0,5245ч-0,4290

 

t), 7147-г-0,8,627

8

1,104-1,62

0,36434-0,4474

0,04584-0,1745

 

 

0,42904-0,0654

 

0,86274-0,9506

9

1,62-4-2,13

0,44744-0,4834

0,17454-0,1460

 

 

0,0654ч— 0,1351

0,95064-0,9872

10

2,134-00

0,48344-0,5000

0,14604-0

 

-0,13514-0

 

0,98724-1,0000

 

Значения функции распределения Шарлье F(Ui)

определены

по формуле

(11.146).

 

 

 

 

 

 

 

 

 

 

 

 

Покажем, например, как определены функции

распределения

Шарлье . для

второго интервала. Границы

интервала (— 1,99-=-----1,47). По табл.

1

приложения

определим значения функции Лапласа для границ интервала

 

 

 

 

 

 

Ф С1,99) =

— Ф (1,99) =

— 0,4707,

 

 

 

 

 

Ф ( — 1,47) =

— Ф (1,47) =

— 0,4292.

 

 

 

 

В связи с тем, что функция ф(и) четная, вторая производная фп (ц) должна быть четной, а третья производная фш (ц) — нечетной:

<Р" ( — и) = <р"(и),

ср"'( — и) = — ср"'(ц).

(11.148)

Поэтому ср" ( — 1,99) = <р"(1,99) = 0,1630,

ср" ( — 1,47) = <р" (1,47) = 0,1572,

<р"'(—1,99) = ср'" (1,99) = 0,1062,

ср"' ( — 1,47) = — ср'" (1,47) = — 0,1670.

Оценим при помощи критерия Пирсона точность приближения эмпирическо­ го распределения рядом Шарлье. Теоретические вероятности pi попасть в /-й интервал на основании закона распределения Шарлье определим по форму­ ле (1.12):

где Ui — правая граница;

Ui-\ — левая

граница

i-ro интервала. Результаты рас­

чета приведены в таблице.

 

 

 

/

Р;

пр{

 

P i - np.t

.к- - «/»/)*

 

n p t

 

 

 

 

 

1

0,0267

5,34

7

1,66

0,516

2

0,0484

9,68

il ­

1,32

0,180

3

0,0901

19,22

ls

—4,22

0,926

4

0,1454

29,08

24

—5,08

0,887

5

0,1926

38,52

49

10,48

2,852

6

0,1955

39,10

41

1,90

0,092

7

0,1480

29,60

26

—3,60

0,438

8

0,0879

17,58

17

- 0 ,5 8

0,019

9

0,0336

7,321

7

0,12

0,001

10

0,0128

2,56/

3

В таблице два последних интервала объединены в один, так как прю= 2,56<5. Величина х2определяется по формуле

Х2 =

 

(П1ripi)*

 

= 5,911.

 

/-1

npi

 

 

Число степеней свободы /= 9 —4— 1=4, так как число параметров, определенных

по выборке, с=4{х,

sx, y f , у2*). По табл. 4 приложения при /= 4 Хо,95 = 9,5.

^

9

Таким образом, Х2<Хо,95 и гипотеза о согласии опытных данных с законом рас­

пределения, определяемым Л-рядом Шарлье, не отвергается. Однако нет основа­ ний утверждать, что согласование лучше, чем с законом нормального распреде­ ления, рассмотренного в примере 15.

22. Непараметрическая статистика. Если о законе распределе­ ния случайной величины ничего не известно, некоторые оценки можно получить методами непараметрической статистики. Таким методом, в частности, является метод построения доверительного интервала для генерального среднего при помощи неравенства Че­

бышева. В качестве оценки генерального среднего тх всегда можно взять выборочное среднее х. Точность такой оценки можно указать, зная генеральную дисперсию ст*2, вместо которой можно взять вы­ борочную дисперсию s*2. Основанием для этого служит теорема Гливенко (см. гл. II, § 1).

Согласно неравенству Чебышева, вероятность того, что отклоне­ ние случайной величины от ее математического ожидания будет по абсолютной величине не меньше любого положительного числа

е, ограничена сверху величиной

о2

 

—_ ;

 

 

е2

 

Р ( I X — тх \

> 1) < ~ У .

(11.149)

Полагая e=kox, получим

 

 

 

Р ( \ Х - т

х \

> к*х) < - У .

(11.150)

При доверительной вероятности р= 1—р неравенство Чебышева дает для генерального среднего тх доверительную оценку

* —

< тх < х + —°1 _ ■,

(11.151)

У 7

У р

 

которая позволяет оценить среднее по одному наблюдению. Если вместо х взять среднее выборочное х

П

2 xi

X = — -----,

 

 

п

 

то о- = - - С‘х_ - , откуда

 

 

У п

 

 

х — —

< тх < х + — -—

(11.152)

Упр

у пр

 

При доверительной вероятности р=1 —р = 0,95 имеем

 

х — 4,46 —

< т х < J + 4 , 4 6 - — _■■■

(11.153)

Уп

Уп

 

В практических расчетах округляют множитель 4,46 до 5 (что со­ ответствует р=0,96). Отклонения с вероятностью р<0,04 будем считать практически невозможными. Отсюда следует: каково бы ни было распределение генеральной совокупности случайной вели­ чины X с дисперсией ах , отклонение от генерального среднего больше чем на 5сг* практически невозможно- (см. формулу (11.120) для оценки коэффициента эксцесса).

няется, если значение

Большая простота и универсальность позволяют использовать неравенство Чебышева для теоретических заключений, хотя для практических расчетов оно оказывается слишком грубым. .Оценки, получаемые на основании неравенства Чебышева, намного уступа­ ют оценкам, полученным для нормального распределения. Так, при (3 = 0,95 для нормального распределения в формуле (11.153) вместо 4,46 стоял множитель 1,96. Это объясняется тем, что при обработке нормального распределения известна плотность распределения изу­ чаемой случайной величины. При использовании же неравенства Чебышева о плотности распределения ничего не известно. Если удается получить какую-либо информацию о плотности изучаемого распределения, это позволяет улучшить оценки. Так, если известно, что плотность изучаемого распределения симметрично убывает по обе стороны от математического ожидания (так называемое сим­ метричное одновершинное распределение), то неравенство Чебьь шева справедливо в усиленной форме:

р ( I х тх I > ka) <

(11.154)

При доверительной вероятности р=1—р = 0,95 из (11.154) полу­ чается оценка

_

ог

_

ах

(11.155)

.* — 2 ,9 6 ---- —

< тх < х -|-2 #9 б -----—

 

У п

 

У п

 

и, следовательно, отклонения от математического ожидания, пре­ вышающие З о Х у практически невозможны (см. формулу (11.119)). Выборочный коэффициент асимметрии имеет симметричное одно­ вершинное распределение. Если имеется выборка х\, Хг, , *п из генеральной совокупности с неизвестным распределением, полезно проверить гипотезу о том, что наблюдаемое распределение симмет­ рично. Подтверждение этой гипотезы позволило бы применить уси­ ленное неравенство Чебышева (11.154). Гипотеза о симметричности справедлива, если вероятность значений х<х в выборке равна V2 .

Оценкой для вероятности события А (х<х) служит частота со­ бытия А (теорема Бернулли), которую можно определить по вы­ борке. Если в полученной выборке k элементов меньше среднего выборочного, то частота события А равна сo = k/n. Число появлений события является случайной величиной, имеющей биноминальное распределение

п\

k\ (Пk)\ P kqn~ k ,

где р — вероятность появления события А в единичном испытании. Частота события сама является случайной величиной.

Для проверки гипотезы симметричности распределения необхо­ димо построить доверительный интервал для неизвестной вероят­ ности события Х<х по вычисленной частоте. Гипотеза не откло-

Т

р = попадает в доверительный интервал.

При построении доверительного интервала пользуются тем обстоятельством, что при больших п и при р, не очень близком к О и 1, биноминальное распределение мало отличается от нормаль­ ного с теми же математическим ожиданием т = пр и дисперсией о2 = пр(1p)=npq. Из линейности нормального распределения вы­

текает, что распределение

частоты

со также

будет

близко к нор­

мальному с параметрами

 

т

 

 

 

 

 

 

 

 

= — = 1 Г

/>(* —/0

 

(11.156)

'

п

V

п

 

 

Поэтому при доверительной

вероятности

р = 0,95

справедлива

оценка

 

 

 

 

 

 

 

< р < (О+ 1,96 j / "

(Н.157)

В левую и правую части полученной оценки входит неизвестная ве­ роятность р, и решение неравенств относительно р очень трудоемко. Поэтому величину р в формуле

1 f Р(\ — Р)

' = | /

приближенно заменяют на найденное по выборке значение частоты о). В результате оценка (11.157) -при доверительной вероятности р= 0,95 имеет вид

со— 1,96 j / ^ °) (1^

< р < to + 1,96 j

/

"

(Н. 158)

Пример 18. В результате наблюдений получена выборка из 20 элементов значений случайной величины X с неизвестным распределением:

11,2;

11,8;

12,4;

13,3;

14,2;

15,5;

12,1

9,8;

14,5;

12,5;

12,3;

16,4;

10,1;

11,3

15,4;

13,7;

10,8;

14,4;

9,6;

12,6;

 

Требуется проверить гипотезу симметричности распределения. Р е ш е н и е . Определим среднее выборочное

2 * *

 

х = /=1

12,7.

п20

Число элементов выборки k, меньших среднего, равно

12. Отсюда частота 0 =

= 12/20=3/5 и при доверительной вероятности (5 = 0,95

в соответствии с (11.158).

получается оценка для вероятности значений х<х:

 

и после вычислений 0,38^/7^0,82.

Таком образом, значение р—1/2 попадает в доверительный интервал. На этом основании можно сделать вывод о том, что наблюдаемая выборка не про­ тиворечит гипотезе о симметричности распределения генеральной совокупности случайной величины X.

ГЛАВА III

ДИСПЕРСИОННЫЙ АНАЛИЗ.

1. Задача дисперсионного анализа. В любом эксперименте сред­ ние значения наблюдаемых величин меняются в связи с изменением основных факторов (качественных и количественных), определяю­ щих условия опыта, а также и случайных факторов. Исследование влияния тех или иных факторов на изменчивость средних является задачей ди сп ер си о н н о го ан али з а [11, 13, 14, 15].

Дисперсионный анализ использует рассмотренное в гл. I, 3 свой­ ство аддитивности дисперсии изучаемой случайной величины, обус­ ловленной действием независимых факторов. Р. А. Фишер в 1938 г. впервые определил дисперсионный анализ как «отделение диспер­ сии, приписываемой одной группе причин от дисперсии, приписы­ ваемой другим группам». В зависимости от числа источников дисперсии различают однофакторный и многофакторный диспер­ сионный анализ.

Дисперсионный анализ особенно эффективен при изучении не­ скольких факторов. При классическом методе исследования варьи­ руют только один фактор, а остальные оставляют постоянными. При этом для каждого фактора проводится своя серия наблюде­ ний, не используемая при изучении других факторов. Кроме того, при таком методе исследования не удается определить взаимодей­ ствие факторов при одновременном их изменении. При дисперсион­ ном анализе каждое наблюдение служит для одновременной оцен­ ки всех факторов и их взаимодействий.

Дисперсионный анализ состоит в выделении и оценке отдельных факторов, вызывающих'изменчивость изучаемой случайной вели­ чины. Для этого производится разложение суммарной выборочной дисперсии на составляющие, обусловленные независимыми факто­ рами. Каждая из этих составляющих представляет собой оценку дисперсии генеральной совокупности. Чтобы решить, значимо ли влияние данного фактора, необходимо оцейнть значимость соответ­ ствующей выборочной дисперсии в сравнении с дисперсией воспро­ изводимости, обусловленной случайными факторами. Проверка значимости оценок дисперсий проводится по критерию Фишера (см. гл. II, 11). Если рассчитанное значение критерия Фишера ока­ жется меньше табличного, то влияние рассматриваемого фактора нет оснований считать значимым. Если же рассчитанное значение критерия Фишера окажется больше табличного, то рассматривае­ мый фактор влияет на изменчивость средних. В дальнейшем будем полагать, что выполняются следующие допущения: 1) случайные ошибки наблюдений имеют нормальное распределение; 3) факторы

влияют только на изменение средних значений, а дисперсия наблю­ дений остается постоянной; эксперименты равноточны.

Требование нормального распределения определяет выбор ос­ новных факторов при исследовании процесса методом дисперсион­ ного анализа. Если нужно получить нормальное распределение вы­ ходной величины, к случайным желательно относить только те фак­ торы, влияние которых на выходную величину очень мало. Исключение можно делать лишь для тех факторов, которые сами по себе (из каких-либо других соображений) дают нормальное распределение результатов.

Факторы/ рассматриваемые в дисперсионном анализе, бывают двух родов: 1) со случайными уровнями и 2) с фиксированными. В первом случае предполагается, что выбор уровней производится •из бесконечной совокупности возможных уроёней и сопровожда­ ется рандомизацией. При этом результаты эксперимента имеют большее значение, поскольку выводы по эксперименту можно рас­ пространить на всю генеральную совокупность. Если все уровни

.выбираются случайным образом, математическая модель экспери­

мента называется м о д е л ь ю с о с л у ч а й н ы м и у р о в н я м и ф а к т о р о в

( с л у ч а й н а я м о д е л ь ) . Когда все уровни фиксированы, модель назы­

вается м о д е л ь ю с ф и к с и р о в а н н ы м и у р о в н я м и ф а к т о р о в . Когда

часть факторов рассматривается на фиксированных уровнях, а уровни остальных выбираются случайным образом, модель назы­ вается м о д е л ь ю с м е ш а н н о го типа. Иногда отсутствует различие в критериях, применяемых для разных моделей, и единственное раз­ личие состоит в общности -выводов, в других случаях существует различие в критериях.

Дисперсионный анализ может применяться в различных формах в зависимости от структуры исследуемого процесса;- выбор соответ­ ствующей формы является обычно одной из главных трудностей в

практическом применении анализа.

2. Однофакторный дисперсионный анализ. Рассмотрим действие Единичного фактора А (количественного или качественного), кото­ рый принимает k различных значений (уровней фактора). На /-м уровне производится п£ наблюдений, результаты которых можно записать следующим образомL

Уи Уп - Уь,.

У12 Д22---У*,.

Ущ, У1пг --Уъпь-

Будем предполагать, что результат любого наблюдения можно представить в виде модели

У1) = ll + ^ + £|/i

(1И.1)

где р суммарный эффект во всех опытах; d i — эффект фактора А на /-to уровне (»—1, 2, .... k ); e£j— ошибка измерения на »-м

79

уровне. Предположим также, что наблюдения на фиксированном уровне фактора нормально распределены относительно среднего

значения p + d* с общей дисперсией а2. Общее число опытов рав­ но N:

N = Hi + п2 + . .. + nk.

(III.2)

Проверяется нулевая гипотеза равенства средних значений на раз­ личных уровнях фактора А:

т\ — ш2 = ... = = т .

Наиболее простые расчеты получаются при равном числе опы­

тов на'каждом

уровне фактора

А: т = п2= =пк = п

(табл.

5).

 

 

 

 

 

 

Т а б л и ц а 5

 

Исходные данные для однофакторного дисперсионного анализа

 

 

 

с равным числом повторений опытов

 

 

Номер

 

 

 

 

Уровни фактора А

 

 

 

 

 

 

 

 

 

наблюдения

fli

 

 

 

°*

 

 

 

 

 

 

 

1

 

0 И

 

 

021

0*1

 

2

 

012

 

 

0 22

0*2

 

п

 

У\п

 

 

У2п

0*л

 

Итоги

 

п

 

п

п

 

а

= 2

yij

л

= 2 w

Л * = 2 ^

а/

 

 

j -

1

 

 

/ “ 1

 

При этом общее число наблюдений N равно kti. Обозначим че­ рез yi среднее значение наблюдений на i-м уровне

2

уи

А,

(III.3)

У1 =

п

 

п

 

а общее среднее значение для всей выборки из N наблюдений:

* “ 7Г 2 2 !,"-T 2 s'

<ш-4)

Г 7-Г

/-1

 

Для проведения дисперсионного анализа необходимо общую выбо­ рочную дисперсию s2

*

л

_

 

 

( k п

\k2 ’ „

I

2

(У iJ

1

* п

^

 

S2 = /-1J-1________

 

 

(III.5)

 

N — 1