Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Оптимизация эксперимента в химии и химической технологии

..pdf
Скачиваний:
31
Добавлен:
15.11.2022
Размер:
14.6 Mб
Скачать

Во многих практических задачах х\ и х2 симметричны относи­ тельно математического ожидания, в частности в задаче об абсо­ лютном отклонении. Абсолютным отклонением называется вели­ чина

АХ = \ Х тх |

(1.65>

Требуется найти вероятность того, что абсолютное отклонение слу* чайной величины не превзойдет некоторого заданного числа е:

Р (АХ < е) = Р (тх б < X < тх + е).

(1.6б>

В частности, для нормированной случайной величины

Р(А ^о < £) = Р ( — Е < *0 < + е ) = Ф(е) — Ф( — Г) = 2Ф(е). (1.67>

Для случайной величины,

имеющей нормальное

распределение с

параметрами тх и сгх,

 

 

 

 

Р ( ДЛ - < е ) =

Я ^ Д А 'о< -^ -| = 2Ф

(1.68>

Обозначив — = k, получим из (1.68)

следующее соотношение:

°Х

 

 

 

 

Р (А Х <ках) = 2Ф (k),

(1.69>

отсюда

 

 

 

 

Р (АХ < ах) = 2Ф (1) = 0,6826,

 

Р (АХ < 2сх) =

2Ф (2) =

0,9544,

(1.70>

Р (ДА < Зак) =

2Ф (3) =

0,9973.

 

Таким образом, отклонения больше чем утроенный стандарт (сред­ неквадратическое отклонение) практически невозможны. Нормаль­ ное распределение обладает свойством линейности: если независи­ мые случайные величины Х\ и Х2 имеют нормальные распределе­ ния, то для произвольных чисел а и р величина

Y = a X l + $X2

(1.71 >

также имеет нормальное распределение, причем из свойств матема­ тического ожидания и дисперсии следует

ти = amXi + $тх%

(1.72>

ау = У а 2 о 1 1 + ?а11.

(1.73>

Пример 3. Размер диаметра втулок, изготовляемых цехом, можно считать нормально распределенной случайной величиной со стандартом ст=0,5 мм. Како­ ва вероятность брака, если бракуются втулки, диаметр которых отклоняется от нормы (математического ожидания) более чем на 0,8 мм.

Р е ш е н и е . Определение вероятности брака сводится к решению задачи об абсолютном отклонении для случайной величины d — диаметра втулки. Необхо-

димо определить P(kd^Ofi).

Найдем

вероятность противоположного события

ло формуле (1.68):

 

 

 

Р (Ad < 0,8) = 2Ф

=

2Ф (1,6) =

2-0,4452 = 0,8904,

откуда

 

 

 

Р (Ad > 0,8) ■= 1

— 0,8 9 0 4 =

0,1096.

ГЛАВА II

ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ

1. Генеральная совокупность и случайная выборка. На практике исследователь всегда располагаетлишь ограниченным числом зна­ чений случайной величины, представляющим собой некоторую вы­ борку из генеральной совокупности. Под генеральной совокупно­ стью понимают все допустимые значения случайной величины. При анализе какой-либо технологической случайной величины, непре­ рывно изменяющейся по времени (например, температура, давле­ ние и т. п.), под наблюдаемыми значениями случайной величины понимают значения технологического параметра в дискретные мо­ менты времени, разделенные таким интервалом, при котором сосед­ ние значения можно считать полученными из независимых опытов.

Выборка называется репрезентативной (представительной), если она дает достаточное представление об особенностях генераль­ ной совокупности. Если о генеральной совокупности ничего не из­ вестно, единственной гарантией репрезентативности может служить •случайный отбор. В очень многих исследованиях случайный отбор или случайное перемешивание (рандомизация) данных необходи­ мы. Для имитации случайного отбора можно использовать таблицы случайных чисел [6]. Допустим, необходимо отобрать 10 элементов из совокупности, содержащей 100 элементов. Для этого надо про­ нумеровать элементы генеральной совокупности от 00 до 99. Затем, начиная с любого места таблиц, выписать две последние цифры десяти идущих подряд чисел. Например, начиная с первого числа получились номера

82 49 18 48 09 50 17 10 37 51

(если числа повторяются, их надо опустить). Полученные номера показывают, какие элементы надо отобрать. Выбранную последо­ вательность изменять нельзя. Нарушение случайности, как прави­ ло, ведет к искажению результатов. Аналогично отбору произво­ дится рандомизация элементов. При этом нужно выписать случай­ ные номера до тех пор, пока они не охватят все заданные элементы.

Из случайного характера выборок немедленно вытекает, что любое суждение о генеральной совокупности по выборке само слу­ чайно. Предположим, что в результате эксперимента получена вы­ борка Х\у Х2, хп значений случайной величины X. Пусть х

Рис. 13. Выборочная функция распреде­ ления

некоторая точка оси х\ обозначим через пх число выборочных зна­ чений, расположенных левее х на той же оси. Отношение пх!п пред­ ставляет собой частоту наблюденных в выборке значений случай­ ной величины X, меньших х. Эта частота есть функция от х. Обозна­ чим ее Fn(x) :

FnW = nxln. (II. 1)

Функция распределения Fn(x), получаемая по выборке, называет­ ся эмпирической или выборочной функцией распределения (в отли­ чие от распределения генеральной совокупности, или теоретическо­ го распределения). Для каж­ дой выборки эмпирическая функция распределения бу­ дет своей, но все эмпириче­ ские функции распределения одной и той же случайной величины будут иметь нечто общее, что* является инфор­ мацией о функции распреде­ ления этой случайной вели­ чины.

Можно доказать (теоре­ ма Гливенко), что с вероят­

ностью 1 при п-+оо максимальная разность между функциями рас­ пределения случайных величин Fn (x) и F(x) стремится к 0:

Р (sup |

F (х) — Fn(.х) | 0) = .1,

(II.2>

«-►00

_оо<ЛГ<+оо.

 

Практически это означает, что при достаточно большой выборке функцию расйределения генеральной совокупности приближенно можно заменять выборочной функцией распределения. Пусть *1 < * 2 <*з< < хп — упорядоченная по величине выборка из гене­ ральной совокупности случайной величины X, или вариационный ряд. Все элементы выборки имеют одинаковую вероятность, равную 1/п. Поэтому, согласно определению функции Fn(x), имеем:

Fn( x ) = 0 прих<дгь

k

Fп С*)

----

при Xk< х < Xk+i ,

 

п

 

 

 

 

k= 1, 2......

п — 1

Fn(х) =

1

при х > х„.

(1Г.З>

На рис. 13 приведен график функции Fn(x). Все элементы вы­ борки оказываются точками разрыва этой функции. В точке разры­

ва

х=хи функция Fn(x) скачком переходит от

значения (k—1 )/п

интервале Xh-i^x<Xh) к значению

k/п, удерживая последнее

значение в следующем интервале.

 

используют метод

 

При обработке выборок больших объемов

«сгруппированных данных»: выборка

объема

п преобразуется в

статистический ряд. Для этого весь диапазон изменения случаййои величины в выборке xmtn-^xmax делится на k равных интервал^®- Число интервалов можно выбирать по полуэмпирической формуле

А = 1 + 3,2 Ig п

(И '4)

с округлением до ближайшего целого. Длина интервала h рав*13

h = (хтах xmin)/k.

(II*

Число элементов выборки, попавших в t-й интервал, обозначим ие' •рез П{. Величина, равная

pl — niln,

(II-6)

•определяет относительную частоту попадания случайной величины в t-й интервал. Все точки, попавшие в t-й интервал, относят к его середине Хг*:

х* ч= (xi- 1 + Jf,)/2. (II-7)

■Статистический ряд записывается в виде табл. 1.

График, построенный по данным табл. 1 (рис. 14), называется

гистограммой эмпирического или выборочного распределения. На

р*

Т

ыъ.

хпЛnxi

хг

*тах

 

 

Рис. 14.

Гистограмма

распределе-

Рис. 15. График

функции Fn(x),

 

ния

 

построенный по

сгруппированным

 

 

 

данным

рис. 15 приведен график функции Fn(x), построенный по сгруппи­ рованным данным.

При обработке наблюдений обычно не удается получить эмпи­ рическую функцию распределения. Даже простейший анализ усло­ вий проведения опытов позволяет с достаточной степенью уверен­ ности определять тип неизвестной функции распределения. Окон­ чательное уточнение неизвестной функции распределения сводится к определению некоторых числовых параметров распределения. По выборке могут быть рассчитаны выборочные статистические харак­ теристики (выборочное среднее, дисперсия и т. д.), которые явля­ ются оценками соответствующих генеральных параметров. Оценки,

Статистический ряд

Интервал

Длина интервала

Середина

Число точек

Относительная

интервала

в интервале

частота

 

 

1

* l )

*

П\

*

х х

Pi

2

(■*1. х 2)

Х 2

П2

*

P i

 

i

(.Х[—1» X 1)

*

П1

*

x i

Pi

k

 

*

Пь

*

(* * -!> * т а х )

х и

Pk

 

2

 

 

п

1

 

 

 

 

получаемые по выборке, сами являются величинами случайными, но нужная точность при этом достигается при меньших п, чем при непосредственном использовании теоремы Гливенко. К оценкам обычно предъявляются требования состоятельности и несмещенно­ сти. Оценка а*(хь х2, ..., хп) называется состоятельной, если с уве­ личением объема выборки п она. стремится (по вероятности) к оце­ ниваемому параметру а. Эмпирические (выборочные) моменты являются состоятельными оценками теоретических моментов. Оцен­ ка называется несмещенной, если ее математическое ожидание при любом объеме выборки равно оцениваемому параметру М[а*]=а. Еще одной важной характеристикой оценок генеральных пара­ метров является их эффективность, которая для различных не­ смещенных оценок одного и того же параметра при фиксированном объеме выборок обратно пропорциональна дисперсиям этих

оценок.

2.' Метод максимального правдоподобия. Для получения оценок используют различные методы. Широко применяется метод макси­ мального правдоподобия. Оценки, полученные при помощи этого метода, отвечают большинству изложенных требований. Сущность метода максимального правдоподобия заключается в нахождении таких оценок неизвестных параметров, для которых функция прав­ доподобия при случайной выборке объема п будет иметь макси­ мальное значение. Пусть известен общий вид плотности вероятно­ сти f(x, а) теоретического распределения; а — неизвестный пара­ метр, входящий в выражение закона распределения. На опыте по­ лучена выборка значений случайной величины хи хг, ..., хп■Окру­ жим каждую точку Xi окрестностью длины е. Вероятность попасть

в интервал с границами х гх г-\—— приближенно равна

f { X i ) e . Если произведено п наблюдений, то вероятность того, что

одновременно первое наблюдение попадает в первый интервал, вто­ рое— во второй и т. д., есть вероятность совместного осуществле­ ния событий и в силу независимости событий равна произведению вероятностей:

Р (*, а) = / (* 0 / (*2), •. ., / (хп) е«.

(II.8)

Событие с вероятностью Р осуществилось на самом деле. Естест­ венно ожидать, что событию, осуществившемуся при первом же испытании; соответствует максимальная вероятность. Поэтому в качестве оценки для а следует взять то значение а* из области до­ пустимых значений параметра а, для которого эта вероятность при­ нимает наибольшее возможное значение, т. е. корень уравнения

дР (х , а*)

да*

(П.9)

 

представляющего собой необходимое условие экстремума вероят­ ности Р Достаточным условием максимума при этом является вы­ полнение неравенств#

д*Р ( х ,а * ) _

(НЛО)

да*2

Если максимумов несколько, необходимо выбрать среди них наи­ больший. Решение проще получить, если перейти к функции

Р (х, а*)

V I

( 11.11)

L (х, а*) = In к- ’

= V In / (xh а *),

£1

которая называется функцией правдоподобия. Вероятность Р и функция L имеют максимумы при одних и тех же значениях опре­ деляемых параметров, так как

дJ ___дР_

Р > 0.

(П. 12)

да* П ~~ Р да* '

В общем случае требуется оценить одновременно несколько па­ раметров одномерного или многомерного распределения. Если а и х понимать как векторы, то формулировка принципа максимально­ го правдоподобия сохранится: надо найти такую совокупность до­ пустимых значений параметров а2*, ..., Я/Л которая обращает функцию правдоподобия в максимум. Необходимые условия экст­ ремума дает система уравнений

dL (х, а*

.........ak

= 0 ] = 1 ,2 .........

k,

(11.13)

даj

а неотрицательная определенность матрицы

<32L

1, J= 1. 2......

k

(И .14)

да*да

откуда
и л и а * =

является достаточным условием того, чтобы этот локальный экст­ ремум был максимумом функции правдоподобия.

Найдем методом максимального правдоподобия оценку для пара­ метра К показательного распределения с плотностью

/ (JC) = Xe“ xjf

по выборке Xu Х2 , ..., хп.

Для этого распределения функция правдоподобия имеет вид

£ = 2

1п(Хе А,) = л1пХ — 2 ^x i ’

(П.15)

; - i

г-1

 

Заменим в (II. 15) параметр %на его оценку %*\ дифференцируя по }* и приравнивая к нулю, получим уравнение

П

t = l

(11.16)

1

— , где л: —среднее выборки.

X

Пусть распределение случайной величины X подчинено нормаль ному закону:

Тогда вероятность совместного осуществления п независимых со­ бытий Х = х^ (/=1, 2, ..., п) равна

Р (х,

т, о2) =

1

ехр

(11.17)

(2яа2)"/2

и функция правдоподобия

 

 

 

 

 

 

п

L (JC, m, а2) =

In — =

— л/2 In 2я — /г/2 In о2 — —

/ — /л)2. (II. 18)

 

вп

 

2q2

JmA

 

 

 

 

i= 1

Заменим в (11.18) т и а2 на их оценки х и s2 й продифференцируем по х и s2:

dL_

= ^ ^ х ‘ ~ х ) =°-

дх

 

/-1

Для получения несмещенной оценки $i2 надо умножить на

п

п — 1

(11.23)

Уменьшение знаменателя »в (11.23) на единицу непосредственно связано с тем, что величина я, относительно которой берутся откло­ нения, сама зависит от элементов выборки. Каждая величина, за­ висящая от элементов выборки и входящая в формулу выборочной дисперсии, называется связью. Можно доказать, что знаменатель выборочной дисперсии всегда равен разности между объемом вы­ борки п и числом связей /, наложенных на эту выборку. Эта раз­ ность

f = n — l

(11.24)

называется числом степеней свободы выборки. В практических вы­ числениях для дисперсии s2 часто удобна формула

52 =

1

(11.25)

п — 1

легко вытекающая из (11.23):

2 СXIх)2 П

2 ^ ^^ -

/ - 1

=-------

[(*? — 2*1* + *2) + (*!— 2*2* + *2) + ... +

П

1

 

 

+

+

=

+ * 2 + . . . + * я ) ~

2х (хг + х 2 +

. .. + х п) +

(*2 + х* + . . . + хЩ =

/ - 1

Преимущество формулы (11.25) в том, что в ней нет операций вы­ читания близких чисел, как в формуле (11.23), что приводит к по­

тере точности. В формуле (11.25) эта операция применяется только один раз. Среднее и дисперсию выборки по сгруппированным дан­ ным табл. 1 вычисляют по формулам

ft

ft

1

l7l

$2 =

A2_

(II.27)

П— 1

12 '

/-1

 

Величина /t2/12 называется поправкой Шеппарда, она связана со смещением дисперсии при группировании.

4. Классификация ошибок измерения. Каждый результат изме­ рения— случайная величина. Отклонение реального результата от истинного называется ошибкой наблюдения. Ошибка наблюдения также есть случайная величина — она является результатом дейст­ вия только случайных (неучитываемых) факторов. Если обозначить истинный результат через а, ошибку — через АХ, результат измере­ ния —через X, то

Х — а = ДАТ.

(11.28)

Различают ошибки трех видов:

1.Грубые ошибки возникают вследствие нарушения основных условий измерения. Результат, содержащий грубую ошибку, резко отличается по величине от остальных измерений. На этом основа­ ны некоторые критерии исключения грубых ошибок.

2.Систематические ошибки постоянны во всей серии измерений

или изменяются по определенному закону. Выявление их требует специальных исследований, но как только систематические ошибки обнаружены, они могут быть легко устранены введением соответ­ ствующих поправок в результаты измерения.

3. Случайные ошибки — ошибки измерения, остающиеся после устранения всех выявленных грубых и систематических ошибок. При таком определении к случайным факторам, порождающим слу­ чайную ошибку, не относят факторы с постоянным действием (си­ стематические ошибки) и факторы с однократным, но очень силь­ ным действием (грубые ошибки). Случайные ошибки вызываются большим количеством таких факторов, эффекты действия которых столь незначительны, что их нельзя выделить в отдельности (при данном уровне техники измерения). При этом распределение слу­ чайных ошибок симметрично относительно нуля: ошибки, противо­ положные по знаку, но равные по абсолютной величине, встречают­ ся одинаково часто. Из симметрии распределения ошибок следует, что истинный результат наблюдения есть математическое ожидание соответствующей случайной величины. Так как из (П.28) Х = а + ЛХ и при отсутствии грубых и систематических ошибок