Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Моделирование объектов и процессов в металлургии

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
1.5 Mб
Скачать

При обработке результатов наблюдений обычно не удается получить эмпирическую функцию распределения. Однако даже простейший анализ условий опыта позволяет с достаточной уверенностью определять тип неизвестной функции распределения. Окончательное уточнение неизвестной функции распределения сводится к определению некоторых числовых параметров распределения. По выборкам могут быть рассчитаны выборочные статистические характеристики (выборочное среднее, дисперсия и т.д.), которые являются оценками соответствующих генеральных параметров.

Оценка а*(х1, х2, …, хn) называется состоятельной, если с увеличением объема выборки n она стремится (по вероятности) к оцениваемому параметру а.

Оценка а*(х1, х2, …, хn) называется несмещенной, если ее математическое ожидание при любом объеме выборки равно оцениваемому параметру а, т. е.

M a = a .

Для нормального распределения случайной величины получают оценку следующего вида: среднее арифметическое x для математического ожидания mx

x = n xi

i=1 n

и выборочную дисперсию si2 для дисперсии D[X]

 

n

si2

= (xi

 

)2 n .

x

 

i=1

Для получения точечных оценок используют различные методы, одним из которых является метод максимального правдоподобия. Метод максимального правдоподобия всегда приводит к состоятельным, хотя иногда и смещенным оценкам, имеющим наименьшую возможную дисперсию при неограниченном возрастании

объема выборки. Так, выборочная дисперсия si2 оказывается смещенной оценкой генеральной дисперсии

41

elib.pstu.ru

M si2 = nn1 σ2 .

Для получения несмещенной оценки дисперсию si2 надо умно-

жить на величину nn1 :

n 2

(xi x)

s2 =

i=1

 

.

 

n 1

 

 

 

Уменьшение знаменателя в этом выражении на единицу непо-

средственно связано с тем, что величина x , относительно которой берутся отклонения, сама зависит от элементов выборки. Каждая величина, зависящая от элементов выборки и входящая в формулу выборочной дисперсии, называется связью. Можно доказать, что знаменатель выборочной дисперсии всегда равен разности между объемом выборки n и числом связей l, наложенных на эту выборку. Эта разность

f = n l

называется числом степеней свободы выборки.

В практических вычислениях для выборочной дисперсии si2 часто более удобна следующая формула:

 

 

 

 

 

 

 

n

2

 

 

 

 

 

n

 

 

xi

 

 

1

 

 

 

i=1

 

 

si2 =

 

xi2

.

n 1

 

n

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итак, для нормально распределенной случайной величины получают по выборке следующие оценки генеральных параметров

распределения: среднее арифметическое x для математического ожидания m и выборочную дисперсию si2 для генеральной дисперсии σ2.

42

elib.pstu.ru

Выборочные параметры распределения, определяемые по серии измерений, являются случайными величинами, следовательно, и их отклонения от генеральных параметров также будут случайными. Оценка этих отклонений носит вероятностный характер – при статистическом анализе можно лишь указать вероятность той или иной погрешности. Пусть для генерального параметра a получена из опыта несмещенная оценка а*. Назначим достаточно большую вероятность β (такую, что событие с вероятностью β можно считать практически достоверным) и найдем такое значение

εβ = f (β), для которого

P (

 

a a

 

≤ εβ )= β .

(3.1)

 

 

Диапазон практически возможных значений ошибки, возникающей при замене a на а*, будет ±εβ. Большие по абсолютной величине ошибки будут появляться только с малой вероятностью

p =1β ,

называемой уровнем значимости. Иначе выражение (3.1) можно интерпретировать как вероятность того, что истинное значение параметра а лежит в пределах

a −εβ a a β .

Вероятность β называется доверительной вероятностью и ха-

рактеризует надежность полученной оценки. Интервал Iβ = a ±εβ

называется

доверительным интервалом. Границы интервала

a′ = a −εβ

и a′′ = a β называются доверительными граница-

ми. Доверительный интервал при данной доверительной вероятности определяет точность оценки. Величина доверительного интервала зависит от доверительной вероятности, с которой гарантируется нахождение параметра a внутри доверительного интервала: чем больше величина β, тем больше интервал Iβ (и величина εβ). Увеличение числа опытов проявляется в сокращении доверительного ин-

43

elib.pstu.ru

тервала при постоянной доверительной вероятности или в повышении доверительной вероятности при сохранении доверительного интервала.

На практике обычно фиксируют значение доверительной вероятности (0,9; 0,95 или 0,99) и затем определяют доверительный интервал результата Iβ.

Математическое ожидание и дисперсия генеральной совокупности оцениваются средним и дисперсией выборки тем точнее, чем больше объем выборки. При этом среднее характеризует результат измерений, а дисперсия – точность этого результата (дисперсия воспроизводимости). Если проделано m параллельных опытов (опытов, проведенных при неизменном комплексе основных факторов) и получена выборка y1, y2, …, yn значений измеряемой величины, то дисперсия воспроизводимости равна

 

 

 

m

 

 

 

 

 

 

 

( yu

y

)2

 

Sвоспр2 =

u=1

 

 

 

,

 

m 1

 

 

 

 

 

где

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

yu

 

 

 

 

 

y

=

u=1

,

 

 

(3.2)

 

m

 

 

 

 

 

 

 

 

 

 

ошибка опыта (ошибка воспроизводимости) –

sвоспр = sвоспр2 .

Часто для оценки точности методики ставят серию опытов, многократно повторяя анализ одной и той же пробы. При анализе каждой пробы делается различное число параллельных опытов и

вычисляются дисперсии si2 , i=1, …, n для каждой выборки отдель-

но. Для этого рассчитывают дисперсию воспроизводимости по текущим измерениям с помощью нахождения частных дисперсий как

44

elib.pstu.ru

 

 

n mi

 

 

 

S 2

 

∑∑(yiu

yi

)2

.

= i=1 u=1

i

 

n

 

 

 

(mi 1)

 

i=1

Тогда дисперсия воспроизводимости

 

 

n

 

n m

 

 

 

(mi 1)si2

 

∑∑(yiu

 

)2

 

s 2

 

yi

.

= i=1

= i=1 u=1

воспр

 

n

 

n

 

 

 

mi n

 

mi n

 

 

 

i=1

 

i=1

 

(3.3)

(3.4)

Если число параллельных опытов одинаково, то дисперсия воспроизводимости равна среднеарифметическому значению частных дисперсий

 

 

m

 

 

 

 

 

 

 

 

 

Si2 =

( yiu

yi

)2

 

 

 

 

 

i=1

 

 

 

 

,

 

 

 

(3.5)

 

 

m 1

 

 

 

 

 

 

 

 

 

 

 

n

 

n m

 

 

 

 

 

 

si2

 

∑∑(yiu

 

)2

 

 

sвоспр2 =

yi

 

 

i=1

 

=

i=1 u=1

 

 

 

,

(3.6)

n

 

 

 

 

 

 

 

n(m 1)

 

 

где n(m 1) = fвоспр .

При вычислении дисперсии воспроизводимости по текущим измерениям можно объединять между собой только те результаты, которые можно рассматривать как выборки из генеральных совокупностей с равными дисперсиями.

Грубые измерения являются результатом поломки прибора или недосмотра экспериментатора, и результат, содержащий грубую ошибку, сильно отличается по величине. На этом основаны статистические критерии оценки и исключения грубых измерений. Наличие грубой ошибки в выборке нарушает характер распределения случайной величины, изменяет его параметры, т.е. нарушается од-

45

elib.pstu.ru

нородность наблюдений. Следовательно, выявление грубых ошибок можно трактовать как проверку однородности наблюдений, т.е. проверку гипотезы о том, что все элементы выборки получены из одной и той же генеральной совокупности. На практике нередко возникает необходимость в оценке точек, резко выделяющихся из общей линейной закономерности. Подобную оценку легко произвести, построив доверительный интервал («коридор ошибок») искомой функции. Под «коридором ошибок» понимают границы, отсчитываемые по обе стороны от полученной прямой и показывающие пределы, в которых должны лежать экспериментальные точки. Точки, лежащие за пределами этого коридора, следует признать ошибочными и исключить из общей выборки.

Процедура выделения из общей совокупности точек, содержащих грубые ошибки, заключается в следующем. Вначале методом наименьших квадратов обрабатывают все полученные экспериментальные данные, не выбрасывая ни одной точки. Далее для каждой ординаты (для каждого заданного значения х) определяется доверительный интервал при выбранной доверительной вероятности

 

 

my

= yˆ(x) ±t

p s( yˆ) ,

 

 

x

1

2

 

 

 

где

my – условное математическое ожидание Y при заданном X;

 

 

x

 

 

t

p

– квантиль распределения для числа степеней свободы f и

1

 

2

 

 

 

 

 

 

выбранного уровня значимости p; s( yˆ) – выборочное среднеквадратичное отклонение, соответствующее выборочной дисперсии

s 2 ( yˆ) = s 2 (b0 ) + (x2 2xx)s 2 (b1) .

Если оказывается, что одна или несколько точек при этом выпадают из рассчитанных для них интервалов и величина отклонения превышает систематическую погрешность измерения, то их следует признать ошибочными и исключить из рассмотрения. Затем весь расчет коэффициентов, их случайных ошибок и коридора ошибок повторяется заново.

46

elib.pstu.ru

Стохастической связью между случайными величинами называется такая связь, при которой с изменением одной величины меняется распределение другой. Функциональной зависимостью называется такая связь между случайными величинами, при которой при известном значении одной из величин можно точно указать значение другой.

Крайняя противоположность функциональной связи – полная независимость случайных величин. Если случайные величины независимы, то получаем

f ( y x ) = f2 ( y)

и

f ( x y) = f1(x) ,

f (x, y) = f1(x) f2 ( y) .

Это условие можно использовать в качестве необходимого и достаточного критерия независимости двух случайных величин, если известны плотности распределения системы и случайных величин, в нее входящих.

При неизвестном законе распределения системы для оценки тесноты стохастической связи чаще всего используется коэффициент корреляции.

Для характеристики связи используют безразмерную величину,

называемую коэффициентом корреляции:

r= M (X mx )(Y my ) ,

σxσy

где σx и σy – стандартные отклонения X и Y.

Случайные величины, для которых коэффициент корреляции равен нулю, называются некоррелированными. Равенство нулю коэффициента корреляции не всегда означает, что случайные величины X и Y независимы. Только в случае нормального распределе-

47

elib.pstu.ru

ния при r=0 связь между случайными величинами однозначно отсутствует.

Нормально распределенные случайные величины X и Y не только некоррелированы, но и независимы.

Отметим следующие свойства коэффициента корреляции:

1)величина r не меняется от прибавления к X и Y неслучайных слагаемых;

2)величина r не меняется от умножения X и Y на положительные числа;

3)если одну из величин, не меняя другой, умножить на 1, то на –1 умножится и коэффициент корреляции.

Следует учитывать, что коэффициент корреляции характеризует не любую зависимость, а только линейную.

При обработке результатов большинства измерений возникает задача описания зависимости между исследуемыми случайными величинами. Для экспериментального изучения зависимости между двумя случайными величинами Х и Y проводят n независимых опы-

тов, при этом в каждом из них получают пару значений (xi, yi), i = 1, 2, , n. О наличии или отсутствии корреляции между Х и Y можно

качественно судить по виду поля корреляции, нанеся точки (xi, yi) на координатную плоскость.

Для количественной оценки тесноты связи служит выборочный коэффициент корреляции. Как было установлено ранее, состоятельными и несмещенными оценками для математических

ожиданий mx и my служат выборочные средние x и y , а генеральных дисперсий σ2x и σ2y – выборочные дисперсии sx2 и s 2y .

Выборочный коэффициент корреляции –

n

(xi x)(yi y)

r =

i=1

 

,

 

 

 

 

(n 1)sx s y

который является состоятельной оценкой коэффициента корреляции генеральной совокупности со смещением, равным

48

elib.pstu.ru

 

r

2

r 1

 

 

 

 

 

 

2n .

Величина смещения убывает с увеличением числа опытов и при n>50 составляет менее 1%. Выборочный коэффициент корреляции обладает теми же свойствами, что и r, и по абсолютной величине также не больше единицы:

1 r 1.

Величина выборочного коэффициента корреляции определяет меру криволинейности связи между X и Y, поэтому возможны случаи, когда при коэффициенте корреляции, значительно меньшем единицы, связь между X и Y оказывается близкой к функциональной, хотя и существенно нелинейной.

Форма связи между случайными величинами определяется линией регрессии, показывающей, как в среднем изменяется величина Y при изменении величины Х. Вид уравнения регрессии выбирается исходя из особенностей изучаемой системы случайных величин (экспериментальный подбор или целенаправленный перебор структур уравнений).

При исследовании корреляционной зависимости между двумя случайными величинами необходимо по данной выборке объемом n найти уравнение приближенной регрессии, чаще всего в виде следующего полинома:

k

yˆ (x)= b0 +b1x +b2 x2 +b3 x3 +L= b0 + b j x j ,

j=1

где коэффициенты b0 и bj являются оценками соответствующих теоретических коэффициентов истинного уравнения регрессии

 

= ϕ(x)0 1x 2 x2

 

k

my

3 x3

+L=β0 + β j x j ,

x

 

 

j=1

и оценить допускаемую при этом ошибку.

49

elib.pstu.ru

После выбора вида уравнений производится расчет его параметров, для чего чаще всего используется метод наименьших квадратов (МНК).

Метод наименьших квадратов

Пусть задан некоторый класс функций f(x), накладывающих на выборку одинаковое количество связей l. Число связей l равно числу неопределенных коэффициентов, входящих в аналитическое выражение для этой функции (обычно многочлен различной степени). Наилучшее приближение регрессии дает та функция из рассматриваемого класса, для которой сумма квадратов имеет наименьшее значение

Φ = n (yi f (xi ))2 .

i=1

Определение коэффициентов уравнения регрессии по методу наименьших квадратов сводится практически к определению минимума функции многих переменных. Если функция

y = f (x,b0 ,b2 L)

дифференцируемая и требуется выбрать b0, b1, b2, … так, чтобы

Φ = n yi f (xi ,b0 ,b1,b2 L) 2 = min ,

i=1

необходимым условием минимума этого выражения является выполнение равенств

∂Φ = 0 , b0

∂Φ = 0 b1

или после преобразования

50

elib.pstu.ru