Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)

.pdf
Скачиваний:
63
Добавлен:
13.02.2016
Размер:
991.46 Кб
Скачать

Таким образом, имеем систему из семи альтернативных уравнений, в которой обычно удается найти приемлемое уравнение регрессии.

Такая форма записи уравнений позволяет сократить ее, используя, например, либо запись только коэффициентов с индексами вида

b0+b1+…+b12+…+b123+…+b1234+…+b12345+b11+…+b111+…+b555=y,

либо запись уравнения только в индексах коэффициентов b, т.е. кодовую форму полинома. Полный кубический полином при этом будет иметь такой вид:

0 1 2 3 4 5 12 13 14 15 23 24 25 34 35 45 123 124 125 134 135 145 234

 

235 245 345 1234 1235 1245 1345 2345 12345 11 22 33 44 55 111 222

(8)

333 444 555

 

В приложении А приведены индивидуальные задания, содержащие заданную форму искомого полинома именно в такой закодированной (8) форме.

Отметим, что построение полинома регрессии по структуре уравнения

(6) является только рекомендуемой формой. Одинаково «правомочна» любая другая форма полинома регрессии. По тем или другим соображениям из формы (6) могут быть исключены любые члены, желательно только при удалениях и добавлениях их сохранять принятый порядок индексации во избежание путаницы при анализе результатов.

С увеличением числа факторов, включенных в модель объекта исследования, количество членов полинома быстро нарастает. Так, например, полный кубический полином при трех факторах имеет четырнадцать членов, при четырех – 24, при пяти (см. уравнение (8)) – 42. Подсчитаем для наглядности, каково будет количество членов полинома (а значит, и количество коэффи-

циентов регрессии b) при данной форме полинома (6) при десяти факторах х. Его можно определить следующим образом.

1)Коэффициент b0 и еще десять – при единичных факторах х1,х2 и т.д., т.е. всего 11 коэффициентов;

2)Для парных сочетаний факторов их количество С210 = 210!*8!! = 45 ;

3)Для тройных сочетаний С310 = 310!*7!! =120 ;

4)Далее соответственно С410 = 410!*6!! = 210 ;

5)С510 = 510!*5!! = 252 ;

6)Затем пункты 2,3 и 4 повторяются в обратном порядке, образуя такое

же количество коэффициентов, т.е. 210+120+45=375;

7)С910 =10 ;

8)Сочетания по 10 из 10 - один коэффициент;

21

9) Коэффициенты при факторах во второй и третьей степени – по десять штук.

Итого: 11+375×2+252+10+1+20=1044 коэффициента.

В уравнениях регрессии неизвестными являются значения коэффициентов b (т.к. значения факторов и откликов известны из таблицы экспериментальных данных). Для нахождения каждого коэффициента b необходима одна строка таблицы экспериментальных данных. Достаточно трудно представить себе таблицу, содержащую 1044 опытов (наблюдений), особенно если один опыт занимает, скажем, неделю. Между тем, сложные реальные объекты находятся под влиянием сотен (если не тысяч) факторов. Конечно, здесь придется манипулировать формой искомого полинома, максимально ее укорачивая. Можно, например, включить в полином только единичные факторы в первой и второй степени, опустив все их сочетания по два, по три и т.д.

Мы привели здесь данный пример, чтобы показать, что по количеству включенных факторов, модель сложного объекта принципиально не может быть полной, а это означает, что эксперимент приходится проводить на приближенной модели, в условиях недостатка информации об изучаемом объекте.

22

5 Лекция 5. Случайный характер отклика объекта исследования

5.1 Классификация факторов и их влияние на качество модели объекта исследования

Реальные сложные объекты характеризуются большим количеством состояний. Состояние объекта определяется входными воздействиями на объект – факторами, и характеризуется выходными величинами – откликами. В предыдущей лекции было показано, что количество факторов, условно говоря, если не бесконечно, то не поддается определению. В то же время в логическую модель объекта исследования экспериментатор может ввести ограниченное количество факторов. Увеличение количества факторов, включенных в математическую модель объекта, "утяжеляет" эксперимент как по срокам проведения, так и по затратам, вплоть до того, что может сделать осуществление эксперимента вообще невозможным. Таким образом, исследователь вынужден неизбежно не включать часть известных ему факторов в эсперимент. Но существуют еще и факторы, либо выпавшие из его поля зрения, либо вообще ему неизвестные. Примерами таковых можно назвать изменение состояния оборудования по ходу эксплуатации (разладка, изменение зазоров и т.п.), старение реактивов, изменение параметров объекта под действием внешней среды (например, зависимость тяги в трубах печей от атмосферного давления), ошибки измерения или воздействия на объект и т.д. и т.п.

Все изложенное позволяет разделить факторы на следующие группы:

-контролируемые (фиксация значений параметров) и управляемые (назначение этих значений) факторы;

-контролируемые , но неуправляемые факторы; мы можем измерять и фиксировать их значение, но не изменять его;

-неконтролируемые и неуправляемые факторы.

В той или иной степени к искажению модели объекта приводит и неизбежная субъективность процедуры формирования набора факторов, в которой отражаются научные взгляды, интересы и амбиции исследователя. Достаточно вспомнить борьбу различных школ и направлений в науке, перерастающая зачастую в открытую вражду и непримиримость. Именно в силу этого важно, чтобы логическую модель объекта строил совет экспертов.

Итак, в силу изложенного принятая модель объекта по факторам всегда (или почти всегда) является неполной. А между тем реальное поведение объекта складывается под влиянием всех факторов – и включенных в эксперимент, и невключенных, и известных экспериментатору, и неизвестных. Тогда

значение отклика будет складываться не по зависимости у=ϕ(х1,х2,…,хк), а по зависимости у=ϕ(х1,х2,…,хк,w1,w2,…,wк), где wп – неучтенные фак-

23

торы. Неизвестное нам влияние неучтенных факторов делает отклик объекта уg непредсказуемой по значению величиной, а значит - величиной случайной.

Таким образом, снятое в эксперименте значение отклика - случайной величины – можно выразить зависимостью

y =ϕ(

 

) +δ(

 

),

 

x

w

(9)

где ϕ(x) - так называемая функция истинного отклика, отражающая

влияние включенных в модель контролируемых факторов, значение которых известно;

δ(w) - функция неучтенных факторов, называемая функцией

шума или просто шумом.

В связи со случайным характером откликов уg обработку экспериментальных данных приходится вести на базе математического аппарата математической статистики.

5.2 Случайная величина в обработке экспериментальных данных методом регрессионного анализа

Математическая статистика любой объект реальности моделирует как некоторый массив численных данных, называемый генеральной совокупно-

стью. Эта совокупность является поименованой случайной величиной. Таким образом, случайная величина – это массив численных значе-

ний.

Участие (или выпадение) какого-то из этих чисел в какой-то операционной ситуации непредсказуемо, имеет вероятностный характер и определяется законом распределения вероятностей значений данной величины. Примером таких величин является, например, среднемесячная температура июля за сто лет или количество пар мужской обуви, купленной в данном универмаге в обычный будничный день за какой-то период времени. Генеральные совокупности принято именовать заглавными латинскими буквами – A, X, Z и т.д. Конкретные же значения величин из данного массива обозначают строчными буквами с индивидуальным индексом этого значения: z1, z2 и т.д.

Генеральные совокупности могут быть конечными или бесконечными, дискретными или непрерывными. Оперировать с данными всей совокупности часто невозможно, поэтому их заменяют так называемыми выборками. Выборка – это ряд значений данной случайной величины, извлеченных из генеральной совокупности случайным образом. Представительная выборка обладает такими же свойствами, что и генеральная совокупность, т.е. является как бы ее «мини-моделью». Они и являются объектами для работы с данной случайной величиной.

Обратимся к данным таблицы 3. Весь вектор откликов yg (где g меняется от 1 до 50) по своему характеру является типичной выборкой из всего

24

возможного диапазона функциональных значений откликов y (на которые наложена шумовая составляющая). Очевидно, что эта генеральная совокупность бесконечна.

Теперь обратимся к отдельному элементу вектора откликов. Пусть это будет, например, y25 (25-ая строка таблицы 3). Ранее было показано, что отклик y25 (как и другие отклики yg) есть величина случайная. А это означает, что за значением y25=66,34 скрывается массив других значений случайной величины, которую следует назвать «У25». Итак, за каждым yg по всему вектору откликов y будут стоять пятьдесят генеральных совокупностей разных случайных величин с именами У!, У2,…,У25,…,У50. А это, в частности, означает, что если мы продублируем опыт по любой строке таблицы, например, по той же двадцать пятой, мы на этих повторах получим отклик не 66,34, а какие-то другие значения из генеральной совокупности У25.

Напомним, как и чем характеризуются случайные величины. При этом будем иметь в виду, что они имеют две ипостаси – это:

1)генеральная совокупность;

2)выборка.

Выпадаемые в опыте значения случайной величины непредсказуемы, но не произвольны: они имеют определенный диапазон и массив допустимых значений. Характеристикой случайной величины является генеральное среднее ( оно же – математическое ожидание), которое обычно обозначает-

ся как Mx, Mz или M{x}, M{z}. Для математического ожидания какого-то выражения фигурные скобки обязательны, например, M{x+y+z}. Для выбор-

ки эквивалентной характеристикой является выборочное среднее х, которое является статистической оценкой математического ожидания.

Среднее выборочное есть отношение

n

x = ∑xi , (10)

i=1

где n – количество элементов в выборке (объем выборки).

Еще одной характеристикой случайной величины является рассеяние отклонений ее текущих значений от центра, т.е. разностей (xi-Mx) для гене-

ральной совокупности и (xi- х) для выборок. Коллективной оценкой этих разностей для всего массива значений является дисперсия, которая для дискретной случайной величины равна

n

(xi Mx)2

σ2 = Dx = i=1 (11)

n

25

для генеральной совокупности и

 

n

 

 

)2

 

 

(x

x

 

 

i

 

 

 

 

s2 =

i=1

 

12)

 

 

n1

для выборки.

Отметим, что величины Мх и σ2 являются константами как однознач-

ные характеристики всего массива данных, а х и s2 являются случайными величинами в связи со случайным характером выборки.

Величины х и s2 , которые есть выборочные оценки Мх и σ2 , выражаются числом и поэтому называются точечными. Они дополняются интервальными оценками этих величин, смысл которых в следующем. Пусть, на-

пример, х=32,88. Интервальная оценка дополняет эту информацию, объявляя, что …« Мх данной случайной величины с такой-то вероятностью лежит в таком-то интервале значений случайной величины», например, в интервале

20.00-50,00. Если оценка х=32,88 не попадает в данный интервал, значит данная выборка непредставительна и должна быть забракована.

Приведем пример интервальной оцеика для математического ожидания Мх. Эта оценка при известном значении σ2 строится с использованием нормированной формы случайной величины х, которая обозначается как функция u /3/ и имеет вид

u =

 

х

M{х}

,

(13)

 

 

 

 

 

 

 

σ / n

 

где х- среднее значение случайной величины по выборке; n объем выборки.

Интервальная оценка для M{х}представлена неравенством /3/

 

u pσ

 

< M{х}< х+

u pσ

 

 

 

х

 

,

(14)

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

где up – значение нормированной формы случайной величины х при данной вероятности р.

Получение и свойства нормированной величины up мы рассмотрим

ниже.

Наиболее полной характеристикой случайной величины является закон распределения вероятностей случайной величины, который связывает дан-

ное значение случайной величины с вероятностью появления его (т.е.

26

этого значения) в опыте. Наиболее распространенным является закон распределения, получивший название нормального. В аналитическом виде этот закон выражается известным уравнением Гаусса

 

1

 

 

(xMx)2

 

 

f (x) =

 

e

2σ2

,

(15)

 

 

 

 

 

σ

2π

 

 

 

где f (x) - плотность вероятностей при данном значении х. Графически это уравнение имеет вид колоколообразной кривой, кото-

рая симметрична относительно центра распределения, которым является Мх (максимум функции f (x) ) и концы которой уходят в ±, асимптотически приближаясь к горизонтальной оси х и не достигая ее.

Итак, случайная величина есть обособленный поименоованый массив численных данных, отражающих переменное состояние данного реального объекта (т.е. являющийся моделью этого объекта).

Итак, значение Уg на данной строке таблицы экспериментальных данных есть только одно из случайных значений массива данных, являющихся случайной величиной. Пятьдесят строк таблицы – пятьдесят массивов, т.е. пятьдесят разных случайных величин.

Каждый из этих массивов имеет свои индивидуальные характеристикиматематическое ожидание Мх, дисперсию σ2 и закон распределения.

27

6 Лекция 6. Ошибки и точность наблюдений (опытов) в эксперименте

6.1 Дисперсия воспроизводимости

Из всего вышеизложенного следует, что при многократном повторении опыта по режиму одной и той же строки таблицы экспериментальных данных мы будем снимать разные значения отклика объекта при одинаковых значениях факторов х, т.к. за единичным случайным значением отклика объекта исследования на данной строке таблицы yg стоит массив случайных величин. Рисунок 1 иллюстрирует это положение.

Yg

My

функции

 

20

Значения

 

My32

My8

номер строки

Рисунок 1 – Идеальная и экспериментальная функция Уg

На горизонтальной оси отложены номера строк таблицы, на вертикальной – условный массив возможных значений откликов yg по 10-ой, 20-ой и

30-ой строкам (т.е. массивы значений величин y10, y20 и y30 ).

Каждая из случайных величин У10, У20 и У30 имеет свое математическое ожидание М{yg} и дисперсию σ yg2 . В соответствии с этим построим на

массивах значений величины yg графики законов распределения этих величин (вертикаль центров распределения расположена горизонтально). Обозначим экспериментальные значения отклика yg светлыми точками и соединим их

28

линией, которая будет имитировать экспериментально найденную зависимость. Линия, проходящая через координаты математических ожиданий (черные точки) М{yg}, будет отвечать той функции истинного отклика ϕ(х), которую мы ищем, т.е. которую мы и должны аппроксимировать полиномом регрессии. Отсюда следует, что если бы в таблице экспериментальных данных вместо случайной величины yg стояли бы постоянные величины М{ yg }, табличная зависимость ϕ(х1,х2,…,хк) потеряла бы свой случайный характер. В этом случае система имела бы единственное решение в виде идеальной математической модели функции истинного отклика ϕ(х), а именно в виде полинома η(х,β), где β - истинные коэффициенты "идеальной" регрессии.

Модель η(х,β) адекватна функции ϕ(х) и, таким образом, η(х,β) = ϕ(х). Но в силу случайного характера отклика объекта исследования, полином регрессии η(х,b), найденный по экспериментальным данным, является только статистической оценкой идеальной модели η(х,β). Отсюда следует, что рассчитанное по уравнению регрессии значение yg ( будем впредь обозначать его как yrg) является оценкой математического ожидания М{yg}. Линия, проходящая через светлые точки, и будет графической интерпретацией экспериментально найденного полинома η(х,b).

Дисперсия случайной величины yg на данной строке таблицы σ yg2 явля-

ется характеристикой объекта исследования и определяется только его природой. Поэтому значение величины σ yg2 одинаково для всех массивов значе-

ний случайных величин на всех строках таблицы данных

σ12 =σ22 =...... =σg2 =...... =σk2 ,

асама дисперсия называется дисперсией воспроизводимости σvos2 (т.к. она

воспроизводится для всех пятидесяти массивов по строкам таблицы 3.. Таким образом, графики распределения величины yg отличаются только математическими ожиданиями {М yg}, а дисперсии их одинаковы.

Табличное значение величины yg является экспериментальной оценкой М{yg}. Надежность оценок зависит от двух факторов: объема выборки и дисперсии оцениваемой случайной величины. На рисунке 2 представлены графики законов распределения трех случайных величин при одном значении математического ожидания и различных значениях дисперсии /2/.

Соотношение F(x)7,5<F(x)3<F(x)1 наглядно иллюстрирует то положение, что чем больше дисперсия, тем более сглажена кривая распределения и тем больше вероятность того, что экспериментальное значение отклика yg будет дальше от "идеального" значения М{yg}. Поэтому разность

( yg - М{yg}),

обусловленную влиянием шума δ{w} (см. уравнение (9)), можно рассматри –

29

Рисунок 2– Вероятность выпадения данного значения Х в зависимости от значения дисперсии

вать как "ошибку" экспериментального определения значения отклика yg, а дисперсию σvos2 как меру этой ошибки.

Это определяет особое значение дисперсии воспроизводимости для обработки экспериментальных данных.

Дисперсия воспроизводимости является мерой начальной ошибки всей процедуры обработки экспериментальных данных, началом " координат ошибки". Поэтому, сравнивая ее по ходу выполнения процедуры с последующими соответствующими показателями меры ошибки, можно оценить степень точности достигнутых текущих (или промежуточных) результатов.

6.2 Понятие о достоверности экспериментальных данных. Минимально необходимое количество наблюдений

Ранее было отмечено, что достоверность экспериментальных (или выборочных) оценок зависит от двух факторов: объема выборок (количества наблюдений) и дисперсии оцениваемой случайной величины. Очевидно, что для получения достоверных результатов с определенной доверительной ве-

30