Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Игнатенко Статистическая оценка данных екологического мониторинга 2010.pdf
Скачиваний:
140
Добавлен:
16.08.2013
Размер:
2.09 Mб
Скачать

6

6

 

6

6

B0 X02j + B1

X0 j X1 j + B11 X0 j X12j = X0 j y j ;

j=1

j=1

 

j=1

j=1

6

 

6

6

6

B0 X1 j X0 j + B1

X12j + B11

X13j = X1 j y j ;

j=1

 

j=1

j=1

j=1

6

 

6

6

6

B0 X12j X0 j + B1

X13j + B11

X14j = X12j y j .

j=1

 

j=1

j=1

j=1

Решив систему, найдем значения коэффициентов регрессии: В0 = = 0,225; В1 = 0,0193; В3 = 0,000125. Отсюда искомая модель имеет

вид: y = 0,225 + 0,0193Х 1+ 0,000125 X12 .

Для иллюстрации в последнем столбце табл. 4.8 приведены значения отклика ŷ, рассчитанные по уравнению регрессии для каждого опыта.

Обобщение МНК на случай регрессионных моделей произвольного вида, линейных по параметрам. Рассмотренное выше обобщение МНК применимо и для регрессионных моделей произвольного вида при условии, что коэффициенты регрессии входят в них линейно. Так, модель

y = B0 + B1eX1 + B2 sin1 X 2 + B3 (X32 +1)+ B4 X 4

легко сводится к линейному случаю введением новых факторов

X1' = eX1 ; X2' = sin1 X2 ; X3' = X32 +1; X4' =1 X4 .

В результате имеем линейную модель с четырьмя факторами y = B0 + B1 X1 + B2 X 2 + B3 X3 + B4 X 4 .

Таким образом, сначала ставится эксперимент по некоторому плану. Далее по общему правилу составляют матрицу базисных функций, приведенную в табл. 4.9. На ее основе записывают и решают систему нормальных уравнений с четырьмя неизвестными

В0, В1, В2, В3 .

Рассмотрим некоторые примеры. Зависимость видового числа y от коэффициента формы Х и высоты ствола дерева h отыскивается

в виде y = B + B X 2

+ B

(Xh). Заменой X

1

= X 2

;

X

2

=1

(Xh) эта

0

1

2

 

 

 

 

 

 

зависимость сводится к линейной зависимости вида y = B0 + B1 X1 + B2 X 2 .

72

Таблица 4.9

Матрица базисных функций

Номер

X 0

'

X

 

'

1

'

2

'

опыта

X1 e

 

1

X2

= sin X2

X3

= X3 +1

X4 =1 X4

1

Х01

eX11

 

 

sin1 X21

 

X312 +1

1 X41

2

Х02

eX12

 

 

sin1 X22

X322 +1

1 X42

...

...

 

 

 

...

 

...

...

 

 

 

 

 

 

 

 

N

X0N

eX1N

 

 

sin1 X2N

X32N +1

1 X4N

Другой пример. Для вычисления объема ствола дерева V применяется формула

V = B0 + B1 fd 2h,

где f – видовое число; d – диаметр дерева на высоте груди; h – высота ствола. Замена X1 = fd 2h сводит этот случай к линейной од-

нофакторной модели.

Расчет коэффициентов регрессии, как правило, осложняется, если они входят в уравнение регрессии нелинейно. Например, применение метода наименьших квадратов для модели вида

y = B0 + B1 X1 + B2eB3 X 2

представляет сложную задачу. Следуя идее метода наименьших квадратов, нетрудно выписать функцию, минимизирующую сумму квадратов отклонений, взять от нее производные по Вi и приравнять их нулю. Но полученная система уравнений линейной уже не будет, а значит, для решения ее надо выбирать специальные методы.

Однако в ряде случаев модели, нелинейные по параметрам, сводят к линейным с помощью простых преобразований. Так, в теории тепломассообмена широко применяются эмпирические формулы в виде произведения степенных функций

y = B0 X1B1 X 2B2 X 3B3 ...X kBk .

73

Применение ЭВМ для расчета коэффициентов регрессион-

ной модели. Систему уравнений (4.18) можно решить вручную, без применения компьютерных программных средств, если число неизвестных в ней не более трех. В математическом обеспечении компьютера имеются стандартные программы регрессионного анализа и статистической обработки экспериментальных данных, которые позволяют получать уравнения регрессии, не вникая в алгоритм и его программной реализации, для многофакторных моделей. Однако для качественного анализа построения уравнения регрессии с целью применения его для прогнозирования, определения роли различных факторов, оптимизации процесса исследования объектов и т.д. целесообразно рассмотреть алгоритм численной реализации решения системы уравнений для многофакторной модели.

Запишем систему нормальных уравнений в матричной форме [6]. Все выкладки справедливы для натуральных и нормализованных обозначений факторов. Пусть поставлен эксперимент согласно матрице плана в табл. 4.3. Поскольку применение МНК для моделей в виде многочленов любого порядка сводится к линейному случаю, обратимся к линейной модели (4.17) и матрице базисных функций в табл. 4.4.

Перепишем данные из табл. 4.4 в виде матрицы. Термин «матрица» употребляется здесь уже в математическом смысле – как таблица из идентификаторов или цифр, содержащая в общем случае n строк и m столбцов:

 

X

01

...

X

01

 

 

 

...

 

 

X = ...

...

.

 

X 0N

...

 

 

 

 

X kN

Приведенная матрица базисных функций (см. табл. 4.4) имеет размер N×(k + 1). Результаты эксперимента также выпишем в от-

y1y2

дельный столбец: Y = y3 .

...

yN

74

Аналогично можно выписать в отдельный столбец искомые ко-

B0

B1

эффициенты регрессии: B = B2 .

...

Bk

Столбец, а также строку можно считать частным случаем матрицы. Так, столбец Y можно рассматривать как матрицу размеров

N ×1 а столбец B – как матрицу размеров (k +1)×1.

Оперируя введенными терминами, можно сказать, что определение коэффициентов регрессии по результатам эксперимента эквивалентно нахождению столбца В по известной матрице Х и столбцу Y. Согласно [6]

B = (X T X )1 X T Y.

(4.20)

Таким образом, согласно формуле (4.20) для вычисления столбца коэффициентов регрессии B надо выполнить следующие операции: транспонировать матрицу Х; полученную в результате матрицу ХТ следует умножить на матрицу Х; от полученной матрицы ХТХ взять обратную; найденную матрицу (ХТХ)-1 надо умножить на ХТ, а результат – на столбец Y .

4.4. Об интервале съема данных и продолжительности пассивного эксперимента

При проведении пассивного эксперимента и, в частности, в процессе мониторинга окружающей среды (загрязнения атмосферы) возникает вопрос об интервале съема данных и необходимости продолжительности всего эксперимента. Обозначим через t временной интервал между последовательными измерениями выходной величины эксперимента. В предположении, что изменения исследуемой выходной величины y во времени представляют собой стационарный случайный процесс, интервал t съема данных можно определить из условия некоррелированности наблюдений.

75

Для расчета t надо иметь диаграмму изменений y за некоторое время t. По ней подсчитывают число F пересечений диаграммой линии среднего значения y за время t. Вычисляют среднее число пересечений за единицу времени по формуле f0 = Ft Тогда иско-

мую величину интервала t съема данных отыскивают из условия

[4]:

t 2 f0 .

(4.21)

Считается, что для определения f0 достаточно взять интервал времени t, в течение которого получено F = 40 – 70. Нецелесообразно выбирать величину t , превышающую значение 2/f0 из-за возможных изменений внешних условий, параметров объекта и т.п.

При оценке времени наблюдения над выходной величиной, т.е. продолжительности пассивного эксперимента, предлагается руководствоваться требованием, чтобы за это время наблюдаемая переменная успела пройти весь диапазон своего изменения с некоторой заданной вероятностью P. Предположим, что весь диапазон у изменения выходной величины разбит на ряд одинаковых интервалов в соответствии с разрешающей способностью измерительного прибора, и известна вероятность ν попадания величины y в верхний и нижний интервал диапазона. Величину ν берут обычно из отчетных данных. Продолжительность эксперимента Т определяется по формуле

 

T =λΔt ν,

(4.22)

где t – интервал съема данных; λ – параметр,

определяемый в

зависимости

от заданной вероятности Р

по формуле

λ = −ln(1

P) . Укажем, что для типичных значений Р = 0,95,

λ = 3,68 ; для Р = 0,99, λ = 5,3.

Пример. Контроль электромагнитного излучения антропогенного источника регистрируется самописцем графически на диаграммной бумаге. Диапазон изменения регистрируемой величины (напряженность поля, В/м) составляет от 20 до 100 В/м. Требуется определить время продолжительности наблюдения (эксперимента) и временного интервала измерения напряженности поля антропогенного источника.

76

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]