Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

мат. модел в почв

.pdf
Скачиваний:
83
Добавлен:
07.06.2020
Размер:
5.28 Mб
Скачать

Часть II. Применение математических моделей в почвоведении

фициенты по возможности имели физический смысл, а также быть единой для всех схожих явлений (иметь предсказательную способность для решения задач прогнозирования).

Данная задача решается во многом благодаря знаниям и личному опыту исследователя. Если установлен вид зависимости (например, сорбционные явления, явления увеличения или уменьшения числа микроорганизмов, накопления веществ лучше всего описываются логистическими кривыми) или известен из ли тературы, то можно воспользоваться соответствующей функцией и переходить к аппроксимации. Если же вид функции не известен, то необходимо для начала построить график зависимости пере менной от действующего фактора (эмпирический способ). Общий вид зависимости поможет выбрать функцию из указанных четы рех типов. Также необходимо заранее продумать какие могут быть ограничения у функции: некоторые свойства не могут при нимать отрицательные значения, некоторые превышать опреде ленное значение, например, 100%, зависимости должны обяза тельно начинаться из точки 0 или проходить через начало коор динат и т.д.

К вопросу о…

Правило Мичерлиха Макс Айдхард Альфред Мичерлих родился в Берлине 29 авгу

ста 1874 года. Образование получил в Кильском университете и Берлинском сельскохозяйственном институте. Известен Ми черлих, прежде всего, по работам математического описания зависимости урожая от дозы удобрений. На основании собст венных наблюдений он усомнился в точности закона Либиха, которого придерживалось большинство ученых того времени. И доказал, что между дозами удобрений и урожаем существует не прямая пропорциональная, а логарифмическая зависимость:

lg(A y)=lg A b(x c) ,

271

Математическое моделирование в почвоведении

где А – максимальный урожай, у – урожай при внесении того или иного химического вещества в почву в количестве х, b – фактор действия этого вещества, с – его содержание в почве. Заметь те (!), как Мичерлих точно заметил и предвидел: не просто за висимость урожая, а именно прибавка урожая (т.е. разница максимального и реального) от добавки в почву удобрения (вне сенное вещество минус содержание его в почве). Более того, он установил и эмпирические значения коэффициентов действия питательных веществ (того самого параметра b): N – 0.2, P2O5

– 0.6, K2O – 0.4, Mg – 2.0. В дальнейшем дискуссии кипели именно вокруг этих параметров уравнения, в частности, константно сти величины b (параметра действия фактора). Эти парамет ры в опытах самого М.А.А. Мичерлиха и многих других исследо вателей колебались в довольно широких пределах. Мичерлих объяснял изменчивость параметров тем, что почва очень ди намичная система, в ней происходят процессы химической и микробиологической трансформации как питательных ве ществ, так и самой почвы. Но вот что примечательно, многие ученые сосредоточились на определении параметров уравнения и математическом анализе расчетов Мичерлиха. Но при этом появлялись новые факты и даже теории. Так, великий россий ский агрохимик Д.Н. Прянишников тоже принял участие в вери фикации коэффициента действия азотных удобрений. Анали зируя результаты, он выдвинул и подтвердил гипотезу о рав ноценности нитратов и солей аммония в питании растений при благоприятном соотношении других факторов. Прекрасное доказательство того, что теоретическая модель при её экс периментальном изучении может быть мощным стимулом для появления и развития новых гипотез и теорий. В этом тоже огромная сила и привлекательность математических моделей в изучении природы.

272

Часть II. Применение математических моделей в почвоведении

3.4. Оценка качества аппроксимации

Обычно оценка моделей основывается как на визуальном графическом анализе, так и на использовании статистических по казателей. Для визуального анализа используется сравнение из меренных и прогнозируемых данных. Это вид сравнения дает возможность заметить аномалии в наблюдаемых и прогнозных величинах, различия между ними: насколько удовлетворительно модель описывает искомую величину и есть ли отклонения рас четной величины от реальной, есть ли наличие систематической погрешности. Существует правило Сайерта, который один из пер вых сформулировал условия приемлемости результатов расчета по качественному анализу динамических расчетных и реальных данных. Эти правила следующие: правило совпадения экстрему мов и правило совпадения средних.

Конечно, графические интерпретации субъективны и, поэто му, необходимо дополнить такой анализ использованием стати стических критериев, которые дают количественную меру соот ветствия между прогнозными и измеренными величинами.

Адекватность модели (adequacy of a model) – соответствие модели моделируемому объекту или процессу. Адекватность – условное понятие, так как полного соответствия модели реально му объекту быть не может, иначе это была бы не модель, а сам объект.

Для сравнения моделей и оценки их адекватности в настоя щее время существует относительно небольшое число общепри нятых критериев. Необходимо отметить несколько важных мо ментов. Экспериментальный материал должен, по возможности, захватывать крайние значения изучаемого явления (Пачепский, 1992). То есть, массив данных должен по возможности представ лять всю область величин искомого свойства, которые могут на блюдаться в естественных условиях. Фактический материал для проверки модели должен быть достаточно разнообразным. К примеру: влажные периоды с обильными осадками должны быть

273

Математическое моделирование в почвоведении

представлены наряду с засушливыми; воздействие токсиканта на организм должно изучаться при малых и высоких его концентра циях.

Немаловажно, что применение классических статистических подходов требует, прежде всего, доказательства нормальности распределения (Дмитриев, 1995). Для этого необходим «боль шой» массив данных и соответствующий выбор критерия "нор мальности" распределения. Чаще всего рекомендуется использо вать непараметрические статистические критерии. Однако, начи нают исследование модели на адекватность с простых качествен ных и полуколичественных критериев, которые хотя и не могут дать достоверный и весомый ответ об адекватности, но позволя ют очень многое сказать о работе модели, возникновении оши бок при моделировании, и, как правило, дать аргументированный ответ об адекватности модели (Сметник, Спиридонов, Шеин, 2005).

Нередко, в качестве критериев точности модели используют коэффициенты корреляции (R) либо детерминации (R2). Однако это может привести к существенным ошибкам. Действительно, коэффициент корреляции указывает не на близость рассчитанной и экспериментальной величин, а на их выстраивание в линейный вид. Нужно понимать, что высокий коэффициент R2 совсем не оз начает, что аппроксимация прошла удачно, так как эта величина не показывает наличие систематических ошибок, их диапазон и значимость, что чрезвычайно важно! Настоятельно рекомендуем не ограничиваться расчетом коэффициента корреляции. Необхо димо рассчитывать другие показатели (критерии) совпадения расчетных и экспериментальных величин.

Лучшее начало проверки работы модели – это построение зависимости экспериментальных значений от расчетных. При качественной аппроксимации получаем биссектрису (рис. II.3.12).

Построение такого графика может качественно указать на наличие систематических ошибок. На их наличие укажет положение точек по одну сторону от биссектрисы или же

274

Часть II. Применение математических моделей в почвоведении

положение этого графика не вдоль биссектрисы угла, а под некоторым другим углом.

Рис. II.3.12. График зависимости экспериментальных значений от рас четных

Кроме того, к описательным статистическим критериям отно сятся оценка распределения погрешностей (гистограмма распре деления погрешностей) и характеристика разброса погрешно стей (в виде «box & whisker plots» в пакете Statistika 6.0). По гисто грамме судят о нормальности распределения погрешностей и о том, насколько средняя величина погрешности близка к 0. Если распределение заметно отличается от нормального, значит есть систематическая погрешность (рис. II.3.13).

Рис. II.3.13. Графики распределения погрешностей (а) – распределение близко к нормальному, (б) – систематическая погрешность в отрицательной области

275

Математическое моделирование в почвоведении

Характеристика разброса погрешностей («box & whisker plots» в пакете Statistica 6.0), которая включает медиану, квартильный размах и размах варьирования, дает представление насколько медиана близка к нулю, распределение симметрично относи тельно медианы (близко к нормальному) и велик разброс оши бок.

На основании анализа линейной регрессии ошибок от рас четной величины функции отклика удобно проводить оценку систематических ошибок (Дмитриев, 1995), если на это указывает качественный анализ: построение графика зависимости ошибок моделирования от функции отклика y. Если график расположен параллельно оси x и выходит из нулевого значения на оси «оши бок», сами же точки лежат недалеко от этой нулевой линии и по обе её стороны – это означает, что модель достаточно хорошо, без систематических ошибок описывает экспериментальные дан ные. Если точки графика лежат преимущественно по одну сторону от нулевой линии, или образуют линию с явным устойчивым на клоном, это указывает на наличие систематических ошибок. Надо внимательно проанализировать в какой области yрасч ошибки на чинают явно возрастать и отклоняться от нулевой линии. Возмож но, это укажет на некоторые особенности модели или экспери ментальных данных.

Возможен и аналитический анализ наличия систематических погрешностей. Для этого надо рассчитать уравнение регрессии ошибок от расчетной величины = a +byрасч .

Далее можно проанализировать значимость параметров рег рессии по t критерию. Напомним, что при получении регрессион ного уравнения необходима проверка его значимости по крите рию Фишера. Для этого сравнивают рассчитанный критерий с таб личным для соответствующего уровня значимости и степени сво боды. Если рассчитанное значение превышает критическое (таб личное), то с соответствующей вероятностью можно утверждать, что проверяемая зависимость значима. А это означает, что при аппроксимации присутствуют систематические ошибки. Если есть

276

Часть II. Применение математических моделей в почвоведении

необходимость дать оценку этим ошибкам, необходимо проана лизировать значимость соответствующих регрессионных коэффи циентов с помощью t критерия. Например, если рассчитанный t критерий для коэффициента аi оказывается больше табличного, то с определенной вероятностью можно утверждать, что коэффици ент аi значимо отличается от нуля. Если ситуация с коэффициента bi аналогична, то систематические ошибки присутствуют во всем диапазоне реальных величин переменной отклика. Это означает, что ошибки возрастают с ростом реальной (экспериментальной) величины, что тоже характеризует наличие систематических оши бок. Отметим, что подобный анализ в программах STATISTICA весьма прост и нагляден (см. раздел «Оценка качества аппрокси мации»). Перейдем к более подробному анализу погрешностей аппроксимации.

3.4.1. Погрешности аппроксимации: абсолютная и относи тельная, случайная и систематическая

Итак, мы имеем определенную экспериментальную выборку. Эту выборку мы получили, задавая поочередно некоторые значе ния аргумента и оценивая всякий раз значения отклика. Заметим, что мы получили данные экспериментально, что означает присут ствие некоторой экспериментальной ошибки. Вот к этим данным мы должны теперь подобрать функцию (модель), которая наи лучшим образом опишет наши данные. При этом опять возникнут погрешности, на сей раз погрешности аппроксимации, у которых тоже будет некоторый разброс.

Характеристика качества найденной модели, т.е. то, насколь ко модель достоверна, оценивается путем сравнения реальных и предсказанных значений. Найденная аппроксимационная кривая никогда не может пройти точно по всем экспериментальным точ кам, ведь задачей аппроксимации является именно «сглажива ние» реально полученных данных и получение модели (уравне ния) для их описания в возможно наиболее широкой области ар гумента. Несоответствие отклика найденной зависимости и зна

277

yэксп

Математическое моделирование в почвоведении

чения полученного в эксперименте, называется погрешностью моделирования ∆ (в литературе употребляется определение «ошибка», хотя строго говоря, оно не является термином) (рис. II.3.14).

В зависимости от целей работы погрешность можно предста вить как абсолютную и относительную. Так, абсолютная по грешность есть отклонение предсказанного по модели значения от реально наблюдаемого абс = yэксп y расч . Абсолютная погреш ность удобна при сравнении отклонений предсказанных значений в конкретной аппроксимации или при сравнении моделей сход ных явлений. Для сравнения моделей разного рода явлений можно использовать относительную погрешность, которая явля ется отношением абсолютной погрешности к экспериментально

му значению y: отн = yэксп yрасч 100% .

Рис. II.3.14. Ошибки (погрешности) моделирования

– Экспериментальные точки, Расчетные значения по y=φ(x)

Погрешности абс = yэксп y расч

278

Часть II. Применение математических моделей в почвоведении

Следует понимать, что если погрешность рассматривается не по модулю, то погрешности аппроксимации могут компенсиро вать друг друга, и в сумме погрешность всего прогноза будем ми нимальной. Поэтому для расчетов средней абсолютной ошибки прогноза MAE (the mean absolute error) используют только вели

чины ошибок без учета знака: MAE =

1

nj=1

 

абс

 

, где j число экс

 

 

N

 

 

 

 

 

 

периментальных значений, N – общее число измерений с учетом повторностей.

Тот же принцип используется и для расчета средней относи тельной ошибки прогноза MAPE (the mean absolute percentage

error):

 

 

 

 

 

MAPE =

1

nj=1

 

отн

 

, где j число экспериментальных значе

 

 

N

 

 

 

 

 

 

ний, N – общее число измерений с учетом повторностей. Используют также не только величину абсолютной погрешно

сти модели, но и логарифм этой погрешности, предполагая, что погрешности модели распределены логнормально. Однако, в этом случае усложняется анализ этих погрешностей и оценки аде кватности выбранной функции. Поэтому лучше всего пользоваться указанными выше абсолютными и относительными погрешно стями моделирования.

Наиболее часто используют величину среднеквадратической погрешности или ошибки (root mean square error) – RMSE

 

 

 

 

 

1

 

 

1

 

 

 

 

Sr

nj

2

2

=

 

Δj

 

 

 

N j=1

 

 

где Sr – среднеквадратическая ошибка, N – общее число измере ний с учетом повторностей, nj – количество повторностей измере ний в j том варианте и – абсолютная ошибка для j того вариан та.

Кроме деления по величине и способу расчета, погрешности также разделяют и по их происхождению – на случайные и систе матические. Случайные погрешности не имеют преимуществен

279

Математическое моделирование в почвоведении

ного направления (в сторону плюса или минуса) и уравновешива ют друг друга. Эти погрешности возникают в результате случай ных отклонений значений изучаемого показателя в исследуемой выборке (ошибка экспериментатора, единичные случаи измене ния внешних условий и др.). Эти отклонения объясняет теория ве роятности.

В отличие от случайных отклонений систематические по грешности направлены в сторону только преувеличения или только преуменьшения в результате действия на изучаемую сис тему неучтенного фактора (рис. II.3.15).

Таким фактором, как правило, бывает методическая неточ ность (смещение нуля шкалы прибора, шкала нанесена неравно мерно; капилляр термометра в разных участках имеет разное се чение и др.), что нередко приводит к заметным ошибкам и, более того, к неверной интерпретации процессов. Поэтому анализ появ ления случайных ошибок – чрезвычайно важный этап регресси онного анализа.

(а)

(б)

Рис. II.3.15. Графическое изображение распределенияслучайных (а)

и систематических ошибок (б)

Если величина систематической ошибки известна, то необхо димо внести поправки в экспериментальные данные или ввести соответствующий коэффициент в модель.

Нередко, при специальных исследованиях используют и не которые другие (кроме среднеквадратической ошибки) выраже ния для ошибок (погрешностей) моделирования. Они для инфор

280