Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

мат. модел в почв

.pdf
Скачиваний:
83
Добавлен:
07.06.2020
Размер:
5.28 Mб
Скачать

Часть II. Применение математических моделей в почвоведении

мации сведены в таблице (табл. II.3.3). Мы же в основном будем использовать среднеквадратичную ошибку (RMSE).

Средняя ошибка характеризует среднее расхождение между вычисленными и измеренными данными и, таким образом, явля ется критерием наличия систематической погрешности в работе модели. Вместо средней ошибки можно рассчитывать среднюю абсолютную ошибку (AME); это позволяет избежать взаимной компенсации систематических ошибок противоположного знака, например, когда модель дает завышенную оценку в одной облас ти значений аргумента и заниженную – в другой. Иногда бывает полезно использовать относительную ошибку (RME). Среднеквад ратичная ошибка (RMSE) включает как систематическую, так и случайную составляющие. Чтобы лучше разделить эти состав ляющие, предлагается рассчитывать несмещенную среднеквадра тичную ошибку (URMSE).

Таблица II.3.3

Используемые критерии совпадения рассчитанных по модели и экспе риментальных данных (ошибки или погрешности модели)

Название критерия

Обозначение

Расчетная формула

Средняя ошибка (mean error)

ME

1

 

(yэ yр)

 

 

 

 

 

 

N

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднеквадратичная ошибка

RMSE

 

 

(yэ yр)2

(root mean square error)

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

Средняя абсолютная ошибка

AME

1

 

 

yэ yр

 

 

 

 

 

 

 

 

(absolute mean error)

 

 

 

 

 

 

 

N

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

Относительная ошибка (relative

RME

1

 

 

yэ yр

mean error)

 

 

 

 

 

 

 

 

 

 

 

N

 

 

yр

 

 

 

 

N

 

 

 

 

 

 

Несмещенная среднеквадратич

URMSE

 

 

(yэ yр ME)2

ная ошибка (unbiased root mean

 

 

 

 

N

 

 

 

 

 

square error)

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

Примечание. N – размер массива проверочных данных (объем выборки), yр и yэ – рассчитанные и экспериментально полученные значения искомой функции отклика.

281

Математическое моделирование в почвоведении

3.5. Подбор параметров аппроксимации для выбранной функции и процедура сканирования

для поиска параметров

Итак, вид функции, которой предполагается аппроксимиро вать экспериментальные данные, определен, следующим шагом в поиске модели станет подбор численных значений параметров аппроксимации.

Параметр – это числовой коэффициент или свободный член уравнения, полученный при аппроксимации эксперименталь ных данных выбранной функцией.

Практически всегда для целей нахождения оптимальных па раметров выбранной зависимости используется метод наимень ших квадратов, когда сумма квадратов ошибок моделирования (среднеквадратическое отклонение) минимальна:

 

 

1

n

 

Sr

=

nj j

2 =min

 

 

 

N j=1

 

Математических способов нахождения минимума средне квадратической ошибки весьма много. Безусловно, мы не можем здесь ознакомиться со всеми, но ведь у нас конкретная задача: определить вид функции для нашей экспериментальной выборки и получить численные значения параметров аппроксимации. И более того, надо подобрать числовые значения параметров ап проксимации выбранной нами функции и дать статистическую оценку полученному уравнению, параметрам аппроксимации и провести статистический анализ ошибок моделирования (по грешностей моделирования) для выявления их типа (случайные или систематические, нормально ли распределенные и т.д.). На ша проблема на данном этапе аппроксимации распадается на че тыре задачи:

282

Часть II. Применение математических моделей в почвоведении

1.Определение числовых значений параметров аппроксима ции.

2.Статистическая оценка полученного уравнения.

3.Статистическая оценка параметров аппроксимации и их дос товерность.

4.Анализ ошибок моделирования (ошибок аппроксимации). Начнем разбираться с самого простого и наглядного примера

аппроксимации данных – линейного уравнения. Хотя помним, что линейные функции в математическом моделировании природных процессов используются нечасто, более того, редко. И все же…

3.5.1. Подбор параметров аппроксимации эксперимен тальных данных линейной функцией

К примеру, мы имеем экспериментально полученную выбор ку данных относительной транспирации (T / T0 – функция отклика)

и матричного давления влаги в почве (pF – фактор, предиктор). Теоретически (Шеин, 2005) мы знаем, что в «засушливой» облас ти, относительная транспирация уменьшается практически ли нейно при снижении pF (т.е. при увеличении почвенной засухи). Поэтому, опираясь на известные литературные данные, мы ис пользуем линейную регрессию. Ниже в таблице приведены экс периментальные данные.

Т/Т0

1.00

0.94

0.93

0.91

0.86

0.78

0.76

pF

2.50

2.56

2.71

2.78

2.87

2.92

3.20

Первоначально, надо нарисовать график экспериментальных данных. Он действительно указывает, что линейная функция вы брана правильно (рис. II.3.16).

1. Определение числовых значений параметров аппрокси мации. Используя метод наименьших квадратов (Дмитриев, 1995) или программу STATISTICA, раздел «Линейная регрессия»), можно провести линейную аппроксимацию данных уравнением вида

y =b1 b2 x .

283

Математическое моделирование в почвоведении

Далее ее проводим и получаем конкретный вид функции для наших экспериментальных данных и статистические характери стики параметров уравнения из программы STATISTICA (таблица

II.3.4), т.е.

Т/Т0

Т/Т0 = 1.8558-0.3486*x

1.02

1.00

0.98

0.96

0.94

0.92

0.90

0.88

0.86

0.84

0.82

0.80

0.78

0.76

0.74 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3

pF

Рис. II.3.16. Линейная зависимость T/T0 от pF

Таблица II.3.4.

Пример линейной регрессии Model is: v1 =b1 b2v2 . Dep. Var.: T / T0

Level of confidence 95.0% (α=0.05)

 

 

 

 

 

 

Estimate

Standard

t value

p level

 

 

 

 

 

 

 

 

 

 

b1

1.855844

0.159826

11.61169

0.000083

 

 

 

 

 

 

 

 

 

 

b2

0.348562

0.057081

6.10647

0.001706

 

 

 

 

 

 

 

 

 

 

Уравнение для наших данных приобретает конкретный вид

T / T0 =1.856 −0.349pF . Итак, мы получили конкретный вид урав нения и можем перейти к решению второй задачи «статистиче ская оценка полученного уравнения».

284

Часть II. Применение математических моделей в почвоведении

2. Статистическая оценка полученного уравнения.

Как указано выше, для начала используем подход с примене нием F критерия, который оценивает в целом достоверность на шего уравнения.

В статистическом разделе аппроксимации приведено значе ние F критерия и его уровень значимости р level – 2518.8 и 0.00008 соответственно. Рассчитанное значение F значительно больше критического, т.е. с очень большой (P > 99.999%) вероят ностью принимается альтернативная гипотеза, что дисперсия на ших измерений больше, чем дисперсия ошибок модели. В этом случае мы имеем право использовать модель при данном уровне значимости, что свидетельствует о достоверности нашей линей ной модели. Можно перейти к следующему пункту: «оценка дос товерности полученных параметров аппроксимации».

3. Оценка достоверности полученных параметров аппрок симации.

Для оценки параметров аппроксимации наиболее часто ис пользуется критерий Стьюдента (t критерий). В современных про граммах расчет t–критерия производится автоматически. Мы раз берем это на нашем примере.

В примере (таблица II.3.4) для параметров b1 и b2 указан уро вень значимости 0.000083 и 0.001706 соответственно. Указанное сравнение t рассчитанного с t табличным производится в про грамме автоматически и выдается в последнем столбце в виде уровня значимости p level. Параметры значимы с вероятностью > 99%. Мы доказали значимость обоих параметров и переходим к решению четвертой задаче – «анализ ошибок моделирования (ошибок аппроксимации)».

4. Анализ ошибок моделирования (ошибокаппроксимации).

Сначала, как мы и указывали выше надо проанализировать зависимость экспериментальных от расчетных значений. В идеа

285

Математическое моделирование в почвоведении

ле, это должны быть прямая биссектриса угла начала координат. Очень похоже, что у нас все так и получается, лишь при малых значениях наблюдаются некоторые отличия (рис. II.3.17, а).

а

Observed Values

1.05

 

 

 

Observed versus Predicted Values

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.00

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

0.95

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.90

 

 

 

 

5

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.85

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.80

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.75

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.70

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.70

0.75

0.80

0.85

 

0.90

 

 

0.95

1.00

1.05

Predicted Values

б

Residual Values

0.04

 

 

Predicted versus Residual Value

 

 

 

 

 

 

 

 

 

 

 

 

 

0.03

 

 

 

 

4

 

 

 

 

 

 

7

 

 

 

 

 

 

0.02

 

 

 

3

 

1

 

 

 

 

 

 

 

 

 

 

0.01

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.00

 

 

 

 

 

 

 

 

 

-0.01

 

 

 

 

 

 

 

 

 

-0.02

 

 

 

 

 

 

2

 

 

-0.03

 

 

 

 

 

 

 

 

 

-0.04

 

 

 

 

 

 

 

 

 

-0.05

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-0.06

 

 

 

 

 

 

 

 

 

-0.07

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.70

0.75

0.80

0.85

0.90

0.95

1.00

1.05

Predicted Values

Рис. II.3.17. Зависимости реальных величин от расчетных (а) и распреде ление погрешностей от расчетной величины (б

286

Часть II. Применение математических моделей в почвоведении

Однако, окончательный вывод о наличии/отсутствии систе матических ошибок и области их распространения сделать труд но. Необходимо построить зависимость ошибок аппроксимации от расчетной величины функции отклика (рис. II.3.17, б). Из этого рисунка совершенно определенно следует, что ошибки имеют случайный разброс, а наибольшие случайные ошибки наблюда ются в точках 7 (около 0.02) и 6 ( 0.058). Видимо, область опреде ления функции отклика (Т/Т0) при высоких значениях нестабиль на. Здесь возникают ошибки разного знака, но значительные по величине: это нестабильная область определения Т/Т0 с помощью нашей аппроксимации. Лучше, однако, провести аналитическую проверку значимости зависимости ошибок от расчетной величи ны, которая предлагалась для аналитического анализа ошибок (см. выше), а именно:. = ai +bi yрасч .

Попробуем получить это регрессионное уравнение и проана лизировать уравнение на значимость по F критерию, а параметры a и b уравнения на значимое отличие от нуля с помощью t критерия. Во первых, данное уравнение зависимости ошибок от реальной величины T / T0 оказалось при проверке по F критерию незначимым. F критерий составляет всего лишь 0.67 при его дос товерности 0.45, также как и оба параметра «а» и «b» по t критерию. И это определенно указывает, что нет зависимости ошибок от реальной величины. Следовательно, систематические ошибки отсутствуют. Только после этих проверок самого уравне ния, его параметров и анализа ошибок аппроксимации, мы мо жем определенно сказать: «полученное линейное уравнение ви да T / T0 =1.856 −0.349pF значимо и не дает систематических ошибок при его использовании!».

287

Математическое моделирование в почвоведении

3.5.2.Аппроксимация нелинейных уравнений. Методы сканирования параметров

Выше мы неоднократно отмечали, что в почвоведении и дру гих естественных науках линейные уравнения применяются ред ко, так как природные процессы, как правило, нелинейны. Соот ветственно, и модели этих процессов должны быть нелинейными. Разберем, как в случае нелинейных аппроксимаций, при исполь зовании стандартного набора нелинейных функций (см. ниже таблицу) будет протекать процесс аппроксимации и выполняться четыре этапа статистической проверки модели.

Рассмотрим пример, приведенный в книге Я.А. Пачепского (Пачепский, 1992).

Яков Аронович рассматривает результаты эксперимента по изучению зависимости минерализации грунтовых вод (y, г/л) от критической глубины (x, м). Эти результаты приведены в таблице

II.3.5.

Необходимо определить вид зависимости, подобрать вид ап проксимирующей функции, определить параметры аппроксима ции и провести все четыре этапа статистической проверки полу ченного уравнения.

Таблица II.3.5.

Данные минерализации грунтовых вод (y, г/л)

и их критической глубины (x, м)

x

0.8

2.0

5.0

10.0

20.0

 

 

 

 

 

 

y

1.1

1.5

2.1

3.0

4.0

 

 

 

 

 

 

Начинаем, как всегда, с построения графика зависимости (рис. II.3.18). Безусловно, мы имеем дело с нелинейной зависи мостью. Надо выбрать из предложенных выше монотонно воз растающую. Начинаем с функции с наименьшим количеством па

x b2

раметров, например, степенной .

b1

288

Часть II. Применение математических моделей в почвоведении

Однако теперь мы имеем дело с нелинейной функций и тре буется специальный метод аппроксимации, получения ее пара метров.

Аппроксимация по методу наименьших квадратов – опе рация подбора параметров выбранной функции для эксперимен тальных данных, основанная на нахождении минимума средне квадратической ошибки экспериментальных данных.

Критерий получения параметров нам известен, это нахожде ние минимума среднеквадратической ошибки

 

 

1

n

 

Sr

=

nj

2j =min

 

 

 

N j=1

.

В данном случае можно представить среднеквадратическую ошибку в следующем виде (для упрощения расчета возьмем че тыре пары значений):

 

 

1

 

 

 

2

 

b2

 

2

 

 

5

 

b2

 

2

 

 

10

 

b2

 

2

 

 

20

 

b2

 

2 12

 

 

 

 

 

 

 

 

 

 

 

Sr

=

 

 

1.5

 

 

 

 

 

+ 2.4

 

 

 

 

 

+ 3.0

 

 

 

 

 

+ 4.0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

b1

 

 

 

 

 

b1

 

 

 

 

 

b1

 

 

 

 

 

b1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Минерализация, г/л

4.5

4.0

3.5

3.0

2.5

2.0

1.5

1.0

0.5

0

2

4

6

8

10

12

14

16

18

20

22

глубина, м

Рис. II.3.18. Экспериментальная зависимость минерализации от глубины грунтовых вод (Пачепский, 1992)

289

Математическое моделирование в почвоведении

Решением данного уравнения будут конкретные численные значения для параметров b1 и b2. Данное уравнение не удастся решить обычным способом – два неизвестных в одном уравне нии. Необходимо использовать другие методы. Для нахождения значений параметров в многопараметрических нелинейных урав нениях используют алгоритмы решения вычислительных задач методами высшей математике, которые можно разделить на де терминистические и стохастические. Давайте разберем наиболее показательный детерминистический метод сканирования или симплекс метод. Прежде всего, представим поле параметров b1 и b2 в виде крупной сетки (рис. II.3.19). В узлах сетки рассчитывается значение Sr. Начнем, например, со значения b2=0.3 и b1=0.3 (точка А). Тогда можно рассчитать Sr в этой точке:

 

 

1

 

 

 

2

0.3

 

2

 

 

5

0.3

 

2

 

 

10

0.3

 

2

 

 

20

0.3

 

2

1

2

Sr

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

1.5

 

 

 

 

 

+ 2.4

 

 

 

 

 

+ 3.0

 

 

 

 

 

+ 4.0

 

 

 

 

 

 

=

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.3

 

 

 

 

 

0.3

 

 

 

 

 

0.3

 

 

 

 

 

0.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=0.28 .

Рис. II.3.19. Пример использования симплекс метода для подбора пара метров b1 и b2

290