08 Учебное пособие МОГИ
.pdf
|
|
|
|
|
|
|
1 |
r |
2 ( n 1) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
. |
|
|
|
|
|
|
|
(19.2) |
|||||||||||||||||||||
y( x ) y |
|
y |
|
1 r |
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
n 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Cтандартная ошибка коэффициента парной корреляции: |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
r |
1 r2 / |
n 1 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(19.3) |
|||||||||||||||||||||||||||
При малой длине выборки (n < 25) рекомендуется в формулу (19.3) вводить |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
поправку |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
r |
1 |
r |
2 |
|
|
1 11 |
r |
2 |
|
|
|
75r |
|
2 |
13 |
. |
|
|
|
|
|
|
|
|
|
|
|
(19.4) |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
n 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
2n |
|
|
|
|
|
|
|
|
|
2n2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
Cтандартная ошибка коэффициента регрессии: |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
|
a |
|
|
|
|
y( x ) |
|
|
|
|
|
y |
1 |
r |
2 |
. |
|
|
|
|
|
|
|
|
(19.5) |
|||||||||||||||||||||||||||||
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
2 |
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
xi |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
Стандартная ошибка свободного члена: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
( xi )2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 r |
|
|
|
|
|
|
|
|
|
|
x |
|
||||||||||||||||
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
b y( x ) |
|
|
n |
|
|
|
|
|
|
|
|
y |
|
|
|
n |
2 |
|
|
|
1 |
|
|
|
|
|
|
. |
(19.6) |
||||||||||||||||||||||||||
|
|
|
n xi |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
||||||||||||||||||||||||||||||
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Сформулируем теперь полный набор требований, предъявляемых в |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
гидрологии к уравнению линейной регрессии: |
|
|
|
|
|
|
|
|
|
|
/ a 2 . |
(19.7) |
|||||||||||||||||||||||||||||||||||||||||||
|
n 10; |
|
|
|
r |
|
0,7; |
|
r |
|
/ |
r 2; |
|
|
a |
|
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||
Условия (19.7) использованы и в действующих нормативных документах [24]. При использовании уравнения линейной регрессии следует учитывать, что
истинное значение yi, соответствующее аргументу xi, будет отличаться от~yi ,
полученного по уравнению линейной регрессии (19.6), на некоторую величину εi. При этом предполагается, что εi является нормально распределенной случайной величиной с нулевым средним значением и СКО σy(x).
Рассмотренная система оценок позволяет, как правило, составить правильное представление о надежности полученного уравнения регрессии и принять решение о возможности его применения для практических расчетов. Но иногда такого анализа оказывается недостаточно. Проиллюстрируем это с помощью рис. 19.1.
Рис. 19.1
На рис. 19.1 эмпирические точки расположены неравномерно. Точки основной группы образуют поле рассеяния в диапазоне значений x от 3 до 15, а две точки расположены в области больших значений x. Первая имеет координаты (25; 35), вторая (35; 17). Значение коэффициента корреляции, полученное для
51
точек основной группы значительно меньше 0,7 ( r 0,45 ). Но если к основной группе точек добавить точку № 1, коэффициент корреляции резко возрастет ( r 0,82 ); линия регрессии – а. Использование всех данных, включая и точку № 2, вновь приводит к значительному изменению коэффициента корреляции ( r 0,66 ). Заметно изменится и положение линии регрессии – b.
Таким образом, здесь мы сталкиваемся с ситуацией, когда добавление одной или двух точек может существенно повлиять на параметры уравнения регрессии. Если в данном случае ориентироваться только на систему ограничений (19.7), можно принять ошибочное решение. Во втором варианте, когда из совокупности данных исключена точка № 2, все условия (19.7) выполняется.
Основная причина возникших здесь трудностей состоит в том, что выборочные точки группируются крайне неравномерно. В подобных ситуациях следует провести расчет параметров уравнения регрессии с учетом и без учета «тяжелой» точки, и если они существенно различаются, уравнение не следует использовать в качестве расчетного, по крайней мере до тех пор, пока не появятся дополнительные данные. При этом надо понимать, что дополнительные данные могут как подтвердить, так и опровергнуть гипотезу о наличии высокой корреляции между X и Y, но в любом случае решение будет более обоснованным.
Ситуации, подобные той, которую мы рассмотрели, не так уж редки в гидрологической практике. Можно назвать, по крайней мере, две причины, по которым эмпирические точки могут группироваться очень неравномерно.
1.МНК подразумевает, что ряды X и Y являются выборками из нормальных совокупностей, что обеспечивает примерно равное количество больших и малых значений, а выборочная асимметрия гидрологических величин (особенно при небольших n) может быть весьма значительной.
2.Гидрологи, как правило, работают в условиях так называемого пассивного эксперимента и не могут по своему усмотрению изменять независимую переменную. В результате всегда есть риск получить нерепрезентативные выборки, особенно если длина выборки n недостаточно велика.
20 Уравнения линейной регрессии при нескольких аргументах
При изучении многих гидрологических процессов требуется установить вид линейной зависимости между несколькими переменными. Для решения этой задачи привлекается аппарат множественной линейной корреляции. Сущность этого подхода состоит в распространении основных положений метода линейной корреляции двух переменных на случай зависимости интересующей нас переменной Y от произвольного числа аргументов. Основой для поиска такой зависимости служат материалы наблюдений за величиной Y и определяющими ее величинами (X1,X2,X3,...,XN). Опираясь на данные указанных наблюдений, требуется найти параметры уравнения множественной линейной регрессии, которое согласно МНК будет наилучшим образом описывать связь между
52
зависимой переменной и предикторами. Уравнение линейной регрессии в этом случае будет иметь вид:
y |
|
a1 x1 |
|
1 a2 x2 |
|
2 ... aN xN |
|
N , |
(20.1) |
y |
x |
x |
x |
где a1,a2 ,...,aN – коэффициенты регрессии; x1,x2 ,...,xN – средние значения
аргументов.
Для решения поставленной задачи нужно решить систему нормальных уравнений относительно коэффициентов a1,a2 ,...,aN . Обычно эта задача решается
на компьютере с использованием численных методов линейной алгебры. При небольшом числе предикторов можно получить аналитическое решение задачи методом Крамера. Коэффициенты регрессии определяются выражением
a j ( 1) j 1 |
|
y |
|
M0 |
, j |
, |
(20.2) |
||
|
x, j |
M0 |
,0 |
||||||
|
|
|
|
||||||
где M – миноры главного определителя матрицы парной корреляции. Рассмотрим частный случай, когда число переменных равно трем
(зависимая переменная – 0 и два аргумента – 1; 2). В этом случае:
|
|
|
|
|
|
|
1 |
|
|
|
r |
0,1 |
|
|
r |
0,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
; |
|
|
|
|
|
1 |
r1,2 |
|
|
|
|
|
|
|
|
)2 ; |
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
r |
|
|
1 |
|
|
r |
|
|
|
M |
|
|
|
1 ( |
r |
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
1,0 |
|
|
|
|
1,2 |
|
|
|
|
|
0,0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1,2 |
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
r2,1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
r2,0 |
|
r2,1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
M |
|
|
r |
1,0 |
|
r |
1,2 |
|
|
r |
|
|
r |
|
|
r |
|
; |
|
M |
|
|
|
|
|
r |
1,0 |
|
1 |
|
|
r |
|
|
r |
|
|
r |
. |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
0,1 |
|
|
|
|
|
|
|
|
|
1,0 |
2,0 |
1,2 |
|
|
|
|
0,2 |
|
|
|
|
|
|
|
|
|
|
|
|
1,0 |
2,1 |
2,0 |
|||||||||||||||||
|
|
r2,0 |
1 |
|
|
|
|
|
|
|
r2,0 |
r2,1 |
|
|
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
Подставляя последние выражения в формулу (20.2), получаем:
a |
|
|
y |
|
r |
1,0 |
r |
2,0 |
|
r |
1,2 |
; |
a |
|
|
|
y |
|
r |
1,0 |
r |
2,1 |
|
r |
2,0 |
. |
(20.3) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
1 |
|
|
x,1 |
|
|
1 ( |
r |
)2 |
|
|
2 |
|
|
x,2 |
|
|
1 ( |
r |
|
)2 |
|
|
||||||||||
|
|
|
|
|
1,2 |
|
|
|
|
|
|
|
|
|
|
1,2 |
|
|
|
|
|
|||||||||||
В настоящее время разработано большое количество компьютерных программ, обеспечивающих быстрый и достаточно точный расчет параметров множественной регрессии. Такая программа, в частности, входит в "пакет анализа" электронных таблиц Microsoft Excel. В лабораторном практикуме показано, как получить уравнение множественной регрессии в среде Mathcad.
Остановимся на оценке точности уравнения множественной линейной регрессии. Так же как и в случае парной линейной корреляции, теснота связи при множественной линейной корреляции оценивается коэффициентом корреляции, который называют общим, или сводным, коэффициентом корреляции:
R
1 / M0,0 .
Вотличие от парного коэффициента корреляции, который изменяться от –1 до +1, коэффициент множественной корреляции положителен и имеет пределы изменения от 0 до +1.
Стандартная ошибка коэффициента множественной корреляции:
|
|
1 |
|
2 |
|
|
|
R |
R |
, |
|||
n N 1 |
||||||
|
|
|
||||
(20.4)
может
всегда
(20.5)
где n – длина анализируемых рядов; N – число независимых переменных. Оценка стандартной ошибки уравнения множественной линейной регрессии:
53
|
Y( X ) |
y |
1 |
|
2 . |
(20.6) |
R |
Оценка стандартной ошибки j-того коэффициента регрессии:
|
|
|
|
|
( 1 |
|
2 ) M j, j |
|
|
||
a |
|
y |
|
R |
, |
(20.7) |
|||||
|
|
|
|
( n N 1) M0,0 |
|||||||
x, j |
|||||||||||
|
|
|
|
||||||||
где Mj,j – минор определителя M0,0.
Всоответствии с действующими нормативными документами уравнение множественной линейной регрессии должно удовлетворять требованиям, аналогичным (19.7). При этом третье условие считается выполненным, если оно выполняется для каждого коэффициента регрессии в отдельности. Что касается четвертого условия, то оно в данном случае является слишком слабым. Практика показывает, что при использовании одного аргумента длина рядов n должна быть не менее 10, при двух – минимальная длина рядов должна составлять 25-30, при четырех 50-60 и т.д. Только в этом случае можно получить более или менее надежные оценки параметров уравнения регрессии. Поскольку продолжительность гидрологических рядов относительно невелика в практике гидрологических расчетов редко используются регрессионные модели, содержащие более четырех аргументов.
Врасчетах по уравнению множественной регрессии необходимо использовать только те аргументы, которые дают объем информации, превышающий ошибку расчета. Неэффективные аргументы необходимо исключить. В противном случае привлечение дополнительных данных может привести не к уменьшению ошибки, а к ее увеличению.
Назовем несколько причин такой неэффективности:
1.Связь между зависимой переменной и аргументом отсутствует или выражена очень слабо.
2.Связь между зависимой переменной и аргументом существует, но в силу небольшой продолжительности рядов привлечение дополнительного аргумента приводит к тому, что коэффициенты регрессии становятся незначимыми.
3.Наличие дублирующих аргументов. Эта ситуация возникает, когда несколько и аргументов имеют высокий коэффициент взаимной корреляции. Определитель
M0,0 близок к нулю и система нормальных уравнений будет либо неопределенной, либо иметь неустойчивое решение.
Однако даже если неэффективные аргументы отсеяны, может оказаться, что из имеющегося набора аргументов можно получить несколько уравнений, удовлетворяющих набору требований (19.7). В этом случае необходимо выбрать "наилучшее" уравнение регрессии. Для решения этой задачи разработано несколько методов. Кратко остановимся двух методах их них.
Метод всех возможных регрессий. При использовании этого метода рассчитываются все возможные уравнения регрессии, после чего исключаются те, которые не удовлетворяют системе ограничений (19.7). Из оставшихся уравнений наилучшим будет то, которое имеет самый высокий сводный коэффициент корреляции.
Метод исключения. Метод исключения более экономичен, чем метод всех
54
регрессий, поскольку в нем делается попытка использовать только наилучшие регрессионные уравнения. Основные шаги этого метода сводятся к следующему: 1)рассчитывается регрессионное уравнение, включающее все переменные; 2)вычисляется значение частного F-критерия для каждого аргумента в предположении, как будто это последняя переменная, введенная в регрессионное уравнение; частный F-критерий связан с проверкой гипотезы Ho: aj = 0 против альтернативной гипотезы H1: aj ≠ 0;
3)наименьшее значение частного F-критерия, обозначаемое, скажем, как FL, сравнивается с заранее выбранным критическим значением, например FQ. Далее возможны два варианта: если FL < FQ, то аргумент XL исключается и производится пересчет уравнения регрессии с учетом оставшихся переменных; если FL > FQ, то уравнение регрессии оставляют без изменений и процедура завершается.
21 Основные характеристики случайных процессов
Как для СВ мы определяли математическое ожидание, дисперсию и др., так и для СП мы будем определять основные характеристики; только для СП эти характеристики будут не числами, а функциями времени. Математическим ожиданием СП X(t) называется неслучайная функция mx(t), которая при любом значении аргумента t равна МО соответствующего сечения СП:
mx( t ) M X ( t ) |
|
|
x f1( x( t ),t ) dx , |
(21.1) |
где f1(x,t) – одномерная плотность распределения СП X(t).
Дисперсией СП X(t) называется неслучайная функция Dx(t), которая при любом значении аргумента t равна дисперсии соответствующего сечения СП X(t).
Среднеквадратическим отклонением СП X(t) называется неслучайная функция ax(t), равная корню квадратному из дисперсии СП:
Dx( t ) D X ( t ) M X ( t ) mx( t ) 2 , x( t ) X ( t ) Dx( t ) . |
(21.2) |
МО и дисперсия являются важными, но не исчерпывающими характеристиками СП, так как определяются только одномерным законом распределения и не позволяют учесть взаимосвязь между отдельными сечениями. Для учета такой взаимосвязи используется корреляционная функция СП.
Корреляционной функцией СП X(t) называется неслучайная функция Kx(t,t'), которая при каждой паре значений аргументов t и t' равна ковариации соответствующих сечений X(t) и X(t'):
Kx( t,t ) M X ( t ) mx( t ) X ( t ) mx( t ) M X ( t ) X ( t ) mx( t ) mx( t ). (21.3)
Свойства корреляционной функции: при равенстве аргументов (t = t') корреляционная функция равна дисперсии СП; корреляционная функция симметрична относительно своих аргументов Kx(t,t')= Kx(t',t).
Нормированной корреляционной функцией (НКФ) СП X(t) называется функция, полученнаяделением корреляционной функции на произведение СКО:
55
rx( t,t ) |
|
Kx( t,t ) |
. |
(21.4) |
|
x( t ) x( t ) |
|||||
Свойства нормированной НКФ: |
|
|
|||
|
|
|
|
||
1)При равенстве аргументов (t = t') НКФ |
равна единице, rx( t,t ) 1 |
; |
|||
2)НКФ симметрична относительно своих аргументов, rx( t,t ) rx( t ,t ) ;
3)НКФ по модулю не превышает единицу, | rx( t,t )| 1.
К числу наиболее простых для изучения СП относятся стационарные СП, у которых все вероятностные характеристики не зависят от времени. В частности, у стационарного СП математическое ожидание и дисперсия из функций аргумента t превращаются в константы. Это означает, что все сечения стационарного СП имеют одинаковое МО и СКО.
СП называется стационарным в узком смысле, если его n-мерная плотность распределения не изменится при сдвиге всех его временных аргументов на одинаковую произвольную величину θ. Это означает, что плотность распределения стационарного СП не зависит от того, в какие моменты t1 и t2 рассматриваются сечения, а зависит от расстояния между этими сечениями t1 t2 .
СП называется стационарным в широком смысле, если его математическое ожидание постоянно, а корреляционная функция - есть функция сдвига между аргументами: Kx( t1,t2 ) kx( ) .
Если СП является стационарным в узком смысле, то он является стационарным и в широком смысле (обратное утверждение не всегда верно).
Нормированная корреляционная функция стационарного СП или автокорреляционная функция (АКФ):
r ( ) |
kx( ) |
|
|
kx( ) |
. |
|
(21.5) |
|
|
|
|||||
x |
Dx |
|
kx( 0 ) |
|
|
||
|
|
|
|
||||
Свойства АКФ стационарного СП: |
|
|
|
|
|
||
rx( ) rx( ) ; |
rx( 0 ) 1 ; |
| rx( )| 1. |
(21.6) |
||||
Стационарный СП может обладать или не обладать эргодическим свойством. Эргодическое свойство состоит в том, что по любой, достаточно продолжительной реализация СП, можно составить представление о СП в целом.
Поясним это на примере МО. МО стационарного СП – это постоянная величина, и, следовательно, его можно оценить по любому сечению, имея достаточно много реализаций. Для стационарного эргодического СП то же самое можно сделать по одной реализации, если она имеет достаточно большую продолжительность. Например, для стационарного эргодического СП среднее значение по любому сечению можно заменить на среднее значение по одной достаточно продолжительной реализации.
Достаточное условие эргодичности стационарного СП: при увеличении сдвига между сечениями АКФ затухает и в пределе при стремится к нулю.
Однако стационарный СП может быть и неэргодическим. Неэргодичность СП может быть вызвана, например тем, что в качестве слагаемого СП фигурирует случайная величина.
На практике, имея всего одну реализацию СП (например, тридцатилетний
56
ряд среднегодовых расходов воды), гидролог вынужден принимать гипотезу о стационарности и эргодичности. Так как только в этом случае оценки статистических характеристик, полученные по этой реализации, можно считать характеристиками всего СП. При этом формулы для точечных оценок МО и СКО СП ( x, Sx ) практически совпадают с формулами, используемыми в модели СВ.
АКФ стационарного и эргодичного СП оценивается по формуле
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
kx( ) |
|
|
|
|
|
1 |
|
x ) , |
(21.7) |
||||||
r |
( ) |
, |
|
|
|
( ) |
|
( x |
x ) ( x |
||||||||
k |
|
||||||||||||||||
|
|
|
|
||||||||||||||
x |
|
|
|
|
|
|
|
x |
|
|
|
i |
i |
|
|
||
|
Sx2 |
|
|
|
|
n |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
1 i 1 |
|
|
|
|||||
где τ – сдвиг между сечениями.
В практике гидрологических расчетов наиболее часто используется первая ордината АКФ (при τ = 1), которая называется коэффициентом автокорреляции:
|
1 |
|
|
n 1 |
|
rx( 1) |
|
|
( xi x ) ( xi 1 x ). |
(21.8) |
|
|
|
2 |
|||
|
|
||||
|
( n 2 ) Sx i 1 |
|
|||
Расчет коэффициента автокорреляции и АКФ приведен в лабораторном практикуме.
СП, протекающий в некоторой системе с дискретными состояниями, называется марковским (МСП), если для любого момента времени t0 вероятность каждого из состояний системы в будущем (при t > t0) зависит только от ее состояния в настоящем (при t > t0) и не зависит от того, когда и как она пришла в это состояние, т.е. не зависит от ее состояния в прошлом (при t < t0).
МСП исчерпывающим образом описывается двумерным законом распределения. МСП с дискретными состояниями и дискретным временем называется марковской цепью или простой марковской цепью.Если МСП процесс является стационарным и обладает эргодическим свойством, его характеристики можно оценить по одной достаточно продолжительной реализации. В настоящее время при описании гидрологических процессов широко используется гипотеза об их "марковости" совместно с гипотезой о стационарности и эргодичности. Цепь, в которой условные вероятности состояний в будущем зависят от ее состояния на нескольких предыдущих шагах, называют сложной цепью Маркова.
22 Моделирование искусственных гидрологических рядов
При решении некоторых гидрологических задач необходимо иметь ряды продолжительностью в несколько сотен и даже тысяч лет. Поскольку ряды такой продолжительности отсутствуют, были разработаны методы моделирования искусственных гидрологических рядов. При использовании этих методов вначале производится оценка параметров распределения имеющегося эмпирического ряда, а затем моделируется искусственный ряд с такой же статистической структурой, но гораздо большей продолжительности.
В основе моделирования искусственных гидрологических рядов лежит метод Монте-Карло – это метод решения математических задач при помощи моделирования СВ. Если вероятностная структура ряда соответствует модели СВ,
57
процесс моделирования включает следующие этапы.
На первом этапе требуется получить последовательность случайных чисел, равномерно распределенных на интервале [0;1]. Различают три способа получения случайных чисел: таблицы случайных чисел, генераторы случайных чисел и метод псевдослучайных чисел. При работе на компьютере удобнее пользоваться так называемыми псевдослучайными числами; нужно только помнить, что каждый запуск программы генерирует новую выборку.
На следующем этапе моделирования каждое значение СВ, равномерно распределенной на интервале [0;1], рассматривается как вероятность непревышения и по нему рассчитывается соответствующий квантиль заданного закона распределения. Переход от случайных чисел равномерно распределенных на отрезке [0;1] к случайным числам с заданным законом распределения выполняется аналитически с использованием обратной функции от интегрального закона распределения. Если аналитического решения обратной задачи не существует, то задача решается с использованием численных методов.
Применяя изложенную схему, можно написать компьютерную программу на любом языке программирования. Однако довольно часто достаточно воспользоваться уже готовыми программами. Например, "Пакет анализа", который входит в состав Microsoft Excel, позволяет моделировать ряды для 7 законов распределения. Еще большими возможностями обладают специальные статистические пакеты.
Если вероятностная структура ряда соответствует модели СП, то алгоритм несколько сложнее. Вначале должна быть принята одна из моделей СП.
Для описания стационарных СП в настоящее время довольно часто используются модели авторегрессии и их комбинация. В модели авторегрессии p- го порядка АР(р) текущие значения СП выражается как конечная линейная комбинация предыдущих p его значений и случайной составляющей:
Xt 1Xt 1 2 Xt 2 ... p Xt 3 t , |
|
(22.1) |
где Xt – центрированный СП, Xt Xt mx ; Θi – коэффициенты модели; |
t |
– СВ с |
нормальным законом распределения, нулевым МО, равным |
СКО. |
|
Модель авторегресси первого порядка АР(1) или модель марковского |
||
процесса выражается формулой |
t . |
(22.2) |
Xt 1Xt 1 |
||
Для процесса АР(1) коэффициент и ординаты автокорреляционной функции |
||
связаны соотношением |
j 0 . |
(22.3) |
rj 1rj 1, |
||
Учитывая, что r0= 1, получаем: |
|
|
rj 1j . |
|
(22.4) |
Таким образом, для АР(1) АКФ полностью определяется своей первой ординатой. При этом Θ1 = r1.
При моделировании гидрологических рядов по модели авторегрессии необходимо также знать среднеквадратическое отклонение шума. В общем случае
58
СКО определяется формулой
x |
1 1r1 2r2 ... jrj . |
(22.5) |
При описании вероятностной структуры гидрометеорологических рядов с шагом дискретности менее года (месяц, декада, сутки) необходимо учитывать ритмику колебаний, связанную с годовой цикличностью. А при шаге дискретности менее суток следует учитывать суточный ход гидрометеорологических элементов. В качестве математической модели в этом случае можно использовать модель периодически нестационарного случайного процесса (ПНСП).
СП называют периодически нестационарным, если его вероятностные характеристики инвариантны относительно сдвигов на положительное число Т. Например, при шаге дискретности один месяц инвариантность должна сохраняться при сдвигах 12, 24, 36 и т.д.
Периодически коррелированным случайным процессом (ПКСП) называют ПНСП, если инвариантны математическое ожидание и корреляционная функция:
m( t T ) m( t ); K( t1 T ,t2 T ) K( t1,t2 ) . |
(22.6) |
Вводя обозначение t2 t1 , свойство (22.6) для ПКСП можно записать в виде
K( t T , ) K( t, ) . |
(22.7) |
Если рассматривать гидрологический рядс как ПКСП с шагом дискретности один месяц, то математическое ожидание m(t) представляет собой регулярную (периодическую) составляющую СП процесса X(t) и позволяет найти средний повторяющийся образ сезонного хода. Дисперсия D(t) характеризует разброс относительно регулярной составляющей. Функция характеризует
взаимосвязь значений гидрологических элементов в различные месяцы года и в аналогичные месяцы разных лет.
Для генерации ряда по модели АР(1) можно воспользоваться рекуррентной формулой:
xi 1 x r ( xi x ) i . |
(22.8) |
Для моделирования необходимо иметь следующие параметры: среднее значение x , СКО σх, отношение Cs/Cv, коэффициент автокорреляции r = rx(1) и начальное значение моделируемой гидрологической характеристики х1. В качестве начального значения можно в большинстве случаев принять среднее значение ( x1 x ). Кроме того, требуется указать тип распределения, например
Крицкого - Менкеля или Пирсона III типа.
При моделировании по формуле (22.8) на каждом шаге генерируется значение случайной величины i , по ранее изложенной схеме. Тип распределения
для шумовой составляющей i , и отношение Cs/Cv принимаются такими же, как
для исходного ряда, среднее значение может быть принято равным нулю, а СКО в соответствии с формулой (22.5) определяется выражением
x |
1 r2 . |
(22.9) |
59
23 Понятие о динамико-стохастических моделях многолетних колебаний речного стока
Методы обработки гидрологической информации, рассмотренные в предыдущих вопросах, основаны на чисто стохастических моделях (ЧСМ). Эти методы общеприняты и включены в нормативные документы (см. раздел III).
Динамико-стохастические модели многолетних гидрологических процессов (ДСМ) являются сравнительно новыми, включают в себя динамическую и стохастическую составляющие. Первая составляющая представляет собой математическую детерминистическую модель физического механизма формирования гидрологического процесса, вторая - описывает входные стохастические процессы. Моделируемые процессы рассматриваются как выходные по отношению к гидрологической системе. Выходные процессы оказываются также стохастическими, так как их свойства обусловлены и механизмом формирования, и стохастическими свойствами входных процессов.
Рассмотрим, в чем заключается ограниченность ЧСМ. Наиболее распространенные к настоящему времени ЧСМ многолетнего стока неозерных рек в виде той или иной модификации простой цепи Маркова построены на основе изучения статистических характеристик натурных данных - автокорреляционной функции, коэффициентов вариации и асимметрии. При этом физика процесса колебаний речного стока учитывается опосредствовано, через сохранение моделью стохастических свойств изучаемого процесса. Существенно то, что для построения ЧСМ необходимы длительные ряды наблюдений над речным стоком, причем для периодов стационарного климата и отсутствия техногенных изменений водного баланса речного водосбора (требования стационарности и однородности ряда наблюдений).
При проведении расчетов на перспективу нескольких десятилетий (40-100 лет - нормативное время функционирования хозяйственного объекта, например, при расчете параметров водохранилищ или других водноресурсных систем), использование ЧСМ автоматически означает принятие предположения о сохранении стационарности условий формирования речного стока в будущем на период функционирования водноресурсной системы. Однако, современная информация (иногда противоречивая) о таянии ледников, повышении уровня Мирового океана, отступлении границ вечной мерзлоты и т.д. дает основания для предположения о происходящих климатических изменениях. Причины этих изменений - техногенные, связанные с парниковым эффектом или естественные - в данном случае не так важны. Учет возможного влияния климатических изменений на речной сток, запасы воды на водосборе и колебания уровней внутренних водоемов необходим для ответа на вопросы: как изменятся характеристики этих гидрологических процессов в новых условиях.
Принимая гипотезу о потеплении и соответствующем изменении режима речного стока, приходится признать, что ЧСМ речного стока, для создания которых необходимы длительные ряды наблюдений, потребуют определенной модификации. Например, пусть в результате климатического моделирования
60
