Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1nikitin_a_ya_sosunova_i_a_analiz_i_prognoz_v_ekologicheskikh

.pdf
Скачиваний:
13
Добавлен:
19.11.2019
Размер:
821.47 Кб
Скачать

48

После решения поставленной задачи получим на имеющемся рисунке временного ряда уравнение линейного тренда, характеризующего изменение численности городского населения России за 1990 – 1999 гг.: y = - 0,2709x +109,98.

Кроме того, под уравнением будет приведен коэффициент детерминации (R2 = 0,8919), который показывает, что применение данного уравнения позволяет объяснить 89 % наблюдавшихся изменений численности населения.

Следует отметить, что выполнение всех перечисленных операций (исключая ввод информации в программу) и получение готового аналитического уравнения заняло менее 15 секунд.

Excel обеспечивает построение не только линейных трендов. Воспользуемся этим и применим к нашим данным и другие аналитические модели, используя для этого приведенный выше алгоритм анализа, начиная с пункта 8. В результате выясним, что незначительно лучше линейного и гораздо лучше остальных типов трендов к исходным данным подходит экспоненциальный (R2 = 0,8932). Однако, в отличие от мнения авторов использованного примера /18/, мы полагаем, что малая прибавка в точности аппроксимации исходных данных, сопровождающая переход от линейной к экспоненциальной модели, одновременно ведущая к потере простоты расчетов и интерпретации результатов, позволяет рекомендовать в данном случае все же применение линейного уравнения регрессии. На наш взгляд, в подобных задачах можно «пожертвовать» даже до 5-7 % точности аппроксимации в пользу простоты расчетов и интерпретации линейного уравнения.

Проанализируем адекватность выбранной линейной модели. Для этого рассмотрим «поведение» ряда остатков от тренда. В гр. 3 табл.5.1 внесены ожидаемые значения ВР, полученные с помощью уравнения линейной регрессии. Затем рассчитана разность между исходными и вычисленными по тренду значениями (гр. 4), а также среднее, характеризующее ряд «остатков». Близкое к нулю значение средней величины «остатков», подобно коэффициенту детерминации, указывает на хорошее соответствие расчетных значений исходным данным.

49

Таблица 5.1 Численность городского населения России (в млн. человек) на начало года (по /18/) и

 

расчета параметров необходимых для прогноза данного ВР

 

 

 

 

 

 

 

 

 

 

Годы

 

Числен-

Остатки

 

 

Номер го-

t 2

Υ * t

 

Исходная

ность по

( Υ -

η

 

)2

да (t)

 

t

 

t

 

 

 

числен-

тренду

t

 

 

 

 

 

 

после

уда-

 

 

 

 

ность ( Υt )

(ηt )

 

 

 

 

ления

 

 

 

 

 

 

 

 

 

тренда

 

 

 

 

 

 

1990

109,2

109,7

0,259081

1

1

109,2

1991

109,8

109,4

0,131044

2

4

219,6

1992

109,7

109,2

0,284089

3

9

329,1

1993

108,7

108,9

0,038416

4

16

434,8

1994

108,5

108,6

0,015876

5

25

542,5

1995

108,3

108,4

0,003025

6

36

649,8

1996

108,1

108,1

0,000256

7

49

756,7

1997

107,8

107,8

0,000169

8

64

862,4

1998

107,5

107,5

0,001764

9

81

967,5

1999

107,3

107,3

0,000841

10

100

1073

Среднее

108,5

108,5

-

 

 

 

5,5

-

-

(σ )

0,87

0,82

0,111945

 

-

-

-

Сумма

1084,9

-

0,734561

55

385

5944,6

Проанализируем ряд остатков детальнее. Первый коэффициент автокорреляции этого ряда не значим (r1=-0,113). Это позволяет предполагать взаимную независимость (случайность) уровней остатков. Для проверки предположения рассчитаем более строгий критерий Дарбина –Уотсона (см. разд. 2.3).

DW равен: 2*(1- r1)= 2,23. Значение критерия больше 2. Следовательно, для его сравнения с табличными значениями (Приложение 5) необходимо найти разность: 4- DW = 4,00-2,23 = 1,77 . Уравнение содержит только одну независимую переменную (время), значит k = 1. В приведенном варианте таблицы критических границ критерия они не даны для случаев n < 15. Однако анализ Приложения 5 указывает на возрастание показателей верхних и нижних границ критерия с увеличением n. Полученное значение критерия (1,77) выше, чем верхняя граница для n =15, следовательно, она тем более превосходит не приведенные значения параметра DW для n =10. Это, в свою очередь, позволяет принять нуль-гипотезу, утверждающую независимость остатков друг от друга (раздел 2.3).

50

Остается проверить нормальность распределения остатков. Сделаем это по формуле ( 11):

С=Р/ σ = [(0,533-(-0,509)]/ 0,2856 = 3,65.

Это значение С позволяет считать, что размах изменчивости ряда остатков со средним уровнем надежности вывода укладывается в пределы, характерные для нормально распределенных данных (Приложение 3), а значит можно допустить, что распределение близко к нормальному. Таким образом, доказано, что уравнение линейной регрессии достаточно хорошо аппроксимирует исходные наблюдения: прямая объясняет 89 % колебаний уровней (оценка по R2), средняя остатков близка к нулю, их уровни независимы по критерию Дарбина-Уотсона и имеют близкое к нормальному распределение.

Следовательно, модель линейного тренда адекватно описывает исходный ВР. Согласно полученному уравнению численность городского населения России

ежегодно в течение 1990-1999 гг. сокращалась в среднем на 271 тысячу человек. Можно ожидать, что подобная тенденция сохранится в дальнейшем, если не произойдет каких-либо резких изменений в жизни страны. Однако, очевидно, что для экстраполяции на отдаленное будущее это уравнение не годится.

Поставим задачу: предсказать ожидаемое число городских жителей России в 2000 и 2001 гг. То есть, через 11 и 12 уровней от начала рассматриваемого ряда.

Для проведения прогноза в уравнение парной регрессии внесем значение фактора времени: t = 11 и t = 12.

Тогда: y2000 = 109,98- 0,2709x = 109,98-0,2709*11= 107,00. y2001 = 109,98- 0,2709x = 109,98-0,2709*12 = 106,73

Оценим ошибку прогноза и рассчитаем его доверительный интервал (21, 22). При составлении прогноза на 2000 г. l =1. В случае парной линии регрессии m

также равно 1. Тогда:

Sp=Syθ =

( yt ηt )2

*

1 +1/ n +

3(n + 2l 1)2

= 0,303018 * 1,21106 =0,367

 

n m 1

 

 

n(n2 1)

 

Прежде, чем рассчитать доверительный интервал, необходимо решить, какой уровень ошибки прогноза мы бы считали приемлемым. Обычно в подобных исследованиях принимается допустимость 10 % ошибки (бывает и до 30 %). Исходя из принятого уровня ошибки (Р<0,1, то есть 10 %) и числа свобод в нашем ряду (df = n-2 ) равного 8, находим по Приложению 2 величину критерия Стьдента.

51

Значение t составляет 1,86. Следовательно, доверительный интервал равен:

Υp ±tα S p = 1,86*0,367= 0,68.

То есть, число городских жителей в России в 2000 г. в соответствии с прогнозом должно находиться с 90 % вероятностью между 106,32 и 107,68 (107,00±0,68).

При прогнозе на 2001 г. l = 2. Для парной линии регрессии m = 1. Тогда:

Sp=Syθ =

( yt ηt )2

*

1 +1/ n +

3(n + 2l 1)2

= 0,3030*1,2337 = 0,374

 

n m 1

 

 

n(n2 1)

 

Примем вероятность ошибки 5 % (Р=0,05). Для df = n-2 = 8 табличное значение критерия Стьюдента равно: t = 2,31 (Приложение 2). Следовательно, доверительный интервал: Υp ±tα S p = 2,31*0,374= 0,864.

Численность городского населения России в 2001 г. должна была бы составлять с вероятностью 95 % от 105,87 до 107,59 тысяч жителей (106,73±0,86).

Таким образом, при экстраполяции с двухгодичным упреждением ошибка прогноза (Sp) по сравнению с прогнозом на год вперед несколько возросла. Однако в данном случае это мало повлияло на величину доверительного интервала, даже несмотря на то, что для уровней ВР в 2001 г. мы одновременно увеличили и требования к надежности прогноза (снизили величину допустимой ошибки с 0,1 до 0,05).

5.1.2. Стационарный ряд с циклическими составляющими Циклические колебания стационарного ряда могут быть регулярными и нерегу-

лярными. Кроме того, среди регулярных циклов выделяют сезонные, часто возникающие по природно-климатическим условиям. Под ними понимают периодические колебания наблюдений в исследуемом ВР, повторяющиеся в некоторое определенное время каждого года. Однако под этим термином могут рассматриваться и осцилляции с любой иной, не годичной, периодичностью.

Рассмотрим особенности применения метода гармонического анализа для прогнозирования ВР с регулярными циклами (Фурье - аппроксимация).

С помощью ряда Фурье динамика явления представляется функцией времени, в которой слагаемые расположены по убыванию их периодов:

m

 

Υt = a0 + (ak cos kt +bk sin kt)

(24)

t =0

52

Величина k определяет гармонику ряда Фурье и берется как целое число, начиная с 1. Часто для аппроксимации ВР достаточно рассмотрение 4 гармоник. Параметры уравнения рассчитываются методом наименьших квадратов:

a0

=

1

 

Υ

 

 

 

 

 

 

 

 

(25)

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

- то есть простая средняя арифметическая ряда;

a1

=

2

 

Υcost

и

b1

=

 

2

 

Υsin t

n

n

 

 

 

 

 

 

 

 

 

a2

=

2

 

Υcos 2t

и

b2

=

 

2

Υsin 2t

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

a3

=

2

 

Υcos3t

и

b3

=

 

2

Υsin 3t и т.д.,

 

n

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или в общем виде:

 

ak

=

2

Υcos kt

(26);

 

n

 

 

 

 

 

bk

=

2

 

Υsin kt

(27)

n

 

 

 

 

Первому наблюдению ( t ) часто присваивается значение 1 или 0. К каждому следующему прибавляется величина 2π / n , где n – длина ряда.

Ряд Фурье с одной гармоникой записывается как:

Υt = a0 + a1 cos t +b1 sin t

Ряд Фурье с двумя гармониками:

Υt = a0 + a1 cos t +b1 sin t + a2 cos 2t +b2 sin 2t

Ряд Фурье с тремя гармониками:

Υt = a0 + a1 cos t +b1 sin t + a2 cos 2t +b2 sin 2t + a3 cos3t + b3 sin 3t

и так далее.

Для прогноза уровней ряда в уравнение с выбранным числом гармоник подставляется значение времени (t) необходимого порядка.

Следует отметить, что для прогнозирования этим методом не рекомендуется брать исходный ряд слишком большой длины. Достаточно рассмотреть динамику наблюдений за три периода, ближайших к экстраполируемым значениям, причем начало и конец кривой, по которой строится уравнение ее аппроксимации, должны приходиться на одну и ту же фазу (начало, середину или конец цикла). В целом гармонический анализ хорошо подходит для описания низкочастотных периодических колеба-

53

ний. Более универсальным его вариантом является использование метода ортогональных полиномов /4/, которое не рассматривается нами.

Пример 10.

Проведем гармонический анализ динамики численности рачков экспериментальной популяции Daphnia pulex /13/. Исходные данные о численности культуры и все необходимые вспомогательные расчеты приведены в табл.5.2.

Отсчет t начнем с 1, прибавляя каждый раз к его значению величину 2π /n, то есть в нашем случае 0,45. Табл.5.2 содержит параметры, описывающие осцилляции численности культуры дафний, необходимые для расчета уравнения с 3 гармониками (24). Из нее очевидно, как вычислять и гармоники более высокого порядка.

Таблица 5.2

Параметры ряда Фурье, необходимые для составления уравнений, описывающих динамику численности популяции дафний, с помощью 3 гармоник

У

t

y*cost

y*sint

y*cos2t

y*sin2t

y*cos3t

y*sin3

п/п

 

 

 

 

 

 

 

t

1

26

1

14,05

0,84

-10,82

23,64

-25,74

3,67

2

89

1,45

10,83

1,44

-86,36

21,50

-31,85

-83,11

3

98

1,90

-31,46

1,80

-77,80

-59,59

81,41

-54,56

4

128

2,35

-89,62

1,68

-2,51

-127,98

93,13

87,81

5

50

2,80

-47,03

0,95

38,47

-31,93

-25,35

43,10

6

30

3,24

-29,84

-0,33

29,37

6,10

-28,60

-9,07

7

26

3,69

-22,15

-1,93

11,74

23,20

2,15

-25,91

8

89

4,14

-48,09

-3,49

-37,04

80,93

88,11

-12,56

9

77

4,59

-9,37

-4,56

-74,72

18,60

27,56

71,90

10

81

5,04

26,00

-4,77

-64,31

-49,25

-67,29

45,09

11

108

5,49

75,62

-3,92

-2,12

-107,98

-78,58

-74,09

12

67

5,94

63,02

-2,02

51,55

-42,79

33,96

-57,75

13

49

6,39

48,74

0,65

47,98

9,97

46,71

14,82

14

35

6,83

29,82

3,58

15,80

31,23

-2,89

34,88

Сум-

953

54,87

-9,48

-10,08

-160,76

-204,35

112,73

-15,78

ма

 

 

 

 

 

 

 

 

Чтобы найти коэффициенты при синусах и косинусах (26), (27), а также свободный член уравнения (25), в табл.5.2 приведены значения сумм соответствующих граф. Исходя из них, имеем:

a0 = 1n Υ= 953/14= 68,1;

a1 = n2 Υcost = 2/14*(-9,48)= -1,35; b1 = n2 Υsin t = 2/14 * (-10,08)= -1,44;

 

 

 

 

54

 

 

 

a2

=

2

Υcos 2t = 2/14 * (-160,76)= -22,97;

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

b2

=

2

Υsin 2t = 2/14 * (-204,35)= -29,19;

 

 

 

n

 

 

 

 

 

 

 

 

 

a3

=

2

Υcos3t = 2/14 *112,73=16,10 и b3

=

2

Υsin 3t = 2/14 * (-15,78)= - 2,25

 

n

n

 

 

 

 

 

 

Кроме того, были рассчитаны параметры четвертой гармоники, не вошедшие по причине недостатка места в табл. 5.2:

a4 = 2/14 * (-59,85) = -8,55 и b4 = 2/14 * (-17,19) = -2,46

Окончательные результаты гармонического анализа ряда, включающие 4 гармоники, приведены в табл. 5.3.

Таблица 5.3

Расчет четырех периодических составляющих и уравнений, характеризующих динамику численности популяции дафний

Число

Гармоническая функ-

Уравнения динамики численности популяции рач-

гармо-

ция для данного но-

ков, включающие от одной до четырех гармоник

ник

мера гармоники

 

 

 

 

1

-1,35cost -1,44sint

Yt = 68,1-1,35cost-1,44sint

 

 

 

2

-22,97cos2t - 29,19sin2t

Yt = 68,1-1,35cost-1,44sint-22,97cos2t-29,19sin2t

 

 

 

3

16,10cos3t - 2,25sin3t

Yt=68,1–1,35cost-1,44sint-22,97cos2t-

 

 

-29,19sin2t+16,10cos3t - 2,25sin3t

 

 

 

4

-8,55cos4t - 2,46sin4t

Yt=68,1-1,35cost-1,44sint-22,97cos2t-

 

 

-29,19sin2t+16,10cos3t-2,25sin3t-8,55cos4t-2,46sin4t

 

 

 

Необходимо определить, какое из уравнений в табл. 5.3 лучше других аппроксимирует исходный ряд. Для решения вопроса воспользуемся данными табл.5.4, где приведены значения исходного ВР и уровни ряда, рассчитанные с использованием разного числа гармоник.

Из табл. 5.4 следует, что уже уравнение с двумя гармониками неплохо описывает исходный ВР. Однако наиболее адекватно уравнение с 4 гармониками. Оно объясняет 86 % колебаний уровней исследуемого ВР. Вместе с тем, отличие этого уравнения от формулы с 3 периодическими составляющими - крайне незначительно. Поэтому для прогноза используем ряд Фурье с 3 гармониками.

55

Таблица 5.4

Сравнение исходного ВР с расчетными уровнями, полученными с использованием различного числа гармоник

№ п/п

 

Исходные

Расчетные значения уровней ряда, полученные на

 

 

уровни ря-

основе уравнений содержащих перечисленное число

 

 

да

 

гармоник:

 

 

 

 

 

1

2

 

3

4

 

 

 

 

 

 

 

 

1

 

26

66

49

 

33

40

2

 

89

67

82

 

78

72

3

 

98

67

103

 

118

113

4

 

128

68

98

 

108

116

5

 

50

69

70

 

60

61

6

 

30

70

41

 

27

18

7

 

26

70

34

 

37

40

8

 

89

70

53

 

69

77

9

 

77

70

85

 

89

82

10

 

81

69

105

 

90

86

11

 

108

68

98

 

88

96

12

 

67

67

68

 

78

79

13

 

49

67

38

 

53

44

14

 

35

66

30

 

26

29

Корреляция

исходного

0,04

0,83

 

0,91

0,93

ряда с расчетными (r)

 

 

 

 

 

Коэффициент детерминации

0,00

0,69

 

0,83

0,86

 

(R 2)

 

 

 

 

 

Рассчитаем ожидаемую численность рачков для учетов с 15 по 18 и сравним ее с фактически наблюдавшейся. Для этого в соответствующее уравнение табл. 5.3 подставим искомые значения параметра времени: 15, 16, 17 и 18, преобразованные в t как это сделано в табл. 5.2.

Результаты проведенных расчетов приведены в табл.5.5.

Несмотря на полученный достаточно высокий коэффициент детерминации между фактическими и расчетными значениями, точность прогноза по отдельным уровням ряда не очень высокая. Связано это с тем, что гармонический анализ лучше подходит для гладких низкочастотных волн. В нашем примере это условие выполнено не полностью. Вероятно, для лучшей подгонки модели необходимо либо провести сглаживание исходного ряда с помощью взвешенной скользящей средней (см. разд.1 и /19, 22/), либо использовать для прогноза ортогональные полиномы, менее чувствительные к отдельным нерегулярностям ряда /4/.

56

Таблица 5.5

Расчет ожидаемой численности популяции дафний для 15-18 учетов, полученный по ряду Фурье с тремя гармониками:

Yt = 68,1 – 1,35cost - 1,44sint - 22,97cos2t - 29,19sin2t + 16,10cos3t – 2,25sin3t

№ п/п

Уt фактиче-

Период времени

Уt расчетные значения

 

ские /13/

прогноза

(точечные прогнозы)

 

 

(t ~1+ n*0,45)

 

15

68

7,28

32,2

16

110

7,73

77,9

17

139

8,18

118,3

18

115

8,63

108,6

Корреляция уровней исходного ряда и рас-

0,96

четного (r)

 

 

Коэффициент детерминации для оценки точ-

92 %

ности единичных прогнозов (r2)

 

5.1.3. Комбинированный тренд-циклический ряд Очень часто в биометрии встречаются нестационарные ряды, которые при этом

не могут быть аппроксимированы только линейным трендом или гармониками Фурье разложения, так как являются комбинированными.

Для прогноза подобного ВР можно применить следующий алгоритм. 1.Находим аналитическое выражение тренда. 2. Удаляем линейный тренд (или иной), в соответствии с полученным аналитическим уравнением. 3. К ряду остатков применяем гармонический анализ. 4.Строим прогноз уровней ВР по тренду. 5.Строим прогноз уровней остатков по гармоническому уравнению. 6. Строим суммарный прогноз с учетом тренда и экстраполированных значений ряда Фурье для остаточных величин.

Пример11.

Составим прогноз заболеваемости населения Иркутска клещевым энцефалитом, используя данные работы /15/. На рис.2 а (см. с.22) представлен исходный ВР, характеризующий уровень заболеваемости горожан в рекреационной зоне в расчете на 100 тысяч населения. Очевидно, что ВР содержит тренд на увеличение заболеваемости населения, на который накладывается некоторая циклическая компонента. Табл. 5.6 содержит исходные данные о заболеваемости иркутян, а также результаты значений ВР, полученных с использованием уравнения линейного тренда и гармонического анализа ряда остатков.

57

Таблица 5.6 Заболеваемость населения Иркутска клещевым энцефалитом в рекреационной

зоне города в течение 1983-2001 гг.

Год

Заболевае-

Уровни

ВР остат-

Значения

Расчетные

п.п.

 

мость на-

ВР, рас-

ков от ли-

параметра

значения

 

 

селения на

считан-

нейного

времени в

остатков по

 

 

100 тысяч

ные по ли-

тренда

уравнении

уравнению,

 

 

горожан

нейному

 

Фурье (t)

содержа-

 

 

(У)

тренду

 

 

щему 5

 

 

 

 

 

 

гармоник

1

1983

3,3

1,8

1,55

1

-4

2

1984

2,9

3,1

-0,19

1,33

1

3

1985

3,5

4,4

-0,92

1,66

-1

4

1986

5,0

5,8

-0,76

1,99

-4

5

1987

5,8

7,1

-1,29

2,32

-2

6

1988

8,5

8,4

0,08

2,65

0

7

1989

10,6

9,8

0,84

2,98

0

8

1990

15,4

11,1

4,31

3,31

3

9

1991

13,7

12,4

1,27

3,65

4

10

1992

10,1

13,8

-3,63

3,98

-3

11

1993

7,2

15,1

-7,88

4,31

-8

12

1994

15,1

16,4

-1,31

4,64

0

13

1995

23,3

17,8

5,50

4,97

9

14

1996

26,6

19,1

7,49

5,30

4

15

1997

11,0

20,4

-9,44

5,63

-5

16

1998

20,8

21,8

-0,94

5,96

0

17

1999

32,9

23,1

9,76

6,29

8

18

2000

28,1

24,4

3,66

6,62

3

19

2001

17,7

25,8

-8,12

6,95

-6

Линейный тренд заболеваемости населения в рекреационной зоне Иркутска клещевым энцефалитом аппроксимирован с помощью уравнения:

У = 1,33 t + 0,418, где t – время.

Данный тренд позволяет объяснить 69 % наблюдающейся изменчивости ВР (R2=0,69). Для аппроксимации ряда остатков, полученных после удаления линейного тренда, использовано уравнение с пятью гармониками. Оно описывает 75 % (R2=0,75) из-

менчивости этого ряда, в то время как при использовании ряда Фурье с четырьмя гармониками удается объяснить только 42 % изменений.