
- •В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
- •Введение
- •Типовые задачи геоэкологических исследований
- •Проверка данных на однородность Параметры геосистем как случайные величины
- •Законы распределения случайных величин
- •Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
- •Построение гистограммы частотного распределения
- •Критерии согласия
- •Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)
- •Критерий хи-квадрат (Пирсона)
- •Критерий Колмогорова
- •Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова
- •Построение совмещенной гистограммы распределений двух выборок
- •Параметрические критерии
- •Критерий Стьюдента
- •Проверка однородности двух групп данных по критерию Стьюдента
- •Критерий Фишера
- •Проверка однородности двух групп данных по критерию Фишера
- •Непараметрические критерии
- •Рангово-сумарный критерий Уилкоксона-Манна-Уитни
- •Проверка однородности двух групп данных по критерию Уилкоксона-Манна-Уитни
- •Ранговый критерий рассеяния Зигеля-Тьюки
- •Проверка однородности двух групп данных по критерию Зигеля-Тьюки
- •Интерполяция и фильтрация данных
- •Линейная интерполяция
- •Сплайновые интерполяции
- •Фильтрация и сглаживание
- •Запись данных в файл
- •Зависимость между параметрами
- •Расчет коэффициента парной корреляции
- •Регрессия
- •Заключение
- •Рекомендованная литература
- •Содержание
- •Автоматизированная обработка экологической информации
- •199061, С.-Петербург, Средний пр., 41.
Типовые задачи геоэкологических исследований
Рассмотрим некоторые типовые задачи, возникающие при экологических исследованиях. Изучая различные объекты, или рассматривая один и тот же объект в различные моменты времени, исследователь должен выяснить, имеются ли кардинальные различия между объектами или эти различия несущественны и объекты относятся к одному классу. При сравнении состояния одной геосистемы в различные моменты времени следует определить, имеем ли дело с той же самой геосистемой или же произошли качественные изменения и на месте старой геосистемы возникла новая, совершенно другая геосистема. Другими словами, имеем ли мы дело с обратимыми флуктуациями, или происходит необратимая сукцессия со сменой доминирующих видов в биоценозе и изменением всего биогеохимического цикла. С точки зрения математики, геосистему можно представить в виде точки во многомерном пространстве параметров геосистемы. Поскольку эти параметры подвержены колебаниям, то положение геосистемы не остается неизменным, она флуктуирует в некоторой характерной для нее области многомерного пространства. Необходимо выяснить, каковы границы этой области, при выходе геосистемы за пределы которой уже придется говорить о перерождении геосистемы, её превращении в совершенно другой природный или природно-антропогенный объект.
В данном случае необходимо использовать методы теории вероятностей и математической статистики. Теория вероятностей – это один из разделов чистой математики. Строится эта теория дедуктивно, исходя из некоторых аксиом и определений. Наиболее строгий подход связан с использованием теории множеств, теории меры и интеграла Лебега. В «элементарной теории вероятностей» рассматриваются случайные события с конечным числом исходов. Затем теория распространяется на случай, когда число исходов бесконечно. Применение теорем к решению различных задач теории вероятностей связано с использованием сочетаний, перестановок, операций суммирования и интегрирования. Некоторые применяющиеся в теории вероятностей методы используются в других разделах математики.
В противоположность теории вероятностей статистика – это раздел прикладной математики. Для нее характерно главным образом индуктивное построение, поскольку в этом случае мы идем в обратном направлении – от наблюдения события к гипотезе. При этом аргументация основывается на выводах теории вероятностей, знание которой совершенно необходимо.
Обыкновенно утверждается, что характеризующие геосистемы числовые величины являются непрерывными. Однако исследователь имеет дело с дискретными величинами, поскольку любой параметр определяется с определенной конечной степенью точности и каждое измерение занимает определенный минимальный промежуток времени, кроме того, измеряемая величина относится к определенному минимальному объему пространства. В конце концов, даже объем Мирового океана соответствует конечному количеству проб, добываемых при помощи батометра. Согласно одному из подходов при анализе натурных данных измеренные значения параметров рассматриваются в качестве случайных величин, а их совокупность – выборки из генеральной совокупности всех возможных значений данного параметра. Разработаны критерии согласия, на основании которых определяется, насколько частотное распределение данной выборки соответствует какому-либо теоретическому закону распределения. Существует ряд критериев проверки данных на однородность, позволяющих определить, относятся ли две выборки (данные по двум различным объектам, или по одному и тому же объекту в разные моменты времени) к одной генеральной совокупности или нет. Если выборки относятся к одной генеральной совокупности, то различие между выборками в пределах случайных колебаний величин и нет принципиальных различий между объектами или состоянием одного и того же объекта в разные периоды времени. При этом параметрические критерии требуют, чтобы распределение выборки подчинялось какому-либо конкретному закону распределения. Так, критерии Стьюдента и Фишера требуют, чтобы закон распределения выборок был достаточно близок к нормальному закону. Непараметрические критерии не накладывают условия известности закона распределения. В качестве примеров непараметрических критериев можно привести критерии Уилкоксона-Манна-Уитни и Зигеля-Тьюки.
Большинство процессов в геосистемах имеют периодичность. Очевидны суточная и годовая периодичность. Временная динамика многих параметров в природных геосистемах определяется суперпозицией целого комплекса периодических функций с различными частотами и амплитудами. Согласно теореме отсчетов или теореме Колмогорова любая функция может быть восстановлена, если измерения параметра проводились через промежутки времени, равные частному от деления самого короткого из периодов на удвоенное число Пи. Временная изменчивость природных характеристик может рассматриваться как результат совмещения периодических процессов, имеющих определенные фиксированные периоды (периоды обращения Земли вокруг Солнца, Земли вокруг своей оси, Луны вокруг Земли), циклических процессов, периоды и амплитуды которых в отличие от периодических процессов имеют существенные колебания (например, одиннадцатилетний солнечный цикл, продолжительность которого лишь в среднем равна одиннадцати годам), тренда, описываемого линейным или каким-либо иным законом и непериодических возмущений, называемых «шумом». Если мы сможем выделить эти временные составляющие процесса, появляется возможность предсказания временной динамики параметра в будущем лишь по предыдущей временной изменчивости самой этой величины. Многие программные пакеты посвящены или имеют разделы анализа временных рядов. Методы временного анализа включают в себя выявление скрытых периодичностей и их амплитуд. Очевидно, что при исследованиях геосистем и процессов в окружающей среде очень важно не ошибиться и не спутать изменчивость, вызванную периодической или циклической составляющими функции с трендом. Так, до сих пор не ясно, имеет ли место широко разрекламированное «глобальное потепление», и если имеет, то не является ли оно следствием какого-либо векового или многовекового цикла? Для неслучайных функций весьма широкое распространение получил гармонический анализ, т.е. представление периодических функций в виде ряда Фурье, а непериодических – в виде интеграла Фурье. Спектральный анализ позволяет представить периодическую функцию в виде бесконечной суммы гармонических колебаний с различными частотами и амплитудами.
Часто встречающаяся необходимость – выполнение классификации объектов, характеризующихся рядом параметров. Для этого используются методы группировки объектов, в частности, кластерный анализ.
Объекты окружающей среды и их характеристики связаны между собой многочисленными функциональными и статистическими зависимостями. Эти зависимости могут быть одномерными (функция зависит от одного аргумента) или многомерными (функция зависит от многих аргументов). Когда мы стремимся из данных натурных наблюдений за независимой и зависимой переменными получить уравнение, аппроксимирующее эту зависимость, нам приходится использовать метод наименьших квадратов. При исследовании взаимосвязей между переменными применяется корреляционный и регрессионный анализ. Корреляционный анализ показывает тесноту связи между переменными. При помощи регрессионного анализа определяются наиболее подходящие уравнения, аппроксимирующие эти связи. Корреляция и регрессия также могут одномерными и многомерными. В случае многомерных зависимостей весьма полезными являются методы снижения числа переменных – метод группового учета аргументов и факторный анализ.
Стандартной задачей экологических исследований является интерполяция и экстраполяция данных по времени и пространству.
В ряде экологических исследований нам приходится иметь дело с вероятностными величинами и так называемыми испытаниями, когда заранее неизвестно, наступит или нет какое-то событие. Особенно это характерно при оценке экологического риска и выработке управленческих решений. Так, техногенные катастрофы имеют отличную от нуля вероятность и, к сожалению, время от времени случаются. При этом степень ущерба зависит от многих других параметров, имеющих вероятностный характер. Например, на степень ущерба от выброса в атмосферу вредного вещества зависит от состояния атмосферы, направления и скорости ветра. Для исследования последствий подобных процессов используется статистическое моделирование или метод Монте-Карло. Мы не пытаемся проникнуть в глубь сложных случайных процессов, не стараемся смоделировать эти процессы. Вместо этого мы как бы предлагаем самой же случайности «разобраться» в тех сложностях, которые она породила. Случайность усложняет рассматриваемую картину, случайность же используется как инструмент исследования этой картины. Данный метод универсален, поскольку он не ограничен рамками каких-либо предположений, упрощений, моделей. Одна область применения данного метода – исследование тех случайных процессов, которые в силу своей сложности не поддаются аналитическому рассмотрению. Вторая область – проверка правильности, степени точности аналитических моделей, применяемых в тех или иных конкретных ситуациях. Метод Монте-Карло широко применяется при исследовании операций, при отыскании оптимальных решений в условиях неопределенности, при рассмотрении сложных многокритериальных задач.
Важная роль в диагностике и прогнозировании состояния геосистем принадлежит имитационным моделям функционирования экологических систем. Метод проб и ошибок, при котором объект рассматривается как "черный ящик", не применим к геосистемам, потому что это подразумевает длительные поиски оптимального режима функционирования экосистемы с многочисленными разнообразными входами, а также вследствие уникальности каждой природной геосистемы, которая не может подвергаться риску необратимых изменений. Кроме того, имитационное моделирование геосистем может вызываться необходимостью познания их связей и функций, не доступных во всех своих деталях прямым наблюдениям. Необходимость подобных исследований определяется чрезвычайно сложным характером взаимодействия антропогенных воздействий с естественным ходом развития экосистемы, т.к. она имеет траекторию естественного развития и область внутригодовой и межгодовой изменчивости. Из-за этого одни натурные наблюдения не в состоянии вскрыть сложные механизмы функционирования геосистемы в условиях антропогенного пресса и ее отклика на них. Образно говоря, перед исследователем постоянно стоит "проблема заключившего пари с хозяином Эзопа". Согласно легенде, он в пьяном виде поспорил на все свое состояние, что сможет выпить море. Протрезвев, он обратился за помощью к своему рабу, древнегреческому баснописцу Эзопу. Тот ему посоветовал сказать: "Я готов выпить море, но только без воды рек, в него впадающих". Противник в споре, разумеется, не смог отделить морскую воду от речной. Имитационная модель как раз и выступает в роли разделителя процессов. Только на основании результатов имитационного моделирования можно определять экологически обоснованные нормы антропогенного воздействия на конкретные природные объекты.
Имитационные модели представляют собой системы существенно нелинейных уравнений. Наиболее распространено компьютерное решение систем дифференциальных уравнений. Однако компьютер решает дифференциальные уравнения приближенными численными методами. Поэтому важно понимание особенностей методов приближенного дифференцирования. Одним из подходов является применение метода конечных разностей как дискретного аналога дифференциального и интегрального исчисления.
Цель данного курса заключается в прояснении того, что происходит в «недрах компьютера» при выполнении автоматизированной обработки данных, для каких целей можно применять тот или иной метод и каковы ограничения применимости данного метода.
Известно выражение: «Цель расчетов – не числа, а понимание», т.е. исследователь должен уметь понять, что же означает результат вычислений. Исследователь, который должен этого понимания достигнуть, обязан знать, как происходят вычисления. Если он не понимает, что делается, то он не может извлечь из результатов вычислений что-нибудь ценное. Он видит голые цифры, но их истинное значение может оказаться скрытым. Результат расчетов зависит от данных и от метода вычислений. Если не понимать промежуточные процессы, то легко принять за проявление природных законов эффекты применяемых схем вычислений или особенности выполнения расчетов на компьютере.