
- •В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
- •Введение
- •Типовые задачи геоэкологических исследований
- •Проверка данных на однородность Параметры геосистем как случайные величины
- •Законы распределения случайных величин
- •Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
- •Построение гистограммы частотного распределения
- •Критерии согласия
- •Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)
- •Критерий хи-квадрат (Пирсона)
- •Критерий Колмогорова
- •Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова
- •Построение совмещенной гистограммы распределений двух выборок
- •Параметрические критерии
- •Критерий Стьюдента
- •Проверка однородности двух групп данных по критерию Стьюдента
- •Критерий Фишера
- •Проверка однородности двух групп данных по критерию Фишера
- •Непараметрические критерии
- •Рангово-сумарный критерий Уилкоксона-Манна-Уитни
- •Проверка однородности двух групп данных по критерию Уилкоксона-Манна-Уитни
- •Ранговый критерий рассеяния Зигеля-Тьюки
- •Проверка однородности двух групп данных по критерию Зигеля-Тьюки
- •Интерполяция и фильтрация данных
- •Линейная интерполяция
- •Сплайновые интерполяции
- •Фильтрация и сглаживание
- •Запись данных в файл
- •Зависимость между параметрами
- •Расчет коэффициента парной корреляции
- •Регрессия
- •Заключение
- •Рекомендованная литература
- •Содержание
- •Автоматизированная обработка экологической информации
- •199061, С.-Петербург, Средний пр., 41.
Санкт-Петербургский государственный университет
В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
Учебное пособие
Санкт-Петербург
2005
УДК 519.2:504.064.2
ББК 20.1
Т66
Рецензенты: докт. геогр. наук Г.К. Осипов (НИО-3 ЗАО «Институт телекоммуникаций»),
докт. геогр. наук В.А. Шелутко (Российский государ-
ственный гидрометеорологический университет)
Печатается по решению
Ученого совета Учебно-научного центра
географии и геоэкологии
Санкт-Петербургского государственного университета
Третьяков В.Ю., Кулеш В.П.
Т66 Автоматизированная обработка экологической информации: Учеб. пособие. – СПб.: Изд-во С.-Петерб. ун-та, 2005. – 88 с.
ISBN 5-288-03635-7
В пособии рассмотрены методы компьютерной обработки первичной экологической информации. Особое внимание уделено методам проверки данных на однородность. Представлены листинги созданных для обработки и анализа экологических данных рабочих областей программного пакета Mathcad.
Пособие предназначено для студентов географических факультетов высших учебных заведений, обучающихся по специальностям “Геоэкология”, “Природопользование”, “География” и направлению “Экология и природопользование”.
ББК 20.1
© В.Ю. Третьяков, В.П. Кулеш, 2005
© Факультет географии и геоэкологии
Санкт-Петербургского государственного
ISBN 5-288-03635-7 университета, 2005
Введение
Практически любая научно-исследовательская работа в сфере геоэкологии предполагает обработку данных непосредственных наблюдений и измерений. Разумеется, возможен случай, и он, к сожалению, является распространенным в курсовых работах и не только в них, когда исследование подменяется бездумной компиляцией из различных источников. Однако настоящее научное исследование предполагает анализ информации и её последующий синтез.
Термин “информация” является общеупотребительным, он зачастую рассматривается как синоним слов “сообщение”, “сведения”, “сигнал”, “данные”, “знания”. Однако эти понятия существенно различаются по своей сути. Под “данными” понимается совокупность фактов, представленных в каком-либо формализованном виде (в количественном и качественном выражении) для их использования в научных исследованиях или других сферах человеческой деятельности. Данные соответствуют зарегистрированным фактам, описывающим какие-либо явления. Термин данные происходит от латинского «datum», буквально означающего “факт”. Непосредственно данные не содержат смысловой составляющей, в них ещё нет семантики, т.е. отражения структуры и законов мироздания. В самих данных нет ответа на вопрос: «А что это означает?», они являются сырьем, которое путем переработки можно превратить в информацию, т.е. данные – строительный материал для создания информации. Информация – это смысл, вкладываемый человеком в данные. Последние рассматриваются как объект обработки и основа для получения информации. Данные представляются в форме, удобной для пересылки, интерпретации и обработки человеком или автоматическими средствами. Знания в философском их понимании – отражение семантических аспектов реальности, т.е. её структуры и законов в сознании человека или в технической системе.
Существуют и другие определения информации. Так, информация подразделяется на три рода. Информация первого рода - это фактические результаты непосредственных измерений. То есть при таком определении информация первого рода тождественна понятию «данные», в ней ещё нет семантической составляющей. Затем информация подвергается обработке: классификации, статистической обработке, составлению таблиц, карт, атласов, диаграмм и т.д. Это вторичная информация первого вида, «полуфабрикат», в котором ещё нет семантической (смысловой) составляющей, но на основании этого «полуфабриката» можно получить вторичную информацию второго вида, в которой уже содержится смысловое содержание. Вторичная информация представляется на специфическом языке данной науки и рассчитана для потребления специалистами в данной области знания. Вторичная информация второго вида содержит выводы, обобщения, выявленные закономерности, гипотезы, теории. Данный вид информации представляется в виде научных отчетов, статей, курсовых, дипломных, диссертационных работ, монографий. В общем случае первичная информация может быть преобразована во вторичную информацию многими способами. При этом на основании одной и той же первичной информации можно в принципе получить различающуюся и даже противоречивую вторичную информацию: различные выводы, гипотезы, представления. Затем вторичная информация преобразуется в третичную информацию, предназначенную для "лиц, принимающих решения": представителей власти, управляющих производством и т.д. Третичная информация представляет собой рекомендации или методики, написанные доступным для неспециалистов языком. Ясно, что адекватность преобразования геоэкологической информации может быть обеспечена лишь адекватностью реальности представлений о функционировании и развитии геосистем.
Экология представляет собой не единую науку, а целый комплекс научных дисциплин. Геоэкология в отличие от классической биологической экологии акцентирует свое внимание на функционировании природных объектов, подвергающихся антропогенному воздействию. Объектами изучения геоэкологии служат геосистемы. Различие между терминами «геосистема» и «экосистема», прилагаемыми к одному и тому же природному объекту заключается в том, что в «экосистеме» основной упор делается на биотическую составляющую, а среда рассматривается в качестве воздействующего на живое вещество (организм, популяцию, сообщество, биоценоз) агента; для «геосистемы» характерно «равноправие» биоценоза и биотопа. Кроме того, «экосистема» является функциональной единицей, для её идентификации необходимо представить её структуру и особенности функционирования, но нет необходимости в определении её пространственных границ. Геосистема же требует кроме функционального определения также указания её пространственного расположения. Элемент геоэкологических данных содержит три главные компоненты: атрибутивные сведения, которые описывают сущность характеристики; географические сведения, описывающие положение элемента в пространстве; временные сведения, описывающие момент или период времени, к которым относится элемент данных.
Геоэкология предполагает системный (кибернетический) подход к исследованию геосистем, которые рассматриваются как кибернетические системы, получающие извне вещество, энергию и информацию, потребляющие их, преобразующие, перераспределяющие между различными своими компонентами и выделяющими за свои пределы материю, энергию и информацию в иных формах. Геоэкология является синтезирующей наукой, интегрирующей достижения целого комплекса естественных, точных и социальных наук.
Геоэкологические исследования предполагают выяснение пространственной и функциональной структуры природных объектов, взаимосвязей между компонентами геосистем, количественных характеристик потоков вещества и энергии между компонентами геосистем и различными геосистемами. Системность всегда связана с определенной формой организованности, которая является свойством объекта как целого, она не присуща отдельным его элементам, например жизнь организма.
Любая естественная наука в своем развитии проходит ряд этапов, эти же этапы характерны для конкретного исследования: 1) накопления информации об объектах (сбор первичной информации), 2) упорядочивания – классификация объектов (вторичная информация первого вида – для облегчения анализа изучаемого объекта или явления), 3) установление эмпирических связей, качественных и количественных соотношений между объектами – вторичная информация второго вида. Затем выделяются взаимосвязи, определяющие функционирование системы. После этого начинается математическое моделирование процессов в системе на основе выделения существенных свойств исследуемого явления и их величин. Таким образом, налицо следующие этапы развития науки – 4) установление величин и 5) математическое моделирование. Они тесно связаны с последующим этапом – установлением связей и соотношений уже не на эмпирической основе, а методом дедукции на основе разработанных теорий и моделей.
Своеобразие современного периода исследований окружающей среды состоит в том, что если ранее цели и средства антропогенного изменения окружающей среды не зависели от результатов моделирования, то теперь существует или должна существовать обратная связь – от моделирования к целям и средствам преобразования. Модель может дать предварительное объяснение и предсказание поведения природной системы, помочь при планировании и оценить эффекты антропогенных воздействий. Использование моделей для прогноза функционирования природных систем является средством познания. При антропогенном воздействии на геосистему или ее целенаправленном преобразовании модель служит в качестве инструмента, обеспечивающего оптимальное управление функционированием и развитием геосистемы.
Зачастую под экологическим исследованием понимают констатацию данных, описывающих пространственно-временную динамику загрязнителей в окружающей среде. Однако в таком случае в данном исследовании экология «и не ночевала». Очевидно, что современные экологические исследования не должны ограничиваться этапом сбора первичных данных – необходимо построение моделей функционирования геосистем, прогноз поведения геосистем в условиях возрастающей антропогенной нагрузки. Насущной потребностью является оптимизация природопользования. Для этого необходимо знать, как существует или существовала геосистема в условиях отсутствия антропогенного воздействия, какие её компоненты (блоки) наиболее подвержены антропогенному воздействию, какова специфика функционирования экосистемы в условиях антропогенной нагрузки. Необходима разработка критериев определения экологически обоснованной антропогенной нагрузки на различные типы природных объектов, устойчивости природных объектов к различным видам антропогенных воздействий, классификации объектов по степени нарушенности среды и экологической безопасности. И действительно, за последние десятилетия произошло революционное изменение в содержании экологических исследований. Если ранее основным результатом являлось получение информации первого рода, то теперь требуется информация второго и особенно третьего рода. Необходимы конкретные рекомендации по оптимизации природопользования самых различных пространственно-временных масштабов.
Поскольку геоэкологические исследования носят комплексный характер, они включают в себя методы целого комплекса географических, биологических, геологических, естественных наук. Поэтому и геоэколог, и природопользователь, т.е. специалист по рациональному использованию природных ресурсов обязаны иметь очень широкое образование. Естественно, что специалисты данных направлений не могут иметь столь же глубокие знания, как узкие специалисты в конкретных областях знания. Естественно, что методику химического анализа лучше него разработает химик, он же лучше и выполнит сам анализ, расчет модуля стока лучше эколога выполнит узкий специалист-гидролог и т.д. Главное, что должен уметь геоэколог - создавать информацию о состоянии окружающей среды на основании разнородной, зачастую неполной, не достаточно точной и, возможно противоречивой информации, прогнозировать развитие экологической ситуации в случае принятия тех или иных управленческих решений, подготавливать экологическое обеспечение управления административными и народно-хозяйственными объектами. Другими словами, “выжимать” смысловое содержание из “вороха” разнородной информации. Смысл работы эколога - связывать воедино данные из самых различных направлений науки. Специализация геоэколога - не получение первичной информации (это лучше него сделает специалист в каждой конкретной области), и даже не получение вторичной информации в рамках узких областей знания, а анализ и последующий синтез совершенно разнородной первичной и вторичной информации, полученной узкими специалистами. Основная задача эколога - получение новой вторичной экологической информации на уровне обобщений, гипотез, прогнозов и выработка далее третичной информации - экспертных оценок и рекомендаций. Разумеется, эколог должен обладать определенным багажом знаний по методам получения первичной информации, но при этом совершенно необходимо в полной мере владеть информационными технологиями.
Необходимость автоматизированной компьютерной обработки данных связана с тем, что реальной стала ситуация избытка данных и недостатка информации. Дистанционное многоканальное зондирование поверхности Земли с космических аппаратов позволяет ежесуточно неоднократно получать информацию о состоянии поверхности всего Земного шара. Широкое распространение получили автономные измерительные системы, информационно-измерительные системы, поставляющие данные по многим параметрам в компьютерную сеть, затем результаты измерений автоматически "складируются" на магнитный носитель или компакт-диск. Разумеется, затем очень остро встаёт проблема автоматизированной обработки результатов, ибо о неавтоматизированной обработке не придется даже и говорить. Поэтому довольно распространен случай, когда различные носители информации «загромождены» данными за многие годы, которые ещё не смогли обработать и проанализировать.
Экологическая информация может быть числовой и нечисловой (вербальной, символьной). В любом случае необходимость автоматизированной обработки требует хранения информации в файлах определенной строгой структуры. Здесь очевидна взаимосвязь данного курса с дисциплиной «Базы данных», посвященной хранению данных в специализированных файлах жесткой структуры и их обработке при помощи СУБД – систем управления базами данных.
Математика предлагает геоэкологу различные методы обработки и преобразования данных – здесь заключается взаимосвязь данного курса с курсом «Численные методы». Методы обработки данных с использованием стандартных программных пакетов применяются в основном на этапе преобразования первичной информации во вторичную первого вида. Специфика имитационного моделирования геосистем рассматривается в соответствующем курсе. Специалист геоэколог должен представлять, какие методы обработки данных применимы для решения данной задачи, и какие стандартные программные пакеты предоставляют эти методы обработки. Разумеется, он должен знать, как правильно осуществить обработку данных в применяемом программном пакете. Естественно, что число существующих программных пакетов весьма велико и нет возможности рассмотреть их все, тем более что периодически появляются новые программные пакеты.
Применение компьютерных программных пакетов может сыграть злую шутку с исследователем, если он рассматривает пакет как некий «черный ящик», в который он «запихивает» информацию, а затем нажимает на «какие-то кнопки», стремясь на выходе получить «приятные глазу картинки», не представляя себе, какие процессы обработки данных выполнял данный программный пакет и как интерпретировать их результаты. Прежде чем дать компьютеру команду на выполнение какого-либо анализа данных, необходимо четко представлять, в каких случаях применяется данный вид анализа и каковы накладываемые на него ограничения. Поэтому в пособии основной упор сделан на подходах к решению типичных задач, встающих при проведении экологических исследований. В пособии не представлены инструкции пользователя конкретных программных пакетов (для этого есть соответствующая литература и справочники самих программных пакетов). Тем не менее, не умаляя достоинства других программных пакетов, заметим, что рядом преимуществ обладает пакет Mathcad. Его основное достоинство – прозрачность выполнения действий, которые последовательно заносятся в рабочие области и могут быть в любое время просмотрены любым пользователем и удобство программирования, которое практически совпадает с написанием уравнений и не требует изучения специального алгоритмического языка, а также широкие возможности импорта данных и экспорта результатов в файлы внешних форматов. Поэтому типовые задачи и примеры реализованы в среде пакета обработки данных Mathcad.
Недостаточная глубина понимания специалистами методов автоматизированной обработки данных связана, на наш взгляд, с таким подходом в их преподавании или изучении, когда сперва подробнейшим образом рассматриваются теоретические математические обоснования какого-либо метода, а области его применения в данной естественной или социальной науке в лучшем случае рассматриваются весьма отвлеченно. Нами исповедуется другой подход: от задач к методам, поскольку данное пособие рассчитано на студентов экологов-географов.