
- •В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
- •Введение
- •Типовые задачи геоэкологических исследований
- •Проверка данных на однородность Параметры геосистем как случайные величины
- •Законы распределения случайных величин
- •Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
- •Построение гистограммы частотного распределения
- •Критерии согласия
- •Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)
- •Критерий хи-квадрат (Пирсона)
- •Критерий Колмогорова
- •Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова
- •Построение совмещенной гистограммы распределений двух выборок
- •Параметрические критерии
- •Критерий Стьюдента
- •Проверка однородности двух групп данных по критерию Стьюдента
- •Критерий Фишера
- •Проверка однородности двух групп данных по критерию Фишера
- •Непараметрические критерии
- •Рангово-сумарный критерий Уилкоксона-Манна-Уитни
- •Проверка однородности двух групп данных по критерию Уилкоксона-Манна-Уитни
- •Ранговый критерий рассеяния Зигеля-Тьюки
- •Проверка однородности двух групп данных по критерию Зигеля-Тьюки
- •Интерполяция и фильтрация данных
- •Линейная интерполяция
- •Сплайновые интерполяции
- •Фильтрация и сглаживание
- •Запись данных в файл
- •Зависимость между параметрами
- •Расчет коэффициента парной корреляции
- •Регрессия
- •Заключение
- •Рекомендованная литература
- •Содержание
- •Автоматизированная обработка экологической информации
- •199061, С.-Петербург, Средний пр., 41.
Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
Импорт данных в вектор:
vector
Подсчёт математического ожидания m:
Подсчёт числа членов выборки (вектора) n
Расчёт среднего квадратического отклонения s
Расчет коэффициента вариации Cv
Расчет коэффициента асимметрии Cs
Ответ является результатом логической операции. К сожалению, строковые переменные, составленные из символов кириллицы, зачастую отображаются неадекватно. Поэтому можно либо писать по-русски латиницей, как это сделано в данной программе, либо писать по-английски.
Замечательным свойством рабочей области пакета Mathcad является её универсальность. Когда нужно обработать другие данные, достаточно лишь изменить оператор, отвечающий за импорт данных. Для этого необходимо подвести курсор «мыши» в пределы данного оператора и нажать на правую кнопку манипулятора. Появится диалоговое меню, в котором следует выбрать опцию «Выбор файла». Затем, соответственно, выбрать необходимый новый файл с данными. Более не надо производить никаких действий. Все расчеты в рабочей области будут выполнены автоматически.
Однако экспресс-метод может нас «подвести», если распределение значений выборки не является одномодальным. Поэтому совершенно обязательным элементом анализа данных служит построение гистограммы распределения. При этом область значений подразделяется на несколько равных интервалов и для каждого подсчитывается частота, т.е. отношение количества значений в данном интервале на общее количество значений выборки. Если оказывается, что распределение многомодальное, т.е. в разных частях гистограммы имеется как минимум два (возможно, и более) «высоких» столбиков, соответствующих интервалам с высокими значениями частот, а между этими «высокими» столбиками располагаются «низкие» столбики (низкие значения частот), то выборка явно неоднородна. Следует попытаться разбить её на отдельные однородные части. Существенным подспорьем для этого служат базы данных и геоинформационные системы. С их помощью следует проанализировать пространственно-временную неоднородность выборки. Возможно, окажется, что группировки значений относятся к различным временным периодам или пространственным местоположениям. Например, это могут быть различные ландшафтные, биогеографические или почвенные таксоны, разные почвенные горизонты. В водных экосистемах следует привлечь данные о вертикальной стратификации и водных массах. Может оказаться, что одна группировка значений относится к эпилимниону, а другая – к гиполимниону. Другой вариант, если речь идет о крупном озере или морской акватории – группы значений пространственно разделены термическим баром, существующим в периоды прогрева (весна – первая половина лета) и охлаждения (осень) водного объекта. Вариант – различные водные массы. Для их выявления придётся привлекать TS-анализ. На данном этапе анализа требуются комплексные знания специалиста-эколога. Возможно, выявленные одномодальные группировки значений будут характеризоваться нормальным распределением.
Однако тот факт, что распределение одномодально, ещё не гарантирует нормальности распределения. Последнее симметрично, поэтому сдвиг моды (самого высокого столбика) распределения к краю гистограммы говорит об асимметричности распределения и, соответственно, о том, что закон распределения выборки существенно отличается от нормального. Чаще всего при исследованиях содержания веществ в окружающей среде мы сталкиваемся со сдвигом влево: наиболее часто встречаются низкие концентрации. Это происходит в том случае, когда большинство значений в выборке соответствуют фоновым природным значениям, но есть несколько «выбросов», высоких значений, определяемых антропогенным воздействием. В данном случае также «на выручку» приходит пространственный анализ. Разбив с его помощью выборку на «природную» и «антропогенную» части, мы можем в результате получить выборки, подчиняющиеся нормальному закону распределения.