
- •В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
- •Введение
- •Типовые задачи геоэкологических исследований
- •Проверка данных на однородность Параметры геосистем как случайные величины
- •Законы распределения случайных величин
- •Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
- •Построение гистограммы частотного распределения
- •Критерии согласия
- •Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)
- •Критерий хи-квадрат (Пирсона)
- •Критерий Колмогорова
- •Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова
- •Построение совмещенной гистограммы распределений двух выборок
- •Параметрические критерии
- •Критерий Стьюдента
- •Проверка однородности двух групп данных по критерию Стьюдента
- •Критерий Фишера
- •Проверка однородности двух групп данных по критерию Фишера
- •Непараметрические критерии
- •Рангово-сумарный критерий Уилкоксона-Манна-Уитни
- •Проверка однородности двух групп данных по критерию Уилкоксона-Манна-Уитни
- •Ранговый критерий рассеяния Зигеля-Тьюки
- •Проверка однородности двух групп данных по критерию Зигеля-Тьюки
- •Интерполяция и фильтрация данных
- •Линейная интерполяция
- •Сплайновые интерполяции
- •Фильтрация и сглаживание
- •Запись данных в файл
- •Зависимость между параметрами
- •Расчет коэффициента парной корреляции
- •Регрессия
- •Заключение
- •Рекомендованная литература
- •Содержание
- •Автоматизированная обработка экологической информации
- •199061, С.-Петербург, Средний пр., 41.
Законы распределения случайных величин
Случайная величина характеризуется законом распределения. Мы предполагаем и надеемся, что читатель хотя бы немного знаком с теорией вероятности и отнюдь не стремятся дублировать курс данной дисциплины. Тем не менее, для «не изучавших, но уже забывших» напомним, что закон распределения показывает, как часто встречаются те или иные значения случайной величины. Этих законов множество, и, вероятно, открыты далеко не все. Вообще известные теоретические законы распределения СВ выведены специалистами-математиками, исходя из каких-либо аксиом и предположений. Далее выполняются математические преобразования, и в результате появляется формула данного закона распределения. Затем на авансцену выходит математическая статистика, с помощью которой выясняется, что данный закон хорошо описывает распределение такой-то природной величины. Это именно тот случай, когда можно сказать, что «формулы умнее нас». Открыватель какого-либо закона распределения может гордиться, что ему удалось хоть немножко разобраться в замыслах Творца, однако было бы величайшим нахальством бездоказательно утверждать, что какая-либо СВ должна подчиняться именно этому закону.
Частая ошибка – априори считать, что природные величины обязаны подчиняться нормальному распределению Гаусса. Этот закон принадлежит к непрерывным законам распределения и является частным случаем дифференциального уравнения кривых плотности вероятности Пирсона. Впервые нормальный закон распределения был разработан для анализа погрешностей измерений. В природе и технике чрезвычайно распространены случайные величины, которые представляют собой сумму большого числа независимых или слабо зависимых случайных величин, дисперсии которых малы по сравнению с дисперсией всей суммы. Из центральной предельной теоремы следует, что распределение таких СВ при весьма общих дополнительных условиях хорошо аппроксимируется нормальным распределением. Этим объясняется весьма широкое распространение последнего. Нормальное распределение применяется и в тех случаях, когда истинный закон распределения известен, но вычисления по этому закону затруднены, а аппроксимация его нормальным законом не приводит к большим ошибкам. Другими словами, СВ имеет нормальный закон распределения в том случае, если её значение определяется одной сильной причиной (воздействием, параметром, величина которого постоянна или испытывает незначительные колебания), а также множеством маленьких, слабеньких, независимых друг от друга воздействий. Классический пример – стрельба из артиллерийского орудия снарядами одного типа при неизменных параметрах наводки. Случайная величина – дальность выстрела зависит от одного определяющего параметра: угла возвышения орудия. Если температура ствола не меняется и его износом за время серии выстрелов можно пренебречь, то слабые воздействия – это турбулентность атмосферы и колебания температуры воздуха, неоднородности веса снарядов и пороховых зарядов, влажности и температуры зарядов, структуры пороха и т.д. Разумеется, если существенно изменятся метеорологические параметры, нагреется ствол или орудие просядет в грунте, то распределение дальности выстрелов станет отличаться от нормального закона.
Функция плотности вероятности нормального распределения определяется выражением:
f(x) = [1/(x 2)]exp[-(x-mx)2/(22x)]
В общем случае нормальное распределение является двухпараметрическим, т.е. зависит от двух параметров: математического ожидания и среднего квадратического отклонения (или дисперсии). Для него коэффициент асимметрии равен нулю, а мода, медиана и МО совпадают. Область возможных значений СВ, подчиняющейся нормальному распределению – от минус бесконечности до плюс бесконечности.
Интегральная функция распределения имеет вид
x
F(x) = [1/(x2)] exp[-(z-mx)2/(22x)]dz
-
где z – переменная интегрирования.
Из этих формул следует, что любая природная величина, строго говоря, не может иметь нормальное распределение, поскольку функция плотности вероятности его асимптотически приближается к оси x при стремлении значений величины к плюс или минус бесконечности. Т.е. сколь большое или малое значение случайной величины мы бы не взяли, соответствующая ей плотность вероятности будет отличаться от нуля. Значения же концентраций веществ в среде не могут быть меньше нуля. Не могут они принимать и очень высокие значения. Так, проективное покрытие растительности не может быть больше 100%. Концентрации растворенных веществ в воде не могут существенно превышать их растворимость. Тем не менее принимается соответствие распределения СВ нормальному закону распределения, если имеет место совпадение эмпирического и теоретического распределений в окрестностях математического ожидания СВ. При этом игнорируется заведомое несовпадения «краев» распределений в областях низких и высоких значений СВ.
Само по себе определение наиболее близкого данному экспериментальному распределению теоретического распределения важно для прогнозирования вероятностей встречаемости тех или иных значений случайных величин. Однако для определения того, какими методами можно проверять существенность различия двух наборов (выборок) данных, необходимо выяснить лишь одно: можно ли считать распределение нормальным или нет. В первом случае к нашим услугам параметрические критерии проверки данных на однородность, во втором – непараметрические. Слово «параметрические» означает, что закон распределения случайной величины нам известен, и нам нужно уточнить лишь его параметры. Например, нам известно, что закон – нормальный, значит, необходимо выяснить значения математического ожидания и дисперсии. Термин «непараметрические» говорит о том, что для применения данного статистического критерия нет никакой необходимости знать закон распределения. Может возникнуть вопрос: «А почему бы тогда не применять только непараметрические критерии?» Дело в том, что параметрические критерии более строгие, и если есть возможность применить такой критерий, то следует использовать именно его, а не непараметрический.
Итак, если у нас имеется некоторое количество значений исследуемого параметра, начать следует с поиска ответа на вопрос: «Достаточно ли близок его закон распределения к нормальному, чтобы можно было применять критерии Стьюдента (Госсета) и Фишера?»
Сперва можно применить экспресс-метод: возможно, распределение данной выборки соответствует нормальному, если удовлетворяется следующее условие – коэффициент асимметрии должен быть меньше, чем учетверенный коэффициент вариации. Если данное условие не выполняется, тогда можно с легким сердцем забыть об использовании для данного случая критериев Стьюдента и Фишера и сосредоточиться на использовании непараметрических критериев. Если же условие удовлетворено, то это отнюдь не является доказательством нормального закона распределения.
Для применения экспресс-метода создадим рабочую область («программу») в пакете Mathcad. Естественно, сначала нам необходимо «предоставить» этому пакету данные, которые он должен обработать. В принципе, эти данные можно «набить» непосредственно в пакете Mathcad: создать в нем таблицу и заполнить её. Однако в подавляющем большинстве случаев результаты натурных измерений и наблюдений уже имеются в электронном виде. Чаще всего данные заносятся в файлы электронных таблиц формата Microsoft Excel. Поэтому рассмотрим именно этот случай. Microsoft Excel не накладывает строгих ограничений на структуру своих таблиц. Для пакета Mathcad импортируемые файлы должны иметь строгую структуру: это могут быть векторы или матрицы. Вектор – это столбец из числовых значений, в таблице Microsoft Excel это совокупность ячеек в первом столбце, начиная с первой строки, т.е. А1, А2, … Аn. «Пустых» ячеек между ячейками А1 и Аn быть не должно. Не должно также быть других заполненных ячеек, кроме блока А1:Аn.
Рабочая область пакета Mathcad должна начинаться с импорта данных. В данном случае источником создаваемого вектора служит файл Microsoft Excel, в котором имеется один-единственный столбик числовых данных и ничего более. После «запуска» пакета Mathcad на экране появиться чистое белое поле новой рабочей области. Аналогичный результат можно получить, если в интерфейсе нажать кнопку «Файл», а затем в появившемся ниспадающем меню – опцию «Новый». В начале создаваемой рабочей области совсем не лишним будет записать, что же осуществляет данная программа. Поэтому запишем: «Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода». Далее организуем импорт данных. На интерфейсе пользователя нажимаем кнопку «Вставка». Затем в появившемся ниспадающем меню – опцию «Компонент». Появляется окно «Мастер компонентов». В представленном в этом окне списке типов компонентов выбираем «Чтение или запись файла» и нажимаем кнопку «Next». Затем, естественно, оставляем включенной кнопку «Читать из файла» и нажимаем кнопку «Далее». На экране появляется «Мастер Чтения или Записи Файла». В «окошке Формат Файла» выбираем формат импортируемого файла. В нашем случае это будет «Excel». Затем нажимаем кнопку «Обзор» и при помощи появившегося диалогового окна «Read from File» выбираем файл – источник данных. При этом в рабочей области в черном прямоугольнике появится схематичное изображение дискеты, а ниже него – адрес файла и его название. В верхнем левом углу прямоугольника левее знака присвоения (:=) находится маленький черный прямоугольник, снизу и справа отчеркнутый синими линиями. Это место, где необходимо прописать идентификатор вектора. Следует применять латинские буквы и арабские цифры.
Для расчета коэффициента вариации необходимо определить оценку математического ожидания выборки и среднего квадратического отклонения. Затем определяем коэффициент асимметрии. Ниже приведен листинг рабочей области («программы») проведения экспресс-теста. Заметим, что умножение оценки дисперсии на n/(n-1) необходимо для ликвидации её отрицательной смещенности. При n≥30 можно обходиться без этой коррекции.