- •Глава 6. Статистическая проверка гипотез и оценка однородности гидрологической информации (14.11.2016)
- •6.1. Постановка задачи
- •6.2. Понятие гипотез
- •6.3. Критерий значимости
- •6.4.1. Выбор закона распределения. Постановка задачи
- •6.4.2. Критерий согласия Колмогорова
- •6.4.3. Критерий согласия Пирсона p[χ2]
- •6.4.4. Критерий согласия пω2
- •6.5. Проверка гипотез о параметрах распределения
- •6.5.1. Постановка задачи
- •6.5.2. Оценка среднего значения
- •6.5.3. Определение доверительных границ математического ожидания
- •6.5.4. Оценка значимости среднего значения
- •6.5.5. Оценка расхождения между средними значениями
- •6.6. Оценка дисперсии
- •6.6.1. Постановка задачи
- •6.6.2. Определение доверительных границ дисперсии
- •6.6.3. Оценка равенства дисперсий
- •6.7. Непараметрические методы проверки гипотез
- •6.7.1. Критерий Уилкоксона
- •6.7.2. Критерий Манна — Уитни
- •6.7.3. Критерий знаков
Глава 6. Статистическая проверка гипотез и оценка однородности гидрологической информации (14.11.2016)
6.1. Постановка задачи
По генеральной совокупности тем или иным способом можно установить закон распределения исследуемой случайной величины и, следовательно, полностью описать ее. В главах 4 и 5 рассматривались различные приемы задания законов распределения и расчета их числовых характеристик.
Совершенно иначе обстоит дело, когда в распоряжении исследователя имеются ряды данных ограниченной продолжительности. Рассчитанные по ним (см. гл. 5) числовые характеристики закона распределения сами по себе являются случайными величинами. Как и любая другая случайная величина, эти выборочные или эмпирические характеристики могут быть описаны тем или иным законом распределения. Таким образом, по имеющимся рядам исходных данных получаются лишь приближенные представления о законе распределения, причем, если бы в нашем распоряжении был новый ряд данных о том же процессе, не совпадающий с первым, допустим, по времени, то мы бы получили новые значения характеристик исследуемого закона распределения. Как отмечалось выше, рассеяние этих значений относительно генеральных тем больше, чем короче период наблюдений.
В условиях, когда объем выборок ограничен, и данные об исследуемом массовом явлении по отдельным выборкам обнаруживают значительное рассеяние, объективное суждение о процессе или преимуществах того или иного метода его описания можно вынести лишь на основе дополнительного статистического анализа. Например, за разные периоды в одном и том же пункте наблюдений получены разные средние значения рассматриваемого процесса. Встает вопрос является ли разность средних значений следствием влияния изменений хозяйственной деятельности или эта разность следствие естественных колебаний выборочных оценкок
Отсутствие аппарата для объективного суждения по названному и многим другим вопросам приводило к разным выводам на основе того же самого исходного материала и в конечном итоге к дискуссиям, например, о влиянии антропогенных факторов на состояние окружающей среды.
В настоящее время в математической статистике разработаны приемы такого анализа и сопоставления, исчерпывающим образом использующие всю информацию, которая содержится в ограниченном материале наблюдений. Максимальное использование информации достигается тем, что эти приемы основываются на гипотезах того или иного вида, которые должны быть доказаны или опровергнуты в ходе статистической проверки.
Как известно, при любом научном исследовании обычно заранее имеется какое-то определенное, верное или неверное, представление об изучаемом процессе или явлении и его числовых характеристиках. Эти представления создаются на основании имеющихся публикаций, интуиции и опыта, теоретических соображений и др. Наличие таких представлений (гипотез) позволяет в значительной степени сузить направление исследования и от более широкой задачи перейти к частной проверке какой-то конкретной гипотезы. В необходимых случаях можно перейти к проверке ряда гипотез и последовательным исключением их прийти в конце концов к однозначному решению.
Рассмотрим, например, некоторые практические ситуации в геоэкологических исследованиях, при которых возникает необходимость использовать гипотезы.
1. Гипотеза о законе распределения. По имеющейся выборке значений случайной величины X (x1, x2,…,xn) необходимо определить функцию распределения F(х).
Решение задачи в такой общей постановке вызывает значительные трудности и в большинстве случаев, не является необходимым. Обычно, исходя из некоторых дополнительных соображений, например, основанных на общей изученности рассматриваемых процессов, заранее делается предположение (гипотеза) о виде искомой функции распределения, то есть выдвигается гипотеза. Таким простейшим и в то же время наиболее весомым является предположение, что функция распределения есть вполне определенная функция, допустим Fc(x).
Например, по имеющемуся временному ряду значений среднего годового стока требуется подобрать закон распределения. Как известно, в этих целях в гидрологических расчетах чаще всего используется закон распределения Пирсона III типа при Cs = 2Cv. Поэтому естественно предположить, что и для данного ряда именно он является искомым законом распределения. С другой стороны нередко возникают сомнения в возможности применения этого закона, особенно в тех случаях, когда точки эмпирической кривой обеспеченности имеют большой разброс относительно предполагаемой теоретической кривой обеспеченности. Для разрешения возникших сомнений требуется проверить, насколько верно это предположение. Если предположение оказывается неверным, выдвигается новая гипотеза и т. д. Возможна такая сложная ситуация, когда сделать предположение о каком-либо конкретном виде распределения нет оснований. В таком случае задача может быть сведена к проверке целого ряда гипотез. Конкретные методы решения задач подобного типа представлены в разделе 6.1.
2. Гипотеза однородности в пространстве. В каком-то районе имеются данные наблюдений, допустим, за осадками по l станциям. Необходимо выяснить, подчиняются ли все ряды наблюдений одному и тому же закону распределения, то есть являются ли они однородными. Обычно вопрос в этом случае ставится так: существенны или несущественны расхождения между данными наблюдений различных станций
Для выяснения этого вопроса по исходным рядам наблюдений по- строены совмещенные эмпирические кривые обеспеченности. Эти кривые несколько отклоняются друг от друга. Могут ли названные отклонения служить доказательством неоднородности распределения осадков в рассматриваемом районе?
При
решении этой задачи будем исходить
из предположения, что осадки по всей
территории района
описываются одним и тем же конкретным
законом распределения.
Тогда решение поставленной задачи
сводится к проверке этого
или, в случае необходимости, такого же
последующего пред
положения.
Методы решения задач подобного типа представлены в разделе 6.2.
Гипотеза однородности во времени. Данные наблюдений за стоком представлены в виде отдельных групп, полученных в разное время (перерывы в наблюдениях) или в разных створах (перенос створа). Требуется выяснить, различаются ли эти группы наблюдений между собой более, чем можно было бы ожидать в связи с чисто случайными колебаниями, имеющими место в выборочных совокупностях. Обычно вопрос в этом случае ставится так: существенны или несущественны расхождения между данными наблюдений в различные периоды времени; или иначе, является ли ряд наблюдений однородным во времени.
Для ответа на этот вопрос выдвигается предположение о том, что ряд наблюдений однороден во времени. Теперь достаточно проверить правильность этого предположения.
Другой пример использования гипотезы однородности во времени. Пусть известно, что начиная с момента t0 в бассейне реки началась или усилилась хозяйственная деятельность. Материалы наблюдений показывают, что статистические характеристики, полученные по наблюдениям в последние годы, несколько отличаются от прежних. Требуется выяснить, могут ли обнаруженные различия быть приписаны случайным колебаниям выборочных характеристик, или же нужно сделать вывод, что изменение природных условий оказало существенное влияние на изучаемое явление.
Методы решения задач подобного типа представлены в разделах 6.5 – 6.7.
4. Гипотеза независимости. Имеются выборки значений случайной величины X и Y. Есть основания предполагать, что значения X и Y независимы, т.е. что F (х, у) = F (х) F (у), где F (х) и F(y) — одномерные функции распределения.
Подробнее содержание этой гипотезы и методы ее проверки изложены в разделе 8.4.
5. Гипотеза случайности. По имеющейся выборке значений X рассчитаны коэффициенты корреляции внутрирядной связи r (XI , X j) .
Есть основания считать, что действительные значения коэффициентов корреляции r (XI , X j) равны нулю, т. е. внутрирядные связи отсутствуют. Необходимо проверить эту гипотезу.
Более подробно содержание гипотезы и методы ее проверки изложены в разделе 8.2.
Во всех приведенных примерах на первый план выдвигается какое-то предположение или гипотеза и производится ее проверка. От того, насколько верно сформулирована гипотеза, во многом зависят результаты анализа. Поэтому представляется важным детально рассмотреть понятие гипотезы в статистике и методы их использования в гидрологических исследованиях.
