Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Рождественский, А. В. Статистические методы в гидрологии

.pdf
Скачиваний:
67
Добавлен:
22.10.2023
Размер:
14.87 Mб
Скачать

в данном случае будет Xi = X2 , а альтернативных гипотез может быть

три: Xi^xz, или Xi>x2, или Xi<x2.

Выбор уровня значимости. Уровнем значимости будем считать такое достаточно малое значение вероятности, которое в том или ином конкретном случае может считаться характеризующим прак­ тически невозможное событие. Появление такого редкого события указывает на неправильность принятой нулевой гипотезы с вероят­ ностью, не превышающей выбранный уровень значимости. В таком случае с вероятностью, равной выбранному уровню значимости, можно отвергнуть нулевую гипотезу, хотя она может оказаться пра­ вильной, или, как говорят, совершить ошибку первого рода. В дру­ гом случае, задаваясь некоторым достаточно малым уровнем зна­ чимости, можно принять неправильную альтернативную гипотезу или совершить ошибку второго рода. Очевидно, что полностью из­ бежать ошибок первого и второго рода нельзя. При этом всегда имеет место некоторый риск. Можно лишь уменьшить риск совер­ шения ошибки одного рода за счет увеличения ошибки другого рода. Обычно за уровень значимости принимают вероятность 5, 2 или 1%-ную. В отдельных случаях уровень значимости может быть выбран 0,1 % и менее или более 5%.

С уменьшением уровня значимости вероятность забраковать ну­ левую гипотезу уменьшается, когда она верна и, следовательно, уменьшается вероятность совершения ошибки первого рода. Но с уменьшением уровня значимости увеличивается область допу­ стимых значений и, следовательно, увеличивается вероятность при­ нятия нулевой гипотезы, когда она неверна, или увеличивается ве­

роятность совершения ошибки

второго рода. С

другой стороны,

увеличивая уровень значимости,

мы увеличиваем

вероятность со­

вершения ошибок первого рода

(т. е. отвергнуть исходную нулевую

гипотезу, хотя она верна) и соответственно уменьшаем вероятность совершения ошибок второго рода.

Выбор уровня значимости при проверке однородности гидроло­ гических рядов следует назначать, сообразуясь с теми последст­ виями, которые могут возникнуть в результате совершения ошибок первого или второго рода. Кроме того, при этом всегда следует иметь в виду погрешности исходных данных.

Выбор критической области осуществляется таким образом, чтобы вероятность попадания в нее, когда гипотеза верна, в точ­ ности была равна уровню значимости. Область, которая дополняет критическую, обычно называют областью допустимых значений, или областью принятия. Выбор критической области при заданном уровне значимости необходимо осуществлять, исходя из тех или иных физических соображений и предполагаемых различий в па­ раметрах их распределений. Иными словами, критическую область

следует выбирать таким образом,

чтобы вероятность

попадания

в нее критерия была наибольшей,

когда справедлива альтернатив­

ная гипотеза, т. е. гипотеза, конкурирующая с нулевой

гипотезой.

Чем больше эта вероятность, которая часто называется мощностью критерия, тем меньше вероятность совершения ошибки второго рода.

190

При заданном уровне значимости можно рассматривать сле­ дующие критические области (рис. 4.1): 1) область больших поло­ жительных отклонений (/); 2) область больших отрицательных отклонений (II); 3) область больших по абсолютному значению отклонений (III); 4) область малых по абсолютному значению от­

клонений

(IV).

 

 

 

 

Поясним

сказанное

на

О

примере.

Допустим,

нас ин­

сГ

тересует однородность сред­

 

них высот снежного

покро­

 

ва, полученных

по

данным

 

маршрутов,

расположенных

 

в поле и в лесу в пределах

 

однородного физико-геогра­

 

фического района. За уро­

 

вень значимости примем ве­

 

роятность

 

1%.

Исходя

из

 

чисто

логических

соображе­

 

ний,

можно

полагать,

что

 

средняя

высота

снежного

 

покрова в лесу (х{)

больше,

Рис. 4.1. Критические области критерия

чем в поле

( х 2 ) ,

так

как в

(х').

 

лесу ослаблена деятельность ветра, в связи с чем в лесу меньше плотность снега и отсутствует

его передувание. В качестве нулевой гипотезы примем xi = x2,

а в качестве альтернативной X i > x 2. За критическую область в,дан­

ном случае целесообразно принять область больших положитель­ ных отклонений, так как только при этом условии вероятность по­ падания критерия однородности в критическую область будет наи­ большей.

Если выборочное значение критерия попадает в критическую об­ ласть, то нулевая гипотеза неверна, и должна быть принята альтер­ нативная гипотеза. В случаях если величина критерия оказывается в области допустимых значений, то это значит, что при данном эм­ пирическом материале нет оснований опровергнуть нулевую гипо­ тезу и, следовательно, она признается, во всяком случае до тех пор, пока дополнительные данные, полученные в результате наблюде­ ний, не опровергнут ее.

3. критерии оценки однородности средних значений

Изложение критериев однородности средних величин начнем с довольно часто встречающегося случая, когда выборочные сред­ ние распределены по нормальному закону. Это имеет место, когда распределение исходных рядов подчинено нормальному закону или когда имеются довольно продолжительные ряды наблюдений, по­ скольку в этом случае вне зависимости от закона распределения

191

исходных рядов распределение выборочных средних приблизи­ тельно нормально.

Оценим однородность рядов наблюдений, включающих соответ­ ственно пх и п у членов. Предполагается, что эти ряды являются

выборками из нормально распределенной генеральной совокупно­ сти. В таком случае за критерий проверки однородности средних значений можно принять величину (критерий г)

z

У — х

(4.1)

в(7-Г)

Здесь

 

 

 

 

 

(4.2)

где 0Жи ау — средние квадратические отклонения

рассматривае­

мых исходных рядов.

 

 

В качестве нулевой гипотезы естественно принять х = у. Исполь­

зуя в соответствии с исходным условием нормальный закон рас­

пределения, легко получить критические области для у | при

принятом уровне значимости.

В качестве примера сопоставим средние значения превышений поверхности верхового болота (Ламмин-Суо) над условным уров­ нем в грядово-мочажинном и сосново-кустарничково-сфагновом микроландшафтах по данным 900 измерений в каждом микроланд­ шафте.

Средние значения для грядово-мочажинного комплекса оказа­ лись равными х=20,28 м, а для сосново-кустарничково-сфагнового

микроландшафта г/= 10,34 м.

Нулевой гипотезой будем считать х = у, а в качестве альтерна­

тивной примем х ф у . За критическую область принимаем область больших по абсолютному значению отклонений (область III на

рис. 4.1).

Средние квадратические отклонения для сопоставляемых рядов наблюдений равны аж= 8,6 м и оу = 4,6 м. По формуле (4.2) опре­

деляем о ---- ,

<x-v)

я = / w + w ' ^ ' W

S + ' W

24 = 0'33.

а по формуле (4.1) — критерий однородности средних значений

20,28 — 10,34

9,94

= 30.

 

0,33

0,33

 

 

Этот критерий при нулевой гипотезе

х = у

распределен нор­

мально, поскольку рассматриваемые

ряды включают достаточно

большое количество членов (900 измерений). В таком случае, ис­ пользуя таблицу нормального закона распределения и задаваясь

192

уровнем значимости, например, равным 5%, определим область до­ пустимых отклонений, границами которой будут величины норми­ рованных отклонений при нормальном законе распределения и принятом уровне значимости, равную —1,96 и 1,96. Критическая область будет расположена по обе стороны от этих границ (>1,96

и < —1,96). Полученное значение критерия

2 = 30 существенно

больше верхней границы критической области

и, следовательно,

оказывается заключенным в ней. В таком случае нулевая гипотеза должна быть отвергнута и принимается альтернативная гипотеза

хФу.

При использовании рассматриваемого критерия предполагалось, что измеренные величины превышения поверхности болотных мик­ роландшафтов корреляционно не связаны как внутри микроланд­ шафта, так и между ними. Отсутствие корреляционной связи между высотами поверхности разных микроландшафтов следует из общих представленией о формировании рассматриваемого рельефа. Учи­ тывая то обстоятельство, что измерения поверхности микроланд­ шафта производились по профилю достаточно часто (через 10 см), можно было ожидать значительной внутрирядной корреляции вы­ сот поверхности болота, что и подтвердилось расчетами. Поэтому вывод о неоднородности средних высот поверхности разных болот­ ных микроландшафтов, полученный без учета внутрирядной корре­ ляции, следует считать предварительным.

Неравенство средних превышений поверхности болота над ус­ ловным уровнем соответствует принятому в настоящее время физи­ ческому представлению о формировании микроландшафтов на бо­ лотных массивах.

Рассмотренный критерий оценки однородности средних значе­ ний целесообразно использовать при наличии рядов наблюдений, включающих достаточно большое число членов, когда имеется воз­ можность определять средние квадратические отклонения без зна­ чительной ошибки. В случае когда на однородность средних значе­ ний должны проверяться короткие ряды наблюдений, можно ис­ пользовать критерий Стьюдента. Однако при этом необходимо иметь в виду, что применение его правомерно только в том случае, когда равны средние квадратические отклонения генеральных сово­ купностей рассматриваемых рядов: ах= оу= а.

Приемы оценки имеющихся рядов наблюдений в отношении ра­

венства средних квадратических

отклонений их генеральных сово­

купностей рассматриваются

в следующем разделе настоящего

параграфа.

 

 

 

 

Критерий Стьюдента записывается в виде

 

v — х

Г/

пхпу (пх +

пу — 2)

 

4 + V y

V

п X +

(4.3)

V

« у

 

 

Этот критерий подчиняется распределению Стьюдента с числом

степеней свободы,

равным k = nx+ n y — 2.

При проверке нулевой

13 Зак . № 88

193

гипотезы х = у с использованием критерия Стьюдента следует опре­ делять критическую область при q% -ном уровне значимости как

область

больших

по

абсолютному значению отклонений [ \t | >

> t q, ь].

Величина

tqik

определяется из таблицы распределения

Стьюдента, приведенной, например, в работе [89].

Для иллюстрации изложенного рассмотрим вопрос об однород­ ности рядов средних значений годового стока р. Волги у г. Ярос­ лавля до и после (1940 г.) создания водохранилища, осуществляю­ щего сезонное регулирование стока и расположенного выше этого створа. Среднее значение годового стока за первый период (1877—

1940 гг.)

равно л: = 1120 м3/с, за второй период (1941 —1955 гг.)

г/= 1060

м3/с. В качестве нулевой гипотезы примем х = у, а в каче­

стве альтернативной х > у . Средние квадратические отклонения со­

ответственно равны а*= У75600

и

а г/ = У72 100.

Однородность

средних квадратических отклонений

проверена в следующем раз­

деле настоящего параграфа.

 

 

 

 

 

По формуле (4.3) определяем

 

 

 

 

 

/==_______1120 - 1060

1 / 6415 (64 +

1 5 - 2 )

о

_ У 64 • 75 600+ 15 • 72100

'

64 +

15

~

’ ’

По таблице распределения Стьюдента получаем критические

значения tq, и при различных уровнях значимости:

 

 

q % ................................. 5

 

1

 

0.1

 

tq,k .............................. 1.96

2.58

 

3,29

 

Сопоставление величин t и tq,h показывает, что даже при доста­ точно большом уровне значимости, равном 5%, \tq,ь| > \t\, и, сле­

довательно, оцениваемые ряды не могут рассматриваться как неод­ нородные. В таком случае нулевая гипотеза признается, альтерна­ тивная отвергается. За критическую область в данном случйе принималась область больших по абсолютному значению откло­ нений.

Следовательно, Рыбинское водохранилище, осуществляющее сезонное регулирование стока, не оказало влияния на величину среднего годового стока, а имеющиеся различия в средних значе­ ниях за рассмотренные периоды могут быть отнесены за счет слу­ чайных колебаний, свойственных рядам ограниченной продолжи­ тельности.

Рассмотренный выше критерий Стьюдента однородности сред­ них значений относится к числу параметрических, поскольку его использование связывается с необходимостью принятия для рас­ сматриваемой выборки нормального закона распределения.

Из числа непараметрических критериев оценки однородности средних в гидрологических исследованиях получил применение пре­ имущественно критерий однородности Вилькоксона и критерий знаков. Критерий Вилькоксона часто понимают как критерий при-

1 9 4

иадлежности двух выборок к одной и той же генеральной совокуп­ ности. Фактически этот критерий достаточно чувствителен по отно­ шению к выборочным средним и почти не реагирует на изменение выборочных дисперсий. Поэтому точнее рассматриваемый критерий распространять на оценку однородности выборочных средних. Кри­ терий Вилькоксона основан на подсчете числа так называемых ин­ версий, которые выявляются в результате следующей процедуры.

Наблюдения, составляющие две выборки (например, получен­ ные в двух сравниваемых пунктах), располагаются в общей после­ довательности в порядке убывания (или возрастания) их значений, например, в виде

yi-XiX2y2y3y4x 3y5y6x 4,

где xi, ..., Xk — члены, принадлежащие первой выборке; у\, ..., уъ

члены второй выборки.

Если какому-либо значению х предшествует некоторое значение у, то говорят, что эта пара образует инверсию. Так, в рассматри­ ваемой последовательности х\ и х2 образуют по одной инверсии с yi; х3 образует четыре инверсии (с у4, у3, у2 и у i) и х4 дает шесть инверсий (с уе, уъ, уь Уз, Уг и yi). Всего инверсий в данном случае будет и = 1+ 1 + 4 + 6=12. Теоретически доказано, что в однородных

рядах, каждый из которых представлен выборкой объемом не ме­ нее 10 членов, число инверсий распределено приблизительно по нор­ мальному закону с математическим ожиданием

Ми

тп

(4.4)

 

 

и дисперсией

 

 

D u = ^ - (т + п + 1),

(4.5)

где п и т — число членов первой и второй выборки. В качестве ну­ левой гипотезы, учитывая сказанное в начале настоящего раздела относительно возможностей рассматриваемого критерия, примем гипотезу принадлежности выборочных средних к одной генераль­

ной совокупности (х = у ). Теперь необходимо выбрать границу до­

пустимых значений, выделяющую критическую область. Задавшись уровнем значимости <7= 0,1; 1,0; 5% и т. д., выделяем область боль­

ших по абсолютной величине отклонений, вероятность попадания в которую в случае, когда гипотеза однородности верна, в точности равна уровню значимости. Тогда вероятность попадания в область

допустимых значений при справедливости нашей гипотезы будет

Р=(100—?)%. (4.6)

Вероятность р называется уровнем доверительной вероятности. Если значение критерия, вычисленное по данным наблюдений, окажется в критической области, то нулевая гипотеза однородно­ сти бракуется, и с вероятностью Р принимается альтернативная

гипотеза неоднородности.

13*

195

Если же значение критерия окажется в области допустимых от­ клонений от математического ожидания, то можно еще утверждать, что нулевая гипотеза подтверждается.

Критическая область для нулевой гипотезы однородности будет область больших по абсолютной величине отклонений:

и + Mu — tpaa,

(4.7)

м >М и + ^аи,

(4.8)

где cru= yDu; tp — нормированное отклонение

при принятом

уровне значимости q.

 

Отметим, что критерий однородности Вилькоксона отвечает за­ даче сравнения только двух выборок (рядов наблюдений) либо применяется для попарного сравнения выборок в S пунктах наблю­ дений некоторого предполагаемого однородным региона. Известные обобщения этого критерия для случая более двух выборок отлича­ ются большой громоздкостью и сложностью. Стремление к мате­ матической точности сильно усложняет расчет статистики крите­ риев и ее критических значений. Это затрудняет применение таких критериев и делает их малоэффективными. Так, например, крите­ рий Крускала—Уолиса может быть применен только для случая не более трех выборок при объеме этих выборок не более пяти.

Проиллюстрируем использование критерия Вилькоксона для оценки однородности наибольшего в году стока р. Волги у г. Яро­

славля

за

периоды

естественного

 

(1877—1940

гг.)

 

и зарегулиро­

ванного (1941 —1955 гг.) стока.

 

 

 

 

 

воды

за весь период на­

Расположим

максимальные расходы

блюдений в убывающем порядке,

заключая при этом в скобки рас­

ходы воды с 1941 по 1955 г.1:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1160,

1080,

1060,

976,

966,

960,

948,

 

931,

928,

927,

906,

906,

886,

881, 881, 875,

863, 859,

854, 854, 850,

850,

813, 811,

809,

805,

803,

800,

781,

752,

723,

 

716,

694,

683,

669,

666,

662,

659,

638,

 

634,

630,

629,

626, 610, 605, 592, 589,

581,

 

577, 575, 575,

564,

555,

551,

551,

524,

474,

(459),

453,

423,

419,

416,

416,

406,

367,

(330),

(210),

 

(198),

(193),

(188),

(182),

(177),

(163),

(154),

(148),

(140),

 

(133),

(122).

 

 

 

Подсчитаем число инверсий

и= 5 7 • 1+ 64 • 14=953.

По формулам (5.4) и (5.5) рассчитаем Ми и Du:

Mu= 64 g--—=480,

Du= - ^ 2^-(64+ 15+1)=6400,

au= / D + = /6 4 0 0 = 8 0 .

1 Для упрощения подсчетов исходные величины уменьшены в 10 раз.

196

Определим критическую область для нулевой гипотезы, т. е. тождественности распределения средних значений максимального стока р. Волги у г. Ярославля до и после создания Рыбинской ГЭС. Зададимся 1%-ным уровнем значимости и по таблице, приведен­ ной в работе [89], найдем ^р = 2,58 при р = 0,05, так как рассматри­

вается двухсторонняя доверительная граница. Согласно уравне­ ниям (4.7) и (4.8), получим критические области для

480 -2,58 • 80=274,

480 + 2,58 • 80=686.

Полученное значение и= 953 лежит в критической зоне, и по­ этому выборочные средние максимального стока до и после созда­ ния Рыбинской ГЭС относятся к различным генеральным совокуп­ ностям.

Оценку принадлежности двух выборочных средних к одной ге­ неральной совокупности можно произвести по критерию знаков. Так же, как в предыдущем случае, за нулевую гипотезу примем принадлежность выборочных средних распределения двух иссле­ дуемых рядов к одной генеральной совокупности. В таком случае разности Хг yi = Ri, в которых учитывается лишь их знак, дол­

жны быть распределены симметрично около нуля. Вероятность по­ явления знака плюс или минус одна и та же и равна '/г. Следова­ тельно, уклонение наблюденных разностей (с учетом лишь их знака) от !/г будет указывать на невыполнение нулевой гипотезы. Критическое значение для наименьшего числа случаев положитель­

ных или отрицательных уклонений определяется по формуле

/

n N. * = - ^ ^ - k V N + \ ,

(4.9)

где N — число членов сравниваемых рядов; k — величина, опреде­

ляемая по специальной таблице в соответствии с принятым уровнем значимости [89].

Практическое использование данного критерия довольно про­ сто. Однако необходимо отметить, что он не полностью использует всю информацию, заключающуюся в рядах наблюдений, так как учитывает лишь знак разности двух величин. Его достоинством яв­ ляется отсутствие каких бы то ни было ограничений о законах рас­ пределения исследуемых рядов и его простота. При использовании данного критерия сопоставляемые ряды должны иметь одинаковый объем наблюдений.

Сопоставим данные о высоте снежного покрова с точки зрения

их однородности, используя при этом критерий знаков.

поле и

При снегомерной съемке, проведенной одновременно в

в лесу, были измерены высоты снежного покрова в 102

точках.

Сравнение этих рядов показало, что в 26 случаях высота снежного покрова в поле была больше, чем в лесу + + + ), а в 76 случаях — меньше +г (—).

197

По формуле (4.9) определяем критическое значение для мень­ шего числа случаев (26)

mNtk= 1022~ ------

0,98+102 + 1 ^ 4 1 .

Вслучае неоднородности

+( ± ) < m /v, к.

апри однородности рядов

k v { ± ) > m N<ft.

В рассматриваемом примере kN ( + )= 26, a mNt = 41, следова­

тельно, рассматриваемые ряды высот снежного покрова в поле и лесу неоднородны.

Сколько-нибудь подробно на других непараметрических крите­ риях однородности не останавливаемся, так как довольно полное их изложение приведено в работе [137]. Здесь же лишь подчерк­ нем, что многочисленные критерии однородности, как правило, при­ водят к одним и тем же выводам, так как они во многом взаимоза­ висимы. Одни из этих критериев более эффективны за счет более полного использования исходной информации и наложения допол­ нительных условий на исходные данные (параметрические крите­ рии), другие менее эффективны, но зато более просты и, что самое главное, менее требовательны к условиям, накладываемым на ис­ ходную информацию (непараметрические критерии). Систематиче­ ское и достаточно полное изложение критериев однородности при­ водится, например, в книге Ван дер Вардена [31].

В практике гидрологических исследований довольно часто тре- - буется оценить однородность большого числа средних выборочных значений для обоснования, например, правомерности объединения подобных выборок в одну совокупность.

В таких случаях, кроме определения однородности средних зна­ чений, требуется оценить однородность коэффициентов вариации и асимметрии.

В данном же случае решается вопрос, насколько существенны расхождения между выборочными средними, или они могут быть объяснены лишь случайными колебаниями средних значеций за счет ограниченности выборок.

В качестве критерия используем отношение, которое распреде­ лено по закону Стьюдента с числом степеней свободы k — n — 2

, Ут / ' ” (« -2 )

(4.10)

У п — т — ту2т

где ут= — ‘+ —-; хт— среднее выборочное значение по т наблю­

дениям, наиболее уклоняющееся от среднего значения всей объеди-

198

ненной совокупности; х — среднее значение всей совокупности k

из п наблюдений; n = 2 ] mt.' сг— среднее квадратическое отклоне-

1

ние по всей совокупности данных.

Для характеристики однородности средних выборочных значе­

ний хт обычно выбирают наибольшее значение ут, и если пара­ метр t при данном ут попадает в область допустимых значений при

данном уровне значимости q, то все выборочные средние хт при­

знаются однородными. В противном случае это наибольшее зна­ чение признается неоднородным по отношению ко всей совокупно­ сти данных, и при необходимости исследуется на однородность следующее наибольшее значение хт.

Применение рассматриваемого критерия для оценки однородно­ сти нескольких рядов требует предварительной оценки однородно­ сти дисперсий.

В качестве примера рассмотрим однородность рядов, характери­ зующих запас воды в снежном покрове на лесных участках в бас­ сейне р. Шелони, измеренных на пяти маршрутах. На каждом мар­ шруте измерения производились в восьми точках.

Средние значения запасов воды в снеге на каждом маршруте и дисперсии приведены в табл. 4.1.

Т а б л и ц а 4.1

Средние значения и средние квадратические отклонения запаса воды в снеге по маршрутам

М арш рут.......................

1

2

3

4

. 5

Среднее значение xi, мм

113

104

107

95

102

ДиСПерСИЯ 0г8, мм2 . .

590

718

967

676

1129

Общее среднее значение для всей совокупности, по (1.6), равно

104 мм.

Общая дисперсия может быть определена по формуле (1.18) вида

 

/= k

 

k

_ _

 

 

2 « ?

 

2

(■*/ — -Тобщ)^

2

__ i = 1

 

— ----т ~——— = 850 мм2.

^общ—

 

Определим величину

 

 

 

 

 

Х\ Хпг

113 -104

=0,30,

 

У т

аобщ

 

29

 

 

 

 

икритерий Стьюдента

,0,30 у 5 (40 - 2)

/ 4 0 - 5 - 5 • 0.302

199

Соседние файлы в папке книги из ГПНТБ