
книги из ГПНТБ / Рождественский, А. В. Статистические методы в гидрологии
.pdfПлощадь отдельного элемента гистограммы равна произведе нию размера градации на относительную частоту, а общая площадь гистограммы — сумме этих произведений.
Кумулятивная кривая представляет собой график, показываю щий повторяемость расходов воды выше заданного значения.
Допустим, нас интересует, как часто наблюдается среднегодо вой расход воды выше 1900 м3/с? При этом расходе снимаем с куму лятивной кривой значение повторяемости, равное 44,5%. Это зна чит, что величина расхода воды 1900 м3/с и больше наблюдается в 44,5% всех случаев. Если же нас будет интересовать вопрос, ка кова повторяемость непревышения данного расхода воды, то ответ на него будет: 100% — 44,5% =56,5%.
В гидрологии кривая относительных накопленных частот назы вается эмпирической кривой обеспеченности. И поэтому говорят,
что величина расхода воды, равного или больше 1900 м3/с, обеспе чена на 44,5%, а величина расхода воды 1900 м3/с и меньше — на
56,5%.
Разделив относительную (или абсолютную) частоту расхода воды на длину интервала, получим соответственно относительную (или абсолютную) плотность распределения (строки 5 и 6 табл. 1.2). Плотность распределения особенно целесообразно использовать, когда необходимо по тем или иным причинам принимать неравно мерные градации. Площадь, оконтуренная осью абсцисс и линией, характеризующей относительную плотность распределения, равна единице, если относительные частости определены в долях от еди
ницы, или равна 100%, если относительные частости |
выражены |
в процентах от общего числа случаев. |
описания |
Рассмотрим еще один пример. Для статистического |
поверхности сфагново-кустарничково-соснового болотного микро ландшафта был назначен профиль, по которому через 10 см опре делялось превышение поверхности болота над условным уровнем.
Результаты этих наблюдений (по данным П. К. Воробьева) по мещены в табл. 1.3, в которой также приведены рассчитанные эмпи рические кривые распределения.•
Относительные частоты, или, как их иногда называют, относи тельные частости, на рис. 1.2 отнесены к середине интервала, и по лученные точки соединены прямыми линиями. Подобное представ ление статистических данных называется полигоном (многоуголь ником) распределения (частот). Наиболее часто повторяются
превышения поверхности болота над уровнем грунтовых вод,'-соста вляющие 15—20 см. Кривая обеспеченности построена так же, как и в предыдущем примере.
Из приведенного на рис. 1.2 полигона частот следует, что по обе стороны от этого значения относительные частоты убывают.
Приведенные построения показывают, что уже основные элемен тарные обобщения позволяют представить исходные статистиче ские данные в более наглядной и компактной форме. Одновременно можно отметить, что рассмотренные формы обобщения статистиче ского материала, относящегося к существенно различным гидроло
30
гическим характеристикам, позволяют обнаружить некоторые об щие статистические закономерности. Вместе с тем распределение годовых расходов воды и высот поверхности болот имеют свои ин дивидуальные особенности, которые могут быть описаны с помо-
н см
Рис. 1.2. Полигон распределения и кривая накопленных частот высот микроландшафта (Н) болота Ламмин-Суо.
щью использования некоторых дополнительных понятий, к рассмот рению которых и перейдем.
§ 3
понятие вероятности
Наиболее абстрактное и вместе с тем наиболее полное понятие вероятности дано А. Н. Колмогоровым; оно основано на пяти аксио мах, базирующихся на теории множеств. Не останавливаясь на ак сиоматике Колмогорова, так как при этом потребовалось бы допол нительно изложить некоторые понятия теории множеств, перейдем
краскрытию смысла понятия вероятности по схеме Колмогорова.
1.Предположим, что имеется совокупность условий S, которая
может повторяться бесконечное число раз. Под условием S будем, например, понимать факторы, формирующие наибольший в году расход воды, которые с течением времени протекают однородно, т. е. не обнаруживают направленных изменений во времени.
2.Под воздействием условий S формируется в нашем случае совокупность максимальных расходов воды (<3Ма к с ) за достаточно
длительный период времени.
31
Т а б л и ц а 1.3
Сгруппированные данные высот поверхности болотного микроландшафта
|
интервалы высот поверхности болот над нижней границей зоны |
|||||||
Характеристика |
|
|
|
микрорельефа |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 2 - 3 1 |
3 0 — 29 |
2 8 - 2 7 |
2 6 — 25 |
2 4 - 2 3 |
2 2 - 2 1 |
2 0 - 1 9 |
18— 17 |
Повторяемость |
2 |
8 |
9 |
9 |
32 |
80 |
146 |
136 |
(число случаев) |
||||||||
Повторяемость |
0,22 |
0,89 |
1,0 |
1,0 |
3,54 |
8,86 |
16,2 |
15,1 |
(%) |
||||||||
Обеспеченность |
2 |
10 |
19 |
28 |
60 |
140 |
286 |
422 |
(число случаев) |
||||||||
Обеспеченность |
0,22 |
1,11 |
2,11 |
3,11 |
6,64 |
15,5 |
31,7 |
46,7 |
(%) |
||||||||
|
И н тервалы |
высот поверхности |
болот над |
ниж ней |
гран и ц ей зоны |
|||
Х а р а к т е р и с т и к а |
|
|
|
м и крорельеф а |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 6 - 1 5 |
1 4 - 1 3 |
1 2 - 1 1 |
10— 9 |
8 — 7 |
6 - 5 |
4 — 3.. |
2 - 1 |
Повторяемость |
144 |
133 |
99 |
56 |
33 |
13 |
2 |
1 |
(число случаев) |
||||||||
Повторяемость |
15,9 |
14,7 |
10,96 |
6,20 |
3,65 |
1,44 |
0,22 |
0,11 |
(%) |
||||||||
Обеспеченность |
566 |
699 |
798 |
854 |
887 |
900 |
902 |
903 |
(число случаев) |
||||||||
Обеспеченность |
62,7 |
77,4 |
88,4 |
94,6 |
98,2 |
99,7 |
99,9 |
100 |
(%) |
3. При соблюдении некоторых условий каждому расходу воды, который мог наблюдаться или не наблюдаться за время п лет, мо жно ассоциировать определенное вещественное число P(QMакс), на зываемое вероятностью появления рассматриваемой величины.
Число P(Qмакс) имеет следующие свойства:
1) при повторении условий S достаточно большое число раз от-
ГП ~
носительная частота — расхода Умакс в заданных интервалах бу
дет незначительно отличаться от вероятности P(QMакс) - Здесь пг обозначает число случаев появления расхода QManc в п повторениях условий S;
2) если значение вероятности P(QMaKC) очень мало, то с очень небольшим риском можно утверждать, что при однократном осу ществлении условий S данное значение QMaKc не должно появиться.
Классическое определение вероятности о.сновано на принципе равных возможностей. При этом обычно приводятся ставшие уже тоже классическими примеры с подбрасыванием монеты (выпаде ние «орла» или «решки») и игральной кости (выпадение какой-либо стороны из шести возможных). В первом случае вероятность выпа дения «орла» или «решки» равна 1/г, а во втором случае вероят
32
ность выпадения какой-либо стороны игральной кости равна 7вБезусловно, здесь подразумеваются геометрически правильные и однородные монеты и игральные кости.
ч,., Принцип равных возможностей в гидрологических наблюдениях
если и выполняется, то очень редко. В таких случаях априорное, дропытное, определение вероятности появления какого-либо собы тия становится невозможным. Оно может быть оценено на основе эмпирического, или частотного, определения вероятности, которое является более общим и включает в себя как частный случай клас сическое определение вероятности.
Эмпирической вероятностью некоторого события А называется
дробь, числителем которой является число случаев появления собы тия А, а знаменателем — общее число случаев, принадлежащих
к некоторому определенному классу стохастических испытаний. При увеличении числа испытаний до бесконечности эмпириче
ская вероятность стремится как к своему пределу к теоретической вероятности. Действительно, если мы будем подбрасывать монету, допустим, 10 раз, то совершенно не обязательно 5 раз выпадет «орел» и 5 раз — «решка». В таком случае эмпирическая вероят ность не будет равна 72. Если же число подбрасываний монеты по следовательно увеличивать, то очевидно, что эмпирическая вероят ность все ближе и ближе будет стремиться к 7г, т. е. к своему тео ретическому пределу.
При изучении статистических совокупностей гидрологических величин заранее не известна теоретическая вероятность. Поэтому в качестве оценки теоретической вероятности обычно используется эмпирическая вероятность, которая тем ближе к теоретической, чем больше объем наблюдений (совокупности).
Эмпирическая вероятность события А, обозначаемая через Р(А), равна т/п, т. е.
где т — число случаев, благоприятствующих событию А, п — общее
число рассматриваемых случаев (объем совокупности). Эмпириче ская вероятность события, противоположного А, обозначаемая че
рез Р(А), равна
Р (А ) = - ^ - = 1 -Р (А ) .
Очевидно, что Р(А)+ Р(А ) = 1. Вероятность появления события изменяется от 0 до 1, т. е. О ^ Р (Л) ^ 1. Иногда вероятность появле
ниярассматриваемого события выражают в процентах. В этом слу чае пределами ее колебаний будут соответственно 0 и 100%. Веро ятность достоверного события равна единице, а вероятность невоз можного события равна нулю.
Представленная на рис. 1.1 гистограмма распределения средне годовых расходов воды р. Днепра у пгт Лоцманской Каменки мо жет рассматриваться как распределение эмпирической вероятности,
3 За к. № 88 |
33 |
так как понятие относительной частоты расхода воды в пределах градации является в данном случае синонимом понятия эмпириче ской вероятности.
С возрастанием объема совокупности, т. е. в данном случае с увеличением числа лет наблюдений за годовым стоком р. Днепра, можно уменьшить размер градации. Если число членов ряда стре мится к бесконечности, а размеры градации — к нулю, получим пре дельное очертание гистограммы распределения, соответствующее
теоретической кривой распределения вероятностей. При переходе
р(х) |
D ( X ) |
-х
Рис. 1.3. Различные типы кривых распределения.
/ — си м м е т р и ч н а я , |
I I — у м ер ен н о а с и м м е т р и ч н а я , |
/ / / — к р а й н е а с и м м е т р и ч н а я . |
|
I V — U -о б р а з н а я . |
|
к пределу площадь, ограниченная кривой распределения вероятно стей и осью абсцисс, стремится к единице, ибо эта площадь равна вероятности того, что данная случайная величина примет какое бы то ни было из своих значений, т. е. вероятности достоверного со
бытия.
В зависимости от особенностей формирования статистических совокупностей формы графиков гистограмм и соответственно кри вых распределения вероятностей могут быть разнообразными. Среди так называемых одновершинных графиков распределений можно
выделить следующие главные типы: 1) симметричные, 2) умеренно асимметричные, 3) крайне асимметричные и 4) U-образные
(рис. 1.3).
Симметричными распределениями называют такие, в которых
частоты (вероятности) любых двух значений аргумента, находя^ щиеся на равных расстояниях в обе стороны от некоторого среднего значения, равны между собой.
34
Несимметричными, или асимметричными, распределениями на
зывают такие, в которых частоты аргументов, удаленных от некото рого среднего значения с одной стороны систематически больше или меньше частот аргументов, равноудаленных с другой стороны от среднего значения.
Ккатегории распределений с крайней асимметрией относятся те,
укоторых наибольшую частоту имеет наибольшее или наименьшее значение аргумента, так что все частоты распределения располо жены по какую-либо одну сторону от наибольшей частоты.
U-образное распределение характеризуется наличием в нем не
которой средней зоны, в пределах которой частоты меньше осталь ных, возрастающих в обе стороны от этой зоны к концам распре деления.
В гидрологии наибольшее применение имеют умеренно асиммет ричные, симметричные и реже крайне асимметричные распреде ления.
При гидрологических расчетах часто возникает необходимость аналитически описать эмпирическую кривую распределения вероят ностей, для чего используются различные законы распределения случайных величин, рассмотренные в главе II. В качестве парамет ров, описывающих статистические закономерности рядов гидроло гических характеристик и соответственно аналитические кривые распределения, используются средние значения (среднее арифмети ческое, медиана и мода), меры рассеивания (средние квадратиче ские отклонения или средние абсолютные отклонения), различные показатели асимметрии, эксцесса и др. Эти параметры статистиче ских совокупностей рассмотрены в следующих параграфах.
§ 4
средняя арифметическая и ее свойства, математическое ожидание
Одним из основных параметров статистического ряда является среднее значение величины признака, или центр, относительно ко торого распределяются члены совокупности. Этот параметр или са мостоятельно, или в комбинации с другими рассматриваемыми да лее характеристиками статистического ряда наиболее часто исполь зуется для описания статистических закономерностей отдельных совокупностей.
Помимо средней арифметической, в качестве характеристик цен тра распределения используется медиана, мода, средняя гармониче ская и средняя геометрическая, рассматриваемые в следующих па раграфах.
Среднее арифметическое ряда величин х определяется по фор
муле
П |
|
х = — (хх-\-х2-\- . . . -\-хп) = — 2 |
0*1) |
/ = 1 |
|
з* |
35 |
Вычисление средних при сгруппированных данных измерений обычно осуществляется по выражению
к |
|
2 п1х 1 |
к |
Х= ~ Ч -------= _ 7Г 2 |
(1-2) |
|
2 ^ |
‘ =1 |
|
1= 1 |
|
|
где k — число градаций; я* — абсолютная |
частота градации; х*— |
|
середина интервала. |
|
|
Расчет средней арифметической по формуле (1.2) значительно упрощает и сокращает объем вычислений, особенно при больших п.
При этом подразумевается равномерное распределение варьирую щего признака внутри градации, что тем более верно, чем меньше величина градации. При малых объемах выборки, какими обычно являются гидрологические ряды наблюдений, предпочтительней пользоваться исходной формулой (1.1), и лишь при очень большом объеме наблюдений вычисление средней целесообразно осущест влять по сгруппированным данным (1.2).
|
|
h |
можно |
Учитывая равенства щ/п = Рг и п — 2 пг, формулу (1.2) |
|||
легко преобразовать к виду |
|
к |
|
|
|
|
|
* = |
i |
2 PiXi’ |
(1.з) |
|
=1 |
|
где Pi — относительная частота, или эмпирическая вероятность.
Средняя арифметическая всегда имеет ту же размерность, что и измеряемая величина, по которой она рассчитана.
Рассмотрим основные свойства средней арифметической.
1. Сумма отклонений всех наблюденных данных от средней арифметической равна нулю
П
2 (•*« ~ -*)=0. |
(1.4) |
i= i |
|
Это свойство средней арифметической обычно используется при проверке правильности расчета отклонений наблюденных данных от средней арифметической.
2. Сумма квадратов отклонений членов ряда от центра, выра женного в форме средней арифметической, достигает минимума по сравнению с аналогичной суммой, вычисленной относительно лю
бого числа аФх,
П
5 = 2 (х 1 ~ ->с)2= min. |
(1.5) |
/= 1
3.Средняя арифметическая ряда, полученного путем объедине ния нескольких однородных статистических групп, образуется как
36
среднее взвешенное значение частных средних, включенных в рас чет с весами, равными объемам соединяемых совокупностей
т
2 nb*k
----------. |
( 1.6) |
21 пь
*=1
Это свойство среднего арифметического можно использовать при вычислении среднегодовых величин гидрологических характеристик по среднемесячным их величинам. Учитывая неодинаковое число дней в каждом месяце, среднегодовое значение необходимо опреде лять как среднее взвешенное по числу дней в каждом месяце. Од нако, принимая во внимание небольшое изменение числа дней по месяцам (от 28 до 31), получаем, что в данном случае простая сред няя арифметическая, вычисленная из средних месячных значений, незначительно будет отличаться от средней взвешенной по числу дней в месяце. В случае же большого различия объемов объединяе мых совокупностей определение общей средней необходимо произ водить с учетом веса (объема) каждой частной совокупности.
Средняя арифметическая применительно к любому ряду варьи рующей величины сохраняет смысл статистического параметра. Од нако, если по отношению к совокупности переменной величины, по самой ее сущности не имеющей одного постоянного значения, роль средней арифметической этим и ограничивается, то применительно к такому случаю, когда статистический ряд образуется за счет из менения некоторой величины, имеющей, в принципе, постоянное значение, среднее арифметическое может рассматриваться и как приближенное значение этой величины. Например, в отношении со вокупности средних годовых, максимальных, минимальных и других характерных расходов воды величина среднего арифметического может рассматриваться лишь в качестве статистического параметра, поскольку в данном случае рассматриваются величины, принци пиально не имеющие какого-либо постоянного значения.
Аналогичным образом среднее значение расходов воды, изме ренных в период неустановившегося режима, например в пределах ветви подъема весеннего половодья, нельзя рассматривать как не которое приближение к истинному значению.
В качестве другого примера можно рассмотреть случай измере ния расхода воды в реке в период устойчивой межени, когда вели чина расхода не изменяется в течение этого периода.
Часто повторяя измерения, получаем совокупности величин, средняя арифметическая которых будет выступать и в качестве ста тистического параметра этого ряда и в форме наилучшего прибли жения к истинному значению расхода воды за рассматриваемый отрезок времени,-
Отмеченное свойство средней арифметической используется, на пример, при оценке боковой приточности на участке реки по разно сти расходов воды, измеренных в двух гидрометрических створах.
37
При небольшом расстоянии между створами измерений эта раз ность оказывается соизмеримой с величиной погрешности измере ния расхода воды, и поэтому ненадежной. Для увеличения надеж ности подобных оценок расход воды в каждом створе обычно изме ряется несколько раз в течение сравнительно короткого отрезка времени, в пределах которого истинное изменение расхода можно считать несущественным. В этом случае среднее арифметическое в каждом створе выступит в форме наиболее вероятного значения истинной величины расхода воды, а разность между ними — как достаточно надежная величина боковой приточности.
Очевидно, что в той мере, в какой условия формирования рас хода воды уклоняются от стационарности, указанные выводы те ряют свое значение. При оценке возможностей указанного приема следует, конечно, иметь в виду, что точность полученного среднего не может быть выше точности применяемых приемов измерения и точности используемой аппаратуры.
Вычисление средней арифметической по формулам (1.1) или (1.2) обычно не вызывает никаких затруднений, и поэтому приве дем лишь результаты окончательных расчетов. Так, средняя ариф метическая из ряда среднегодовых расходов воды р. Днепра у пгт Лоцманской Каменки, вычисленная по формуле (1.1), равна 1642 м3/с, а вычисленная по формуле (1.2) — 1651 м3/с. Как видно, расчеты средней арифметической по этим формулам практически
совпали, что связано со значительным объемом |
наблюдений — |
|
145 лет. |
|
грунтовыми во |
Среднее превышение поверхности болота над |
||
дами, рассчитанное по формуле (1.2), равно 16,06 см. |
||
При больших объемах вычислений в настоящее время средняя |
||
арифметическая, |
так же как и другие параметры |
статистических |
рядов, обычно |
рассчитывается на ЭВМ. Учитывая ограниченную |
длительность гидрологических рядов наблюдений, которые не мо гут быть увеличены по желанию гидролога путем проведения, до пустим, дополнительного эксперимента, в гидрологических расчетах обычно осуществляется приведение средней арифметической,
полученной по |
ограниченной выборке |
наблюдений, |
к длитель |
ному периоду. |
Способы и методы такого |
приведения |
изложены |
в главе VI.
Приведенное к длительному периоду значение средней арифме тической по ряду многолетних наблюдений той или иной гидрологи ческой характеристики в гидрологии называется нормой.
Если в процессе формирования речного стока начинает действо вать какой-то неучтенный фактор, например хозяйственная дея тельность на водосборе реки, то его следует учесть и соответственно уточнить среднюю арифметическую предстоящего периода — пе риода эксплуатации сооружения.
Дополнительные свойства среднего арифметического значения выборки, полученной из некоторой генеральной совокупности, бу дут рассмотрены в главе V. Здесь же лишь отметим, что выбороч ная средняя статистического ряда наблюдений при неизменности
38
условий его формирования и при увеличении числа членов выборки стремится к средней генеральной совокупности, или к математиче скому ожиданию.
Таким образом, среднее арифметическое значение статистиче ского ряда наблюдений представляет собой параметр, около кото рого осуществляются колебания данного статистического ряда, или, как часто говорят, параметр центра группирования статистических данных.
Вообще говоря, понятие математического ожидания при менительно к гидрологическим приложениям является математиче ской абстракцией, так как гидрологических рядов наблюдений бес конечной длины не существует. Кроме того, исходя из физических или генетических соображений формирования речного стока, также нельзя установить математическое ожидание. Условность термина математического ожидания усугубляется еще и тем, что в природе, вообще, и в колебаниях речного стока, в частности, известны на правленные изменения. Поэтому, говоря о математическом ожида нии, например годового стока, в инженерных расчетах обычно под разумевается средняя арифметическая не на бесконечном отрезке времени, а на несколько десятков или сотен лет. В таком случае, строго говоря, вообще нельзя употреблять термин «математиче ское ожидание».
§ 5
медиана
Следующей по важности характеристикой центра группирова ния после средней арифметической является медиана, которая
равна значению члена варьирующего ряда, занимающего среднее положение в том случае, когда величины, образующие ряд, распо ложены в убывающем или возрастающем порядке.
Если число членов ряда Xi нечетное и равно 2 т + 1 , то медианой этого ряда будет xm+i член ранжированных (расположенных в убы
вающем или возрастающем порядке) данных наблюдений, т. е.
М е = л т+1. |
(1.7) |
Если же число членов ряда хгчетное, |
т. е. 2т, то за ме |
диану условно принимается среднее значение между центральными значениями величин ранжированного ряда
M e= -g- (■хт-\-хт + т). |
(1-8) |
Определение медианы по эмпирическим данным обычно не вы зывает затруднений, особенно при небольшой длине ряда наблюде ний. Действительно, для этой цели необходимо лишь расположить ряд в убывающем (или возрастающем) порядке и выбрать средин ный член, в случае нечетного числа членов ряда, или два срединных члена (вычислив из них среднее значение) в случае четного числа
39