- •Глава 3. Теория вероятностей и математическая статистика в экологических исследованиях
- •3.1. Случайные величины и их характеристики
- •3.1.1. Определения и обозначения
- •3.1.2. Дискретные и непрерывные случайные величины
- •3.1.3. Общая характеристика законов распределения
- •3.1.4. Числовые характеристики случайных величин
- •3.1.5. Свойства числовых характеристик случайных величин
- •3.1.6. Нормированная (стандартизованная) случайная величина
- •3.2 Системы случайных величин и их характеристики
- •3.2.1. Общая характеристика законов распределения системы случайных величин
- •3.2.2. Зависимость между случайными величинами
- •3.3. Математическая статистика в геоэкологических исследованиях
- •3.3.1. Основные задачи математической статистики
- •3.3.2 Генеральная совокупность и выборка
- •3.3. Статистические характеристики
3.3. Статистические характеристики
Имеющиеся ряды наблюдений необходимо представить в наиболее наглядном виде и каким-то образом охарактеризовать. В статистике разработан ряд достаточно простых и наглядных характеристик. При использовании их необходимо иметь в виду, что так как исходные ряды наблюдений являются выборочными, то и их характеристики также должны быть выборочными или статистическими. Естественно, что эти характеристики в той или иной мере могут отличаться от действительных характеристик, полученных по рядам бесконечной продолжительности (см. разд. 3.1).
Статистический ряд
Статистический ряд —первичная форма записи статистического' материала xi ( i=1, 2, . . ., п) в виде таблицы из двух-трех строк или колонок.
В первой строке или колонке таблицы указывают номер члена ряда, во второй — календарный срок или какую-то другую характеристику наблюдений (можно опустить), в третьей — в календарной последовательности располагают значения исходного ряда наблюдений. В табл. 3.1 в качестве примера представлен статистический ряд измеренных значений БПК5 в мг/л
по р. Великой.
Таблица 3.2.
Статистический ряд измеренных значений БПК5 в мг/л
река Великая, г.Псков, верхний створ, за 1995 и 1996 г.
Номер п/п |
Дата |
БПК5 |
Номер п/п |
Дата |
БПК5 |
Номер п/п |
Дата |
БПК5 |
1 |
24.01.95 |
2,1 |
8 |
4.08.95 |
3,6 |
15 |
3.05.96 |
1,9 |
2 |
22.02.95 |
4,0 |
9 |
28.09.95 |
0,8 |
16 |
10.06.96 |
3,7 |
3 |
17.03.95 |
3,4 |
10 |
30.10.95 |
1,0 |
17 |
12.07.96 |
2,1 |
4 |
26.04.95 |
0,9 |
11 |
22.11.95 |
1,9 |
18 |
21.08.96 |
2.4 |
5 |
25.05.95 |
2,2 |
12 |
13.02.96 |
1,2 |
19 |
23.09.96 |
1,1 |
6 |
22.06.95 |
1,3 |
13 |
29.03.96 |
2,5 |
20 |
11.10.96 |
1,0 |
7 |
27.07.95. |
3,0 |
14 |
24.04.96 |
0,9 |
21 |
13.11.96 |
2,2 |
Для более наглядного представления материала по данным статистического ряда строится график последовательности значений рассматриваемой величины во времени или пространстве. Таким графиком является, например, гидрограф стока (рис. 3.6 ), показывающий изменение стока во времени.
Рис. 3.6. Гидрограф (а), гистограмма (б) и эмпирическая кривая обеспеченности (в) годового стока р. Кама – г. Пермь.
По этому графику можно составить определенное представление
о рассматриваемом процессе: об амплитуде его колебаний, тенденции изменений среднего значения и размаха колебаний, регулярности наблюдений и т.д.
Статистическая совокупность. Гистограмма (статистический многоугольник распределения)
Одной из основных задач статистической обработки материалов наблюдений является определение вероятности того или иного значения или диапазона значений случайной величины. Приближенное представление об этой вероятности можно получить с помощью специальной таблицы. Для построения ее необходимо подсчитать количество наблюдений тj, попадающих в тот или иной заранее заданный j-й интервал (группу) возможных значений данной случайной величины, и рассчитать частоту pj = mj/n попаданий наблюденных величин в каждый j-й интервал, где n – период наблюдений.
Статистическая совокупность – совокупность групп, на которые разбивают значения исследуемой случайной величины, и частот попадания данных наблюдений в каждую группу (табл. 3.3).
Графическое изображение статистической совокупности называется гистограммой или статистическим многоугольником.
Таблица 3.3.
Статистическая совокупность измеренных значений БПК5 в мг/л
река Великая, г.Псков, верхний створ, за период наблюдений с 1995 по 1998 г.
Группа |
0,6-1,1 |
1,1-1,6 |
1,6-2,1 |
2,1-2,6 |
2,6-3,1 |
3,1-3,6 |
3,6-4,1 |
m |
7 |
13 |
6 |
5 |
4 |
2 |
3 |
|
0,18 |
0,33 |
0,15 |
0,13 |
0,10 |
0,05 |
0,08 |
Для построения гистограммы по оси абсцисс последовательно откладывают границы групп или интервалов исследуемой величины. На каждом из этих интервалов, как на основании, строят прямоугольник высотой р. Последовательность полученных прямоугольников, сумма высот которых равна 1, и представляет собой гистограмму (см. рис. 3.9.б).
Гистограмма позволяет сделать ряд достаточно определенных предположений об имеющемся ряде наблюдений: об амплитуде колебаний относительно средних значений, о наиболее вероятных значениях, симметричности колебаний относительно среднего значения, характере изменений частоты с изменением длин интервалов значений и т. д.
Согласно
теореме Бернули, при неограниченном
увеличении числа опытов частота события
xi
≤
X
<
xi+1
сходится
по вероятности к вероятности этого
события
,
т. е.
(3.66)
Отсюда, соединяя точки вершин прямоугольников, соответствующие средним значениям интервалов, получим приближенный график плотности вероятности тем более точный, чем ближе n к N и чем больше количество интервалов взято в расчет.
Следует отметить, что результаты анализа ряда наблюдений по гистограммам в некоторой степени зависят от числа групп или интервалов. Чрезмерное увеличение числа групп при ограниченном материале наблюдений приведет к истощению информации о каждой группе в отдельности и большим погрешностям в определении частоты ее значений. Уменьшение числа групп приведет к излишней схематизации анализа.
На основании имеющегося опыта обычно рекомендуется выбирать число групп таким, чтобы среднее число точек наблюдений в группе было не меньше семи-восьми. Иногда для определения числа групп или интервалов используется формула
K = 5 lg n , (3.67)
где n – число членов ряда.
Эмпирическая (статистическая) функция распределения и функция обеспеченности
Эмпирическая (статистическая) функцией распределения F(X) случайной величины X – закон изменения частоты события X < х в данном статистическом материале (выборке)
(3.70)
где =т/п— частота события X < х; т — число событий X < x в данной выборке.
В практике часто (см. разд. 3.1.3) используется обратное соотношение X и х. Преобразованная таким образом функция называется эмпирической функцией обеспеченности:
(3.71)
где
—
в
данном
случае частота событий X
х.
Графическое изображение эмпирической функции обеспеченности называется эмпирической кривой обеспеченности ( рис. 3.6 б).
При п→∞
эмпирическая
обеспеченность
сходится по
вероятности к действительному значению
обеспеченности Р
[см. формулу
(3.66)], где Р
— вероятность
события X
< х
или X
≥ х
и, следовательно,
(х)
сходится к
F(x)
и
(х)
к Р(х).
Из формулы (3.71) следует, что для расчета эмпирической функции обеспеченности необходимо для каждого данного значения случайной величины ζj (j = 1, 2, .. ., k) сосчитать число опытов mj в которых случайная величина X приняла значение большее или равное ζj, и разделить на общее число опытов п.
В табл. 3.4 представлен расчет эмпирической функции обеспеченности. В верхней строке таблицы указана нижняя граница этой группы, затем число случаев т, когда значения X больше или равны нижней границе интервала. В нижней строке по формуле (3.71) дана частота события X ≥ х. По данным этой таблицы построен график эмпирической функции обеспеченности (см. рис. 3.6.в).
Таблица 3.4.
Расчет эмпирической функции обеспеченности измеренных значений БПК5 в мг/л , река Великая, г.Псков, верхний створ, за период наблюдений с 1995 по 1998 г.
Нижняя гра-ница группы |
0,6 |
1,1 |
1,6 |
2,1 |
2,6 |
3,1 |
3,6 |
4,1 |
m |
40 |
33 |
20 |
14 |
9 |
5 |
3 |
0 |
|
1 |
0,82 |
0,50 |
0,35 |
0,22 |
0,12 |
0,08 |
0 |
Однако построения на основе статистической совокупности дают удовлетворительные результаты только в том случае, когда имеющийся объем выборки достаточен для детального освещения частоты каждого интервала значений. Как отмечалось выше, для этого требуется, чтобы в каждом интервале было не менее семи-восьми точек наблюдений. Продолжительность рядов обычно недостаточна для таких построений. Кроме того, в большинстве случаев потребителей интересует обеспеченность экстремальных значений гидрологических характеристик, а при построении указанным способом эти данные получить невозможно. Поэтому в практике для расчета эмпирической кривой обеспеченности применяется другой прием, заключающийся в ранжировании исходного ряда наблюдений путем расположения его значений в убывающем порядке. При этом принимается, что каждое значение ряда представляет собой определенную группу, частота которой pi равна 1/п. Тогда эмпирическая обеспеченность может быть определена так же, как и в предыдущем случае, путем последовательного суммирования от наибольшего (первого) члена к интересующему нас m-ому значению ранжированного ряда (см. табл. 4.3), т. е.
(3.72)
В гидрологии широко распространилось мнение, что формула (3.72) верна только в том случае, если все возможные значения представлены в данной выборке. Иначе, при оценке по эмпирическим данным в краевых частях распределения возможны большие погрешности. Так, по формуле (3.72) эмпирическая обеспеченность минимального значения ряда Рт=п = 1. Отсюда вероятность значений, меньших минимального, за период наблюдений равна 0. Таким образом, из формулы (3.72) следует, что получить значение X, меньшее, чем наблюденное, невозможно1, Однако опыт показывает, что какие бы значения, например стока, не отмечались в прошлом, в будущем возможны значения меньше наблюденных, В связи с этим для расчетов эмпирической обеспеченности был предложен ряд приближенных формул, более полно, по мнению авторов, учитывающих особенности гидрологической информации:
формула Хазена
(3.73)
формула Крицкого—Менкеля
(3.74)
формула Чегодаева
(3.75)
Формула Хазена основывается на предположении о том, что обеспеченность каждого интервала значений переменной величины можно отнести к середине этого интервала. Формула Крицкого—Менкеля основывается на представлении, что наиболее надежное значение эмпирической обеспеченности отвечает среднему значению эмпирических обеспеченностей заданной величины по множеству выборок. Если исходить из того, что рассматриваемая выборка занимает медианное положение среди других выборок, то получаем формулу Чегодаева.
Перечисленные формулы в средних частях кривых обеспеченностей дают практически одинаковые результаты, существенные расхождения отмечаются в верхней и нижней части этих кривых.
При этом формула (3.73) дает по сравнению с другими формулами в верхней части кривой обеспеченности при той же обеспеченности завышенные значения Х Формула (3.74) дает заниженные значения Х при той же обеспеченности. Наконец медианная формула (3.75) дает значения Х в верхней части близкие к значениям, вычисленным по формуле Хазена.
Дискуссия о применении различных формул эмпирической обеспеченности продолжалась довольно длительное время (см. работы С. Н. Крицкого и М. Ф. Менкеля, Г. А. Алексеева, В. Ф. Крюкова, Е. Г. Блохинова, Ю. Б. Виноградова и других авторов).
В этой связи можно отметить, что при оценке эмпирической обеспеченности возможны две ситуации.
1. Имеется только ряд значений X (x1, х2, ..., хп). Какая-либо другая информация отсутствует.
Тогда, по-видимому, расчеты эмпирической обеспеченности необходимо производить по формуле (3.72). Действительные значения Р(х) определяются с помощью доверительных интервалов на основе теорем Гливенко и Колмогорова (см. гл. 6). Какие-либо другие паллиативные решения могут только увеличить погрешность расчетов.
2. Имеется ряд значений X. Также известно, что, по крайней мере, одно из возможных значений X может быть меньше имеющихся.
В этом случае вариационный ряд представляется в виде
где x1, х2,…, xn - имеющиеся значения ряда X; хп+1 — член ряда X, относительно которого известно только что хп+1 ≤ хп, и для расчета эмпирической обеспеченности может быть использована формула (3.74).
Однако принимать формулу (3.74) в качестве основной было бы неверно, в частности, в некоторых случаях наблюденное значение хп может быть равно 0. Тогда формула (3.74) теряет всякий смысл.
При использовании эмпирических обеспеченностей необходимо учитывать их выборочный характер, особенно при небольших п. Так, например, эмпирическая обеспеченность наиболее высокого максимума максимального стока р. Зеи у г. Зея за маловодный десятилетний период 1901 — 1910 гг., равный 5440 м3/с, составляет по формуле (3.75) 6,7 %. За период 1901 — 1920 гг. обеспеченность этого максимума составляет 30,9%, а за период 1901 — 1958 гг уже 41,0%.
Таким образом, для анализа эмпирического материала используются три вида табличных и графических построений: статистический ряд, гистограмма, эмпирическая функция распределения. Эти построения дают достаточно наглядное представление о характере имеющегося материала и позволяют выявить некоторые важные особенности исследуемой величины.
Литература
26. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики. М.: Наука, 1969. 511 с.
Вентцель Е.С.
1 Сам по себе этот вывод недостаточно обоснован, так как эмпирическая обеспеченность только по вероятности сходится к обеспеченности [см. формулу (3.68)].
