
- •Лекция 3. Основные понятия и элементы геостатистики
- •1. Пространственно распределенные данные
- •2. Метрика в пространстве
- •3. Пространственное разрешение
- •4. Сеть мониторинга и кластерность
- •5. Декластеризация
- •6. Пространственная непрерывность
- •7. Стационарность в строгом и мягком смыслах
- •8. Геостатистическое оценивание
- •9. Проверка качества модели - кросс-валидация
6. Пространственная непрерывность
Пространственная непрерывность присутствует в большинстве геофизических явлений и выражает простое свойство исследуемой функции Z(x): в двух точках, находящихся ближе друг к другу, скорее будут близкие значения, чем в более удаленных друг от друга точках. Подчеркнем вероятностный, статистический характер этого понятия.
Пространственную непрерывность в данных можно наглядно продемонстрировать, если построить зависимость значений, удаленных друг от друга, от расстояния между ними. Такая диаграмма называется диаграммой взаимного разброса пар точек (h-scatterplot), разделенных расстоянием h (рис. 9). Диаграмма взаимного разброса пар позволяет увидеть пространственную непрерывность и проверить наличие корреляции в данных как качественно, так и количественно.
На плоскости отмечают все возможные пары измерений, разделенные вектором h. Если значения в паре, разделенной вектором h = хi - хj, обозначить Z(х) и Z(х + h), то по оси абсцисс откладывается значение переменной Z(x), а по оси ординат — Z(x + h). Диаграмма характеризует коррелированность значений в точках, разделенных данным расстоянием, и в определенном направлении. Если значения в точках, разделенных вектором (либо расстоянием) h, близки, то точки диаграммы сгруппируются вдоль прямой у = х. При большей разнице между значениями в парах облако на диаграмме будет расплываться. Это обычно происходит при увеличении расстояния h. Часто на итоговую статистику диаграммы влияют отдельные отклонения. Такие пары точек лежат в отдалении от прямой у = х. В этом случае стоит попробовать посчитать статистику, исключив эти точки из рассмотрения.
На рис. 9 изображены диаграммы разброса пар для данных по загрязнению почвы в западной части Брянской области изотопом 137Cs для расстояний 10 (слева) и 70 км (справа). На расстоянии 10 км пространственная корреляция существенна: точки на диаграмме пар сгруппированы вдоль прямой у=х. На расстоянии 70 км пространственная корреляция уже очень слаба — диаграмма принимает форму прямоугольника.
Рис. 9. Диаграммы разброса пар точек на расстоянии h = 10 км демонстрирует корреляцию между данными (а); на расстоянии h = 70 км между точками отсутствует корреляция (б) для данных по загрязнению западной части Брянской области изотопом 137Cs
Пространственная непрерывность может быть исследована простым методом вычисления локальных статистических характеристик: среднего, вариации и т. п.
Статистика движущегося окна (moving window statistics) - это подсчет описанной выше статистики, но не для всей области данных в целом, а в ее подобластях (окнах). Такой метод очень полезен для поиска зон аномальных средних значений и при наличии зон различной вариации значений (heteroscedasticity) [Isaaks, Srivastava, 1989]. Метод состоит в разбиении области данных на несколько одинаковых, обычно прямоугольных окрестностей - окон. Размер окна зависит от среднего расстояния между точками. Хорошим компромиссом между большими и маленькими окнами являются перекрывающиеся окна. При этом два соседних окна имеют несколько общих точек. Это повышает количество окон при достаточно большом их размере, дающем достоверную статистику. Таким образом, мы как бы берем в руки "окно-лупу" и рассматриваем всю область, передвигая по ней окно. Статистические характеристики вычисляются для каждого поднабора данных, попавших в отдельное окно.
Можно построить карту локальных средних значений и стандартных отклонений в окнах. При сравнении с образами данных, приведенными выше, можно увидеть те же области, где локальное среднее велико. Но в дополнение к этому можно выделить области локального изменения вариабельности, которые не детектировались предыдущими методами (рис. 10).
Рис. 10. Локальные значения статистики с движущимся окном: о — количество точек в окне; 6— среднее значение; в — стандартное отклонение; г — минимальное значение; д — максимальное значение; е — размах значений; ж — коэффициент вариации, з — коэффициент симметрии, и — эксцесс
Эффект пропорциональности (proportional effect) состоит в наличии явной зависимости между локальными средними значениями и локальной вариабельностью, описываемой локальным стандартным отклонением, т. е. когда коэффициент вариации CV=σ/m демонстрирует явное детерминированное поведение. Можно выделить четыре самых общих случая этой зависимости [Isaaks, Srivastava, 1989]:
среднее и вариабельность постоянны;
среднее имеет локальный тренд, в то время как вариабельность остается постоянной;
среднее постоянно, но изменяется вариабельность;
и среднее, и вариабельность изменяются вместе пропорционально.
Для определения эффекта пропорциональности можно построить диаграмму разброса (scatterplot) локального стандартного отклонения в зависимости от локального среднего (рис. 11). При нормальном распределении данных эффект пропорциональности не наблюдается, и стандартное отклонение обычно постоянно. При логнормальном распределении зависимость между локальным средним и локальным стандартным отклонением линейная. В исследуемых данных корреляция между локальным средним и локальным стандартным отклонениями достаточно высока и равна 0,69 (см. рис. 11). Это свидетельствует о наличии в данных эффекта пропорциональности.
Рис.11. Корреляция локального среднего значения с локальным стандартным отклонением по результатам статистики с движущимся окном