
- •Лекция 3. Основные понятия и элементы геостатистики
- •1. Пространственно распределенные данные
- •2. Метрика в пространстве
- •3. Пространственное разрешение
- •4. Сеть мониторинга и кластерность
- •5. Декластеризация
- •6. Пространственная непрерывность
- •7. Стационарность в строгом и мягком смыслах
- •8. Геостатистическое оценивание
- •9. Проверка качества модели - кросс-валидация
4. Сеть мониторинга и кластерность
Простейшим общепринятым видом визуализации данных является нанесение точек на плоскость пространственных координат, причем цвет нанесенной точки может соответствовать измеренной в них величине (рис. 1а).
Рис. 1. Диаграмма расположения точек измерений (а), триангуляция сети мониторинга (б), полигоны Вороного (в) и контуры данных измерений по триангуляции (г)
Для
визуализации сети мониторинга и ее
кластерной структуры часто используется
триангуляция
Делоне
[Preparata,
Shamos,
1985] — система треугольников с
вершинами в точках измерений,
непересекающимися ребрами и минимальным
количеством тупоугольных треугольников
(рис. 2.16). Такая визуализация позволяет
качественно обособить области с
повышенной плотностью измерений — с
кластерами. Кроме того, триангуляция
Делоне строит систему
соседства:
точки, которые соединены друг с другом
ребрами треугольников, являются
ближайшими соседями по отношению друг
к другу.
Триангуляция
также является основой для построения
простейшего метода линейной
интерполяции: три точки в пространстве
(вершины треугольников) однозначно
определяют плоскость, в пределах которой
значения функции вычисляются согласно
геометрическим принципам (рис. 2.1г).
Другим видом визуализации данных
являются полигоны
Вороного,
или, как их еще называют, разбиение
Тиссена, ячейки Дирихле
и области
влияния. Полигон
Вороного Pf
построенный для точки измерений xf
характеризуется тем, что содержит
те и только те точки, расстояние от
которых до точки х
меньше или равно расстоянию до любой
другой точки измерений х.
(рис.
2.1в). При построении полигонов Вороного
используется система соседства,
полученная в процессе триангуляции
Делоне. Границы полигона Вороного Р.
состоят из отрезков серединных
перпендикуляров, проведенных к
сторонам треугольников Делоне. Полигоны
Вороного можно использовать как
разрывную интерполяционную оценку
(оценка по ближайшему соседу). Для этого
каждой точке, попавшей в полигон,
присваивается значение, соответствующее
его материнской точке. Эти полигоны
также используются в задачах
пространственной классификации —
классификация по ближайшему соседу.
Триангуляция также является основой для построения простейшего метода линейной интерполяции: три точки в пространстве (вершины треугольников) однозначно определяют плоскость, в пределах которой значения функции вычисляются согласно геометрическим принципам (рис. 1г).
Другим видом визуализации данных являются полигоны Вороного, или, как их еще называют, разбиение Тиссена, ячейки Дирихле и области влияния. Полигон Вороного Pf построенный для точки измерений xf характеризуется тем, что содержит те и только те точки, расстояние от которых до точки х меньше или равно расстоянию до любой другой точки измерений х. (рис. 1в). При построении полигонов Вороного используется система соседства, полученная в процессе триангуляции Делоне. Границы полигона Вороного Pf состоят из отрезков серединных перпендикуляров, проведенных к сторонам треугольников Делоне. Полигоны Вороного можно использовать как разрывную интерполяционную оценку (оценка по ближайшему соседу). Для этого каждой точке, попавшей в полигон, присваивается значение, соответствующее его материнской точке. Эти полигоны также используются в задачах пространственной классификации — классификация по ближайшему соседу.
Для выявления особенностей, а именно наличия кластерных структур или разреженностей в сети мониторинга (наборе точек измерений), проводят анализ сети мониторинга. Простейшими методами такого анализа можно считать описание топологии сети с помощью гистограммы расстояний между точками (рис. 2а) и гистограммы площадей полигонов Вороного (рис. 2б). Гистограмма в данном случае — это график числа каких-либо событий (числа пар точек или числа полигонов), попавших в какой-либо интервал значений.
Рис.2. Гистограмма расстояний между точками (а) и гистограмма площадей полигонов
Вороного (б)
При равномерном распределении точек в пространстве число пар должно быть одинаково для всех расстояний (или уменьшаться при увеличении расстояния за счет граничного эффекта). Рост числа пар с ростом расстояния между точками свидетельствует о наличии кластеров. Гистограмма площадей полигонов для регулярной сетки должна представлять собой дельта-функцию (один пик), так как все полигоны одного размера. Любые искажения (широкий пик, длинный хвост, несколько пиков) означают присутствие каких-либо особенностей в сети.
Другим методом анализа сети мониторинга является статистический подход [Cressie, 1991], рассматривающий точки измерений как случайный точечный процесс. Характеризовать распределение точек можно с использованием статистических индексов. Примером такого подхода является диаграмма Моришита. Индекс Моришита вычисляется для области, разбитой на прямоугольные ячейки равного размера, по формуле [Morishita, 1959]
где,
N — полное число точек сети мониторинга;
Q — число ячеек разбиения;
пi (i = 1, 2,...,Q) — число точек сети мониторинга, попавших в ячейку. Этот индекс характеризует вероятность того, что при выборе двух случайных точек они окажутся в одной ячейке.
Диаграмма Моришита представляет собой зависимость индекса Моришита от размера ячейки разбиения. Существуют три типа характерного поведения диаграммы Моришита, комбинации которых позволяют судить о характеристиках сети мониторинга:
величина индекса Моришита с ростом размера ячейки растет и стремится к 1; тогда распределение точек можно считать равномерным;
величина индекса Моришита не зависит от размера ячейки и примерно равна 1 (колеблется около 1); это означает, что распределение точек случайно и не имеет кластерных структур.
величина индекса Моришита с ростом размера ячейки уменьшается или растет выше 1 — распределение точек сети кластерное.
величина
индекса Моришита с ростом размера
ячейки растет и стремится к 1; тогда
распределение точек можно считать
равномерным;
величина
индекса Моришита не зависит от размера
ячейки и примерно равна « 1 (колеблется
около 1); это означает, что распределение
точек случайно и не имеет кластерных
структур.
величина
индекса Моришита с ростом размера
ячейки уменьшается или растет выше 1
— распределение точек сети кластерное.
На
рис. 3 приведены примеры диаграмм Моришита
для различных типов сетей мониторинга.
Так, в случае мониторинга на регулярной
равномерной сетке диаграмма имеет вид
гладкой кривой логарифмического типа,
стремящейся к единице (рис. 3а). При
наличии многочисленных кластеров в
плотной сети мониторинга кривая Моришита
изобилует точками перегиба, которые
характеризуют размеры различных
кластеров (рис. 3б).
В случае произвольного мониторинга с
несколькими четко выраженными кластерами
кривая Моришита имеет более гладкий
вид и уменьшается, стремясь к единице
(рис. 3в).
Размер кластеров характеризуют в
этом случае точки изменения кривизны.
Рис. 3. Примеры диаграммы Моришита для различных сетей мониторинга: регулярная равномерная сеть (а), произвольная сеть со слабой кластерной структурой (б), произвольная слабо связанная кластеризованная сеть (в)