
- •Лекция 3. Основные понятия и элементы геостатистики
- •1. Пространственно распределенные данные
- •2. Метрика в пространстве
- •3. Пространственное разрешение
- •4. Сеть мониторинга и кластерность
- •5. Декластеризация
- •6. Пространственная непрерывность
- •7. Стационарность в строгом и мягком смыслах
- •8. Геостатистическое оценивание
- •9. Проверка качества модели - кросс-валидация
8. Геостатистическое оценивание
Основной геостатистической моделью, которая в том или ином виде используется во всех методах геостатистики, является кригинг (kriging) — линейный интерполятор, использующий для получения оценки значения функции в некоторой точке пространства x0 экспериментально измеренные значения этой функции в других точках:
(2.11)
Для определения весов wi(x0) могут быть использованы различные детерминистические методы, например веса могут браться обратно пропорциональными расстоянию от измеренной точки до оцениваемой или в соответствии с каким-либо другим предположением о природе связей в данных. Однако все эти методы пренебрегают использованием информации о структуре внутренней корреляции пространственных данных.
Следующим критерием при построении модели является условие несмещенности оценки, что эквивалентно условию
(2.12)
где Z(x0) — истинное (неизвестное) значение оцениваемой функции в точке x0. Иными словами, ошибки интерполяции должны иметь в каждой точке среднее, равное нулю. Это условие может быть реализовано и в рамках детерминистических подходов.
Еще одно условие, которое мы хотим наложить, — оптимальность интерполяции в смысле минимизации вариации ошибки оценки, т. е. веса wi линейной регрессии в уравнении (2.11) должны быть выбраны так, чтобы минимизировать значение вариации ошибки оценки:
(2.13)
Таким образом, кригинг является наилучшим (в смысле минимума вариации оценки) линейным и несмещенным оценивателем (the best Linear unbiased estimator — BLUE). В процессе поиска минимума вариации (2.13) ключевую роль играет использование модели вариограммы исходных данных. В результате поиска весовых коэффициентов для получения оценки, удовлетворяющей всем перечисленным условиям, удается оценить и значение вариации (2.13), которое может интерпретироваться как описание точности кригинговой оценки.
9. Проверка качества модели - кросс-валидация
При использовании той или иной модели интерполяции крайне важно правильно подобрать значения модельно-зависимых параметров. Для кригинга такими параметрами являются параметры модели вариограммы. При работе с реальными данными не всегда удается сразу выбрать теоретическую модель экспериментальной вариограммы. Для проверки качества выбранной модели используют различные количественные методы: кросс-валидацию (cross-validation), метод складного ножа (jack-knife), бутстреп (bootstrap).
Кросс-валидация наиболее простой и часто использующийся не только в геостатистике подход при сравнении результатов, получаемых различными методами или одним и тем же методом, но с различными параметрами. Выполняется кросс-валидация следующим образом:
из базы данных временно изымается одна точка, и для нее проводится оценка значения;
полученное значение сравнивается с известным, и вычисляется невязка разница между измеренными и оцененными значениями:
первые два шага проводятся для всех точек базы данных.
Полученные невязки ΔZ(x) могут быть графически представлены в виде карты (карты невязок), по которой можно посмотреть, в каких зонах метод срабатывает лучше, а в каких хуже. Вместо невязок можно визуализировать относительные ошибки:
Полезно также представить результаты кросс-валидации в виде графика Y(Z(x))=Z*(х) или аналогичного ему — Y(Z(x)) = Δ(x). Проведение на таком графике биссектрисы (или соответственно прямой Y = 0), соответствующей равенству оценки и исходного значения, позволяет видеть характер отклонения: большее отклонение для высоких или для низких значений Z, какие-либо тренды в поведении оценки и т. п. Вместе с тем, на графиках невязок можно проследить эффект сглаживания — область низких значений в среднем переоценивается, а область высоких значении недооценивается.
Кроме локальных характеристик кросс-валидация позволяет оценить и глобальные характеристики оценки для сравнения:
1. Смещение Δm = т - т*, где т — среднее, оцененное по исходным данным; т* — среднее, оцененное по полученным результатам.
2. Сумму квадратов невязок:
где R - штрафной член, вводящийся для контроля количества неоцененных точек.
3. Среднюю квадратичную ошибку (root mean square error RMSE):
4. Коэффициент эффективности:
5. Коэффициент корреляции ρ, угол наклона регрессионной прямой на графике Y(Z(x)) = Z*(х).
Вообще говоря, кросс-валидация — это частный случай метода складного ножа, когда выбираемый набор состоит из одной точки (leave-one-out).
Метод складного ножа (jack-knife) является общим случаем кросс-валидации, когда оценивание проводится не в одной, а в нескольких точках измерений, данные о которых предварительно изымаются из рассмотрения. Полученные в результате невязки анализируется методом, аналогичным описанному выше. Поскольку при джек-найфе изымается произвольный набор данных, комбинации этого набора могут варьироваться, что делает этот метод стохастическим.
Бутстреп (bootstrap) состоит в оценке на основе случайных выборок из набора данных. Выборки делаются из исходного набора случайным образом. Выбранная точка не изымается, она может попасть в выборку несколько раз. Оценка проводится по оставшимся не выбранными точкам. Обычно процедура выборки и оценки повторяется много раз.
Литература
Cressie
N.
Statistics
for spatial data. — New York: John Wiley & Sons,
1991.
—900 p.
Deutsch
C.
DECLUS:
a FORTRAN 77 program for determining optimal declustering weights //
Computers and Geosciences. — 1989. —Vol. 15. — P. 325—332.
Deutsch
С.
V, Journel A. G.
GSLIB:
Geostatistical Software Library and User’s Guide. —-New York;
Oxford: Oxford Univ. Press, 1998. — 369 p. Engineering and Design:
Practical aspects of applying geostatistics at hazardous, toxic and
radioactive waste sites: Technical Letter ETL 1110-1-175 /
Department of the US Army. — Washington, 30 June 1997. — 93 p.
Goovaerts
P.
Geostatistics
for Natural Resources Evaluation. — [S. 1.]:
Oxford
Univ. Press, 1997.
Hengl
T.
Finding
the right pixel size //
Computers
and Geosciences. —
2006.
— Vol. 32. — P. 1283—1298.
Isaaks
E. H., Srivastava R.
M.
An Introduction to Applied Geostatistics. — Oxford: Oxford Univ.
Press, 1989.
Journel
A. G.
Nonparametric
estimation of spatial distributions // Mathematical Geology. —
1983. — Vol. 15. — P. 445—468.
Journel
A. G.y
Huijbregts Ch. J.
Mining
Geostatistics. — London: Academic Press, 1978. — 600 p.
Mandelbrot
В.
В.
The
fractal theory of nature. —New York: Freeman, 1982. Morishita
M.
Measuring
of the dispersion and analysis of distribution patterns // Memoires
of the Faculty of Science, Kyushu University. Series E. Biology. —
1959. — Vol. 2. — P. 215—235.
Preparata
F. P, Shamos М.
I.
Computational
Geometry. — New York: Springer-Veri., 1985. —P. 198—218.
Cressie N. Statistics for spatial data. — New York: John Wiley & Sons,
1991. —900 p.
Deutsch C. DECLUS: a FORTRAN 77 program for determining optimal declustering weights // Computers and Geosciences. — 1989. —Vol. 15. — P. 325—332.
Deutsch С. V, Journel A. G. GSLIB: Geostatistical Software Library and User’s Guide. —-New York; Oxford: Oxford Univ. Press, 1998. — 369 p. Engineering and Design: Practical aspects of applying geostatistics at hazardous, toxic and radioactive waste sites: Technical Letter ETL 1110-1-175 / Department of the US Army. — Washington, 30 June 1997. — 93 p.
Goovaerts P. Geostatistics for Natural Resources Evaluation. — [S. 1.]:
Oxford Univ. Press, 1997.
Hengl T. Finding the right pixel size // Computers and Geosciences. —
2006. — Vol. 32. — P. 1283—1298.
Isaaks E. H., Srivastava R. M. An Introduction to Applied Geostatistics. — Oxford: Oxford Univ. Press, 1989.
Journel A. G. Nonparametric estimation of spatial distributions // Mathematical Geology. — 1983. — Vol. 15. — P. 445—468.
Journel A. G.y Huijbregts Ch. J. Mining Geostatistics. — London: Academic Press, 1978. — 600 p.
Mandelbrot В. В. The fractal theory of nature. —New York: Freeman, 1982. Morishita M. Measuring of the dispersion and analysis of distribution patterns // Memoires of the Faculty of Science, Kyushu University. Series E. Biology. — 1959. — Vol. 2. — P. 215—235.
Preparata F. P, Shamos М. I. Computational Geometry. — New York: Springer-Veri., 1985. —P. 198—218.
Raes F., Graziani G., Girardi F. A simple and fractal analysis of the European on-line network for airborne radioactivity monitoring // Environmental Monitoring and Assessment. — 1991. —Vol. 18. — P. 221—234.