Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Другие файлы / Лурье И.К. - Геоинформационное картографирование - М., КДУ - 2008.pdf
Скачиваний:
120
Добавлен:
01.05.2023
Размер:
14.5 Mб
Скачать

5.1. Методы пространственного анализа

181

5.1.Методы пространственного анализа

5.1.1.Классификация объектов путем группировки значений их признака

Методы классификации пространственных данных, применяемые в географии и картографии, чрезвычайно разнообразны [Геоинформатика, 2005]. К классификациям, основанным на использовании многопараметрических данных, мы обратимся еще не раз. Здесь рассмотрим способ классификации путем группировки числовых значений одного из атрибутов, который применяется для объединения в классы близких величин или выявления закономерностей в данных. В этом способе границы классов определяют по характерным точкам статистического ряда их распределения, представляемого гистограммой — графиком, отображающим частоту встречаемости значений атрибута. Анализ такого распределения позволяет выбрать подходящий метод группировки, а также число создаваемых классов.

Обычно используют пять методов группировки:

естественных интервалов;

равных классов (квантилей);

равных интервалов;

равных площадей;

стандартных отклонений.

В методе естественных интервалов выделяют группы, которые свойственны анализируемым данным. Отмечают естественные скачки в значениях показателей, которые хорошо видны, например, на столбчатых гистограммах, построенных по этим значениям. Задание оптимального числа классов и их границ основывается только на близости значений в группе и максимальной разнице значений между группами. Этот метод хорошо подходит для классификации неравномерно распределенных данных.

При использовании второго метода устанавливают число объектов, относящихся к классу: каждый класс содержит одинаковое число объектов (классы равновеликие). При слишком маленьком указанном числе объектов результаты получаются, как правило, неудовлетворительными. Могут также возникать ситуации, когда объекты с близкими значениями оказываются в разных классах.

1 8 2 Глава 5. Географический анализ и пространственное моделирование

В третьем случае разбивают значения показателей на равные п о размеру интервалы — каждый класс имеет одинаковый диапазон значений, например, по 5 млн человек. При неравномерном распределении объектов может оказаться, что некоторые классы не будут содержать объектов.

При использовании четвертого метода осуществляют разбиение полигональных объектов, определяя точки разбиения так, чтобы общая площадь полигонов в каждом классе была бы приблизительно одинакова. Сначала рассчитывают общую площадь всех объектов, ее делят на число классов (которое тоже необходимо задать), чтобы определить значение площади для каждого класса. Этот метод по результатам близок ко второму методу в случае, когда размеры классов приблизительно одинаковы, и сильно отличается, когда размеры и классов, и объектов разные.

Метод стандартных отклонений основан на определении статис- тических параметров: определяют минимальное и максимальное значения признака, число объектов (п + 1), общую сумму значений показателя I и среднее ( I / п + 1), сумму квадратов отклонений от среднего — дисперсию а и стандартное отклонение D = \[с. Границь классов устанавливают с шагом 0,25Д 0,5Д D и 3D по обе стороны от среднего значения. Этот метод подходит для отображения показа- телей, большая часть значений которых близка к среднему значению, т. е. их распределение близко к нормальному.

Изложенный способ классификации применяют при автоматизации выделения интервалов шкал географических данных, при статистическом анализе их структуры, при создании тематических слоев БД и карт методом картограмм и картодиаграмм, выборе графического приема отображения данных на карте — цветовых шкал, символов или диаграмм (см. раздел 7.7).

При выделении интервалов шкал следует обращать внимание на тип переменных — номинальный, порядковый, интервальный или относительный, и на то, как много измеряемой информации обеспечивает шкала их измерений. Очевидно, в каждом измерении присутствует некоторая ошибка, определяющая границы «количество информации», которое можно получить в данном измерении.

Номинальные переменные используются только для качест венной классификации. Это означает, что они могут быть измерекк только в терминах принадлежности к некоторым различным классам

5.1. Методы пространственного анализа

183

(категориям); при этом нельзя определить количество или упорядочить эти классы.

Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать, «на сколько больше» или «на сколько меньше».

Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Цельсия, образует интервальную шкалу. В такой шкале можно определить, насколько одно значение больше другого.

Относительные переменные схожи с интервальными, но их характерной особенностью является наличие точки абсолютного нуля, поэтому для них верны соотношения типа «х в два раза больше, чем у». Типичными примерами шкал отношений являются измерения времени или пространства. Следует отметить, что в большинстве статистических процедур, часто применяемых в ГИСанализе, не делается различия между свойствами интервальных шкал и шкал отношения.

Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и, таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика. Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить.

При классификации объектов по числовым атрибутам и отображении их действительного географического распределения на карте необходимо принимать во внимание особенности географических данных, используемых в ГИС-приложениях. Многие типы данных уже выражены в номинальных или порядковых шкалах — числовые значения определяют точное соответствие классам объектов или порядок возрастания или убывания данных; иногда они фиксируют интервалы изменения данных или их пропорциональность. Для пространственного геокодирования используют всевозможные границы, не зависящие от самих данных (административные границы, контуры тематических полигонов и т. п.). Примером может служить информация о численности населения в определенных областях, привязанная к некоторой точке внутри полигона.

184 Глава 5. Географический анализ и пространственное моделирование

5.1.2. Методы интеграции признаков для исследования взаимосвязей и классификации объектов

Известно, что при создании синтетических карт, на которых свойства объектов картографирования определяются совокупностью разнообразных параметров (атрибутов), применяют методы классификации и интегрирования (синтеза) показателей. Такие же методы востребованы при выполнении пространственного анализа в ГИС. Их можно разделить на две группы.

1. Методы многопараметрических классификаций — кластеризации, классификации на основе заранее известной принадлежности объектов к разным классам, когда для идентификации объекта анализируют весь набор его характерных признаков и в результате формируют один показатель типа (или номера) класса. Эти методы пока не столь распространены при создании ГИС в силу сложности формализации географических показателей, но широко используются при создании тематических карт по аэрокосмическим снимкам.

2. Методы многомерного

статистического

анализа —

в первую очередь, факторного

и компонентного

анализа. Они

предназначены для решения главной задачи всякого исследования и научного анализа — выявления взаимосвязей совокупности разных исходных признаков, отражающих структуру географических комплексов, и способствуют формированию главных интегральных характеристик (факторов, компонент) на основе линейных комбинаций этих признаков. Такие характеристики позволяют описать главные тенденции изучаемых комплексов меньшим числом признаков с минимальными потерями информации.

Признаки — это то, что можно измерять, контролировать или что можно изменять в исследованиях. Они отличаются многими аспектами, особенно той ролью, которую играют в исследованиях, шкалой измерения и т. д.

Независимыми признаками называют те, которые можно изменять (варьировать) в исследовании, они не зависят от свойств, присущих объектам исследования. Зависимые признаки (или переменные) — это признаки, свойственные объектам, которые можно измерить или зарегистрировать; на их основе осуществляют распознавание объектов. Методы, основанные на исследовании корреляций по существу состоят в измерении зависимостей непосредственным образом.

5.1. Методы пространственного анализа

185

Использование методов факторного и компонентного анализа основано на предположениях нормальности распределения измеренных значений признаков и наличии между ними корреляционных связей, мерой интенсивности которых служат коэффициенты парной корреляции, вычисляемые по формуле

ixxu-Mk)(xti()

 

 

r * ' = J

nD^Dt

'

(5.1)

где Mk и Mt — среднеарифметические значения двух множеств п

измерений географических признаков хк, х{

 

I п

j п

 

п ы1

п ы о

(5.2)

Dk, D( — их стандартные отклонения. Множество коэффициентов корреляции измерений признаков образуют матрицу корреляции R.

Характерное свойство нормального распределения состоит в том, что 68 % всех наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95 % значений; поэтому остающиеся 5 % рассматриваются как допустимый уровень ошибки.

Методы факторного и компонентного анализа опираются на предположение, что измеряемые (наблюдаемые) признаки являются косвенными проявлениями относительно небольшого числа некоторых скрытых факторов, поэтому методы такого анализа ориентированы на выявление и анализ скрытых зависимостей между измеряемыми признаками. Методы выявления скрытых зависимостей применяются при решении таких задач, как:

преобразование (интеграция) исходных признаков для удобства интерпретации объектов;

понижение размерности признакового пространства,

классификация объектов на основе признакового пространства меньшей размерности;

косвенная оценка признаков, значения которых невозможно измерить.

В факторном анализе исследуют внутреннюю структуру матрицы корреляции, основываясь на предположении, что

1 8 6

Глава 5. Географический анализ и пространственное моделирование

множество наблюдаемых коррелированных признаков (случайных величин) можно описать меньшим числом определяющих показателей или факторов и множеством независимых остатков в виде линейной комбинации факторов, также как и признаки распределенных нормально:

*,= £avfj+ei>

т< п>

0

;=i

 

(5.3)

где jr., i — 1,2,... я — совокупность п исходных признаков,/^. — значе- ния;-™ фактора, а.. — коэффициенты при f., т — количество факторов, е. — независимые остатки.

Такая модель использует два типа факторов: общие факторы / и специфические факторы е.. Фактор называется общим, если он оказывает влияние на два и более наблюдаемых признака (математически это выражается в наличии как минимум двух существенно отличающихся от нуля коэффициентов а., для фактора/^.). Каждый из специфических факторов е. несет информацию только об одном признаке х. Матрица коэффициентов а.. — А называется матрицей факторных нагрузок и задает влияние общих факторов на наблюдаемые признаки.

Специфические факторы соответствуют необъясненной общими факторами изменчивости набора наблюдаемых признаков. Таким образом, их можно рассматривать как случайную ошибку наблюдения или шум, не являющийся ценной информацией для выявления скрытых закономерностей и зависимостей. Важным предположением является независимость е. между собой. На языке факторного анализа доля дисперсии отдельного признака, относящаяся к общим факторам (и разделяемая с другими признаками), называется общностью дисперсия же, приходящаяся на специфический фактор, — специфичностью. Следовательно, целью факторного анализа является выявление общих факторов^, специфических факторов ei и матрицы факторных нагрузок А таким образом, чтобы найденные общие факторы объясняли наблюдаемые данные наилучшим образом: суммарная общности признаков была максимальна, а специфичность — минимальна.

Типичным примером применения метода является решение задач а создания синтетической карты, показывающей районы, однороднее по всему комплексу признаков. При этом общие факторы соответствуют максимальному значению суммарной дисперсии признаков а факторные нагрузки определяют на основе оценки условной вере ятности P(X/xt) — чем больше ее значение, тем выше правдоподобие

5.1. Методы пространственного анализа

187

выделения заданного района X на карте по данному признаку х.. Нагрузки на факторы (в данном случае их максимальное правдопо- добие) определяются не однозначно. Оптимальным является такой тип преобразования, когда признаки, характеризующие легко опознава- емые стороны объекта (или явления), имеют самые высокие нагрузки на один фактор и незначительные или нулевые — на другие.

Компонентный анализ формально схож с факторным. Он также основан на использовании ковариационной матрицы для осуществления линейного ортогонального преобразования пространства признаков с тем, чтобы в новой системе координат признаки (компоненты) были взаимно некоррелированы. Тогда среди них можно отбросить те, которые имеют минимальную дисперсию, т. е. наименьшее отклонение от среднего. Параметры ортогонального преобразования находят следующим образом.

Известно, что матрицу такого преобразования, которой в данном случае соответствует корреляционная матрица R, можно всегда представить в виде произведения матриц

R= VrExV,

(5.4)

где V— матрица собственных векторов преобразования, определяющая поворот осей координат, а Ех — диагональная матрица собственных значений X, Т — знак операции транспонирования. Элементы матрицы собственных векторов V представляют собой коэффициенты искомого линейного преобразования исходных признаков к главным компонентам.

Уравнение (5.4) иначе можно записать как

VRVr = Ex.

(5.5)

Собственные значения X. находят, решая матричное уравнение V R VT - Ех = 0. Для упрощения считают, что строки матрицы V упорядочены, так что Хх > Х2 > ... Хп. Выбрав максимальное значение л, и соответствующий ему вектор V]f получают главную компоненту yv обладающую наибольшей дисперсией, из соотношения

Уг = VJTJ= v12x2+ •••+ vlnxn, (5.6)

где х — вектор значений исходного признака. Аналогично опре- деляют остальные главные компоненты, после чего компоненты с минимальной дисперсией могут быть отброшены.

1 8 8

Глава 5. Географический анализ и пространственное моделирование

Процедуру легко пояснить графически на примере разброса значений двух признаков. Если распределение значений признаков нормальное или близкое к нормальному, то при отображении на плоскости это распределение имеет вид облака, называемого в статистике эллипсом рассеяния (в гс-мерном пространстве это будет гиперэллипсоид) или диаграммой разброса (рис. 5.1).

Напомним, что эллипс рассеяния — понятие, связанное с нормальным распределением случайных величин. В нашем примере это распределение признаков (обозначим их х и у соответственно). Функция плотности их двумерного распределения имеет вид:

 

1

ехр

с 2

 

 

хау

 

 

с 2

 

 

 

*

у

(57)

 

 

 

 

где mv, ту}

сц — показатели среднего значения и стандартного

отклонения распределений х и у соответственно. Графически такое распределение представляется эллипсами равной вероятности, т. е условием

5.1. Методы пространственного анализа

189

При выполнении преобразования методом главных компонент оси спектрального пространства поворачивают, так чтобы новые оси стали параллельны осям эллипса рассеяния. Поэтому первая главная компонента у^ (ГК1 — principal component, PCI) соответствует наибольшей оси эллипса — направлению наибольшего разброса значений признака. Направлениеух задается собственным вектором преобразования, а его длина — первым собственным значением.

Преобразование позволяет выделить некоторые области в признаковом пространстве, которые затем следует классифицировать в терминах объектов. На графике (см. рис. 5.1) видно, что использование новых признаков — главных компонент вместо исходных — позволяет эффективнее разделить классы объектов.

Методы факторного и компонентного анализа применяют при решении таких типовых задач, как оценка условий жизни населения на основе факторов рельефа, гидрологии, социально-экономических и экологических показателей; при составлении карт районирования. Факторный анализ предпочтителен, когда хотят выделить районы, однородные по всему комплексу показателей, на основе построения их линейных комбинаций — факторов. Компонентный анализ применяют при дифференциации территории на основе ведущих признаков с учетом их взаимосвязей, например, при разделении территории по ведущим факторам рельефа (высота, углы наклона и т. п.).

Основные отличия методов факторного (МФА) и компонентного анализа (МГК) состоят в следующем:

МФА создает модель, в явном виде описывающую зависимость наблюдаемых признаков от скрытых факторов, а МГК выполняет описательный анализ данных;

МФА предусматривает определение ошибки моделирования (специфический фактор) для каждого из наблюдаемых признаков и использует только изменчивость признака, общую и для других признаков, в то время как МГК пытается объяснить всю изменчивость признаков, включая шум, зависимостью от главных компонент;