- •Лекция № 10
- •Единиц в системе гис
- •2. Предварительная обработка данных.
- •3. Методы классификации, основанные на описании классов ядрами.
- •4. Параметрические методы классификации, основанные на модели смеси распределений.
- •5. Иерархические методы классификации.
- •6. Методы районирования.
- •Контрольные вопросы
2. Предварительная обработка данных.
Важным этапом классификации ОТЕ является их предварительная обработка, часто включающая нормировку, взвешивание, снижение размерности и агрегирование.
/
Нормировка показателей. На практике при проведении классификаций очень редко встречаются ситуации, когда анализируемые показатели представлены в одинаковых единицах измерения и масштабе. Существуют специальные термины для обозначения соизмеримых и несоизмеримых систем показателей (моноструктурные и полиструктурные соответственно). Примером моноструктурной системы показателей является процент занятых по разным отраслям промышленности.
Наиболее часто используются следующие виды нормировки.
1. Нормировка по заданному показателю.
В социально-экономической географии чаще всего нормирующим показателем является общая численность населения ОТЕ или площадь занимаемой ОТЕ территории.
Пусть
О - исходный признак, j ^{1, ...,М},
norm
О - нормирующий признак.
Тогда нормировка заключается в пересчете

Примеры нормировки по заданному показателю:
-
показатель плотности населения (нормировка численности населения ОТЕ площадью, занимаемой ОТЕ);
-
процент голосов, отданный на выборах за какую-либо политическую партию (нормировка числа проголосовавших за партию в данной ОТЕ общим числом избирателей);
-
валовой внутренний продукт страны (ВВП) на душу населения (норми ровка ВВП общим числом граждан; в качестве ОТЕ выступают страны мира).
2. Нормировка по заданным значениям осуществляется по общей формуле

В качестве Ai в числителе выступает число, отклонения от которого наиболее интересны; Дг представляет величину разброса значений ОТЕ по заданному показателю. Ниже приведены наиболее известные разновидности нормировки по заданным значениям (случаи 2.1 и 2.2).
2.1. Нормировка по дисперсиям и математическим ожиданиям.
Целью данной нормировки является приведение каждого показателя к стандартному виду (в результате математическое ожидание любого показателя становится равным нулю, а дисперсия - единице).
Пусть
-
оценка математического ожидания у'-го
показателя,
-
оценка дисперсии j-то
показателя.
Тогда
нормировка заключается в пересчете

2.2. Нормировка по наилучшим или наихудшим значениям [|В. С. Тику- нов, 1985].
Целью данной нормировки является перевод показателя в проценты отклонений от заданного наилучшего или наихудшего значения с. Пусть

Тогда нормировка заключается в пересчете

Часто (не всегда) в качестве с берут максимальные или минимальные значения у-го показателя 0^х или 0^ . Допустим, максимальное значение показателя до нормировки соответствовало наилучшей ситуации в ОТЕ (например, ожидаемой продолжительности жизни). Если нормировать показатель по максимальному значению, то нулю будет соответствовать наилучшее значение, единице - наихудшее.
Полученные в результате нормировки по наилучшим или наихудшим значениям 0|7) ограничены отрезком [0,1]. Иногда в формулу нормировки вводят умножение на 100, изменяя диапазон значений на отрезке [0,100].
В ряде случаев требуется нормировать показатели по наилучшим или наихудшим условным значениям. Например, для оценок заболеваемости теоретически наилучшее значение - нуль, т.е. можно положить с = О^[о^|, ,0^х ]• При этом следует изменить знаменатель в формуле нормировки:

Взвешивание показателей. Процесс получения весов для показателей необходим для корректного проведения классификаций. Зачастую, по аналогии с различными единицами измерения показателей, различны и их вклады, значимость для данной предметной области. Исследователь, например, может включить в число показателей анализа первостепенные и второстепенные, а для различия степени их влияния на конечный результат уменьшить влияние второстепенных показателей, «взвешивая» их. Такое взвешивание может заключаться в делении уже нормированного показателя je{l,...,M] на какое-либо число teR,T.e. присвоении
10
показателю веса1 Ct}/ =
t
При типологических классификациях знак веса никак не влияет на результат анализа, поскольку исходный показатель можно умножать на -1. В случае использования показателей для проведения оценочных классификаций их знаки могут оказаться решающими. Так, взвешивание может заключаться только в домножении некоторых показателей на -1, чтобы увеличение значений любого из них сигнализировало бы или об улучшении, или об ухудшении ситуации в рассматриваемой ОТЕ.
Способы получения объективных весов для показателей различны. Наиболее часто используется экспертный метод, при котором специалист или их группа в конкретной предметной области оценивает важность каждого показателя. Существуют также и так называемые аналитические методы. Проблема взвешивания показателей в географических исследованиях обсуждается в работе [В. С. Тикунов, 1997].
После нахождения вектора весов а> = (о)],...,сом) он применяется либо к матрице ОТЕ-признак, либо используется при расчете расстояний между ОТЕ в признаковом пространстве.
Анализ главных компонент. Анализ главных компонент, или компонентный анализ, - один из наиболее часто используемых методов снижения размерности. Данным методом решается задача отыскания на основе существующей системы атрибутивных признаков, описывающих ОТЕ, новой системы со следующими свойствами:
-
признаки новой системы являются линейными комбинациями призна ков исходной системы;
-
количество признаков в новой системе в общем случае не больше, а на практике всегда меньше числа признаков в исходной системе;
-
признаки новой системы ортогональны, т.е. не коррелированы;
-
признаки новой системы упорядочены в порядке убывания дисперсии;
-
признаки новой системы несут столько же информации (или наперед
11
заданный процент информации, например 90 %) об изменчивости объектов, сколько и исходные признаки. Под информацией понимается дисперсия признаков.
Метод главных компонент следует применять для исправления искаженного взаимными корреляциями исходного пространства признаков, снижения объемов хранящихся данных без потери существенной части информации об ОТЕ, визуализации ОТЕ в пространстве признаков (что достигается, например, изображением ОТЕ в виде точек на плоскости первых двух главных компонент) и выявления латентных (т. е. скрытых, не наблюдаемых в явном виде) показателей, отражающих суть процесса или явления.
В матричной форме результат работы метода главных компонент записывается в следующем виде:
z = XL или ZNxm = X NxMLMxm,
где М - количество исходных признаков; т - количество полученных главных компонент, т < М; Z = ZNxm = (z1 ,..., z(m) ) - матрица новых признаков (как и в исходной матрице, признаки расположены по столбцам); X = Х\тд/ = (о(1),.--, о(М)) - исходная матрица ОТЕ-признак; L = LMxm = (l(1),...,l(m)) - вычисленная матрица компонентных нагрузок.
Наиболее просто воспринимается геометрическая интерпретация метода главных компонент. В многомерном пространстве признаков ОТЕ рассматриваются как точки, геометрическая структура облака которых в случае нормального распределения напоминает М-мерный эллипсоид. За новые признаки принимаются главные оси воображаемого эллипсоида, отсортированные в порядке уменьшения дисперсий ОТЕ по осям.
Применение метода главных компонент в качестве предварительного этапа классификации описано в подразд. 3.1 «ГИС и дистанционное зондирование». Компонентный анализ является не единственным методом снижения размерности. В качестве при ров других распространенных методов снижения раз-
мерности можно отметить факторный анализ, многомерное шкалирование и метод экстремальной группировки признаков.
Агрегирование. Агрегирование в наиболее простой интерпретации является одним из методов перехода от множества исходных показателей к единственному, по которому следует различать ОТЕ. В общем случае методы агрегирования оперируют показателями измеренными в различных шкалах, и служат для получения иерархии признаков.
Агрегирование очень часто используется в географических и экологических исследованиях, поскольку позволяет получать оценочные классификации по многим показателям. Чаще всего результирующий показатель получают таким образом, чтобы ОТЕ его минимальными значениями могли интерпретироваться «плохие», а с максимальными - как «хорошие» (в разрезе проблемы, описываемой показателями), или наоборот.
Ограничимся рассмотрением двух наиболее часто используемых методов, которые позволяют получить единственный результирующий признак 0(dgl) = (0,(agr),...,0N(agr) путем:
• суммирования значений предварительно нормированных взвешенных показателей, т.е.

•расчета
расстояний до наилучшей или наихудшей
(возможно условной) ОТЕ
о', т.е.
В первом случае нормировка показателей может производиться и по дисперсиям, и по наилучшим (наихудшим) значениям. Важно, чтобы после нормировки большие (меньшие) значения показателей указывали на лучшую (худшую) ситуацию в ОТЕ, или наоборот. Если нормировка производилась по дисперсиям (и соответственно направление признаков не учтено), необходимо множить, например, группу негативных признаков на -1. Метод главных компо-
13
нент для «исправления кривизны» признакового пространства здесь применяться не может, так как полученные главные компоненты могут не быть в общем случае интерпретируемыми в терминах хорошо-плохо.
Второй метод подразумевает образования (N+1)-h условной ОТЕ о', показатели которой являются наилучшими (наихудшими). Вектор 0' = (§\...,о'м) покоординатно необходимо дописать в матрицу ОТЕ-признак. Далее показатели можно (и нужно) нормировать, взвешивать, проводить компонентный анализ. После этого и рассчитываются расстояния от (N+l)-u условной ОТЕ о' до всех остальных ОТЕ и формируется новый признак. Большие значения этого признака сигнализируют о худшей (лучшей) ситуации в ОТЕ по комплексу исходных показателей.
Можно заметить, что второй метод сводится к первому при нормировке по наилучшим (наихудшим) значениям, без применения метода главных компонент, и использовании манхэттенского расстояния d (т.е. первый метод - частный случай второго).
