Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция.10docx.doc
Скачиваний:
12
Добавлен:
02.12.2018
Размер:
835.58 Кб
Скачать

2. Предварительная обработка данных.

Важным этапом классификации ОТЕ является их предварительная обра­ботка, часто включающая нормировку, взвешивание, снижение размерности и агрегирование.

/

Нормировка показателей. На практике при проведении классификаций очень редко встречаются ситуации, когда анализируемые показатели представ­лены в одинаковых единицах измерения и масштабе. Существуют специальные термины для обозначения соизмеримых и несоизмеримых систем показателей (моноструктурные и полиструктурные соответственно). Примером монострук­турной системы показателей является процент занятых по разным отраслям промышленности.

Наиболее часто используются следующие виды нормировки.

1. Нормировка по заданному показателю.

В социально-экономической географии чаще всего нормирующим пока­зателем является общая численность населения ОТЕ или площадь занимаемой ОТЕ территории.

Пусть

О - исходный признак, j ^{1, ...,М},

norm

О - нормирующий признак.

Тогда нормировка заключается в пересчете

Примеры нормировки по заданному показателю:

  • показатель плотности населения (нормировка численности населения ОТЕ площадью, занимаемой ОТЕ);

  • процент голосов, отданный на выборах за какую-либо политическую партию (нормировка числа проголосовавших за партию в данной ОТЕ общим числом избирателей);

  • валовой внутренний продукт страны (ВВП) на душу населения (норми­ ровка ВВП общим числом граждан; в качестве ОТЕ выступают страны мира).

2. Нормировка по заданным значениям осуществляется по общей форму­ле

В качестве Ai в числителе выступает число, отклонения от которого наи­более интересны; Дг представляет величину разброса значений ОТЕ по задан­ному показателю. Ниже приведены наиболее известные разновидности норми­ровки по заданным значениям (случаи 2.1 и 2.2).

2.1. Нормировка по дисперсиям и математическим ожиданиям.

Целью данной нормировки является приведение каждого показателя к стандартному виду (в результате математическое ожидание любого показателя становится равным нулю, а дисперсия - единице).

Пусть

- оценка математического ожидания у'-го показателя,

- оценка дисперсии j-то показателя. Тогда нормировка заключается в пересчете

2.2. Нормировка по наилучшим или наихудшим значениям [|В. С. Тику- нов, 1985].

Целью данной нормировки является перевод показателя в проценты от­клонений от заданного наилучшего или наихудшего значения с. Пусть

Тогда нормировка заключается в пересчете

Часто (не всегда) в качестве с берут максимальные или минимальные зна­чения у-го показателя 0^х или 0^ . Допустим, максимальное значение показате­ля до нормировки соответствовало наилучшей ситуации в ОТЕ (например, ожидаемой продолжительности жизни). Если нормировать показатель по мак­симальному значению, то нулю будет соответствовать наилучшее значение, единице - наихудшее.

Полученные в результате нормировки по наилучшим или наихудшим значениям 0|7) ограничены отрезком [0,1]. Иногда в формулу нормировки вво­дят умножение на 100, изменяя диапазон значений на отрезке [0,100].

В ряде случаев требуется нормировать показатели по наилучшим или наихудшим условным значениям. Например, для оценок заболеваемости теоре­тически наилучшее значение - нуль, т.е. можно положить с = О^[о^|, ,0^х ]• При этом следует изменить знаменатель в формуле нормировки:

Взвешивание показателей. Процесс получения весов для показателей необходим для корректного проведения классификаций. Зачастую, по аналогии с различными единицами измерения показателей, различны и их вклады, зна­чимость для данной предметной области. Исследователь, например, может включить в число показателей анализа первостепенные и второстепенные, а для различия степени их влияния на конечный результат уменьшить влияние вто­ростепенных показателей, «взвешивая» их. Такое взвешивание может заклю­чаться в делении уже нормированного показателя je{l,...,M] на какое-либо чис­ло teR,T.e. присвоении

10

показателю веса1 Ct}/ =

t

При типологических классификациях знак веса никак не влияет на ре­зультат анализа, поскольку исходный показатель можно умножать на -1. В слу­чае использования показателей для проведения оценочных классификаций их знаки могут оказаться решающими. Так, взвешивание может заключаться толь­ко в домножении некоторых показателей на -1, чтобы увеличение значений лю­бого из них сигнализировало бы или об улучшении, или об ухудшении ситуа­ции в рассматриваемой ОТЕ.

Способы получения объективных весов для показателей различны. Наи­более часто используется экспертный метод, при котором специалист или их группа в конкретной предметной области оценивает важность каждого показа­теля. Существуют также и так называемые аналитические методы. Проблема взвешивания показателей в географических исследованиях обсуждается в рабо­те [В. С. Тикунов, 1997].

После нахождения вектора весов а> = (о)],...,сом) он применяется либо к матрице ОТЕ-признак, либо используется при расчете расстояний между ОТЕ в признаковом пространстве.

Анализ главных компонент. Анализ главных компонент, или компо­нентный анализ, - один из наиболее часто используемых методов снижения размерности. Данным методом решается задача отыскания на основе существующей системы атрибутивных признаков, описывающих ОТЕ, новой системы со следующими свойствами:

  • признаки новой системы являются линейными комбинациями призна­ ков исходной системы;

  • количество признаков в новой системе в общем случае не больше, а на практике всегда меньше числа признаков в исходной системе;

  • признаки новой системы ортогональны, т.е. не коррелированы;

  • признаки новой системы упорядочены в порядке убывания дисперсии;

  • признаки новой системы несут столько же информации (или наперед

11

заданный процент информации, например 90 %) об изменчивости объектов, сколько и исходные признаки. Под информацией понимается дисперсия при­знаков.

Метод главных компонент следует применять для исправления искажен­ного взаимными корреляциями исходного пространства признаков, снижения объемов хранящихся данных без потери существенной части информации об ОТЕ, визуализации ОТЕ в пространстве признаков (что достигается, например, изображением ОТЕ в виде точек на плоскости первых двух главных компонент) и выявления латентных (т. е. скрытых, не наблюдаемых в явном виде) показате­лей, отражающих суть процесса или явления.

В матричной форме результат работы метода главных компонент записы­вается в следующем виде:

z = XL или ZNxm = X NxMLMxm,

где М - количество исходных признаков; т - количество полученных главных компонент, т < М; Z = ZNxm = (z1 ,..., z(m) ) - матрица новых признаков (как и в исходной матрице, признаки расположены по столбцам); X = Х\тд/ = (о(1),.--, о(М)) - исходная матрица ОТЕ-признак; L = LMxm = (l(1),...,l(m)) - вычислен­ная матрица компонентных нагрузок.

Наиболее просто воспринимается геометрическая интерпретация метода главных компонент. В многомерном пространстве признаков ОТЕ рассматри­ваются как точки, геометрическая структура облака которых в случае нормаль­ного распределения напоминает М-мерный эллипсоид. За новые признаки при­нимаются главные оси воображаемого эллипсоида, отсортированные в порядке уменьшения дисперсий ОТЕ по осям.

Применение метода главных компонент в качестве предварительного этапа классификации описано в подразд. 3.1 «ГИС и дистанционное зондирова­ние». Компонентный анализ является не единственным методом снижения раз­мерности. В качестве при ров других распространенных методов снижения раз-

мерности можно отметить факторный анализ, многомерное шкалирование и ме­тод экстремальной группировки признаков.

Агрегирование. Агрегирование в наиболее простой интерпретации явля­ется одним из методов перехода от множества исходных показателей к единст­венному, по которому следует различать ОТЕ. В общем случае методы агреги­рования оперируют показателями измеренными в различных шкалах, и служат для получения иерархии признаков.

Агрегирование очень часто используется в географических и экологиче­ских исследованиях, поскольку позволяет получать оценочные классификации по многим показателям. Чаще всего результирующий показатель получают та­ким образом, чтобы ОТЕ его минимальными значениями могли интерпретиро­ваться «плохие», а с максимальными - как «хорошие» (в разрезе проблемы, описываемой показателями), или наоборот.

Ограничимся рассмотрением двух наиболее часто используемых методов, которые позволяют получить единственный результирующий признак 0(dgl) = (0,(agr),...,0N(agr) путем:

• суммирования значений предварительно нормированных взвешенных показателей, т.е.

•расчета расстояний до наилучшей или наихудшей (возможно условной) ОТЕ о', т.е.

В первом случае нормировка показателей может производиться и по дис­персиям, и по наилучшим (наихудшим) значениям. Важно, чтобы после норми­ровки большие (меньшие) значения показателей указывали на лучшую (худ­шую) ситуацию в ОТЕ, или наоборот. Если нормировка производилась по дис­персиям (и соответственно направление признаков не учтено), необходимо множить, например, группу негативных признаков на -1. Метод главных компо-

13

нент для «исправления кривизны» признакового пространства здесь применяться не может, так как полученные главные компоненты могут не быть в общем случае интерпретируемыми в терминах хорошо-плохо.

Второй метод подразумевает образования (N+1)-h условной ОТЕ о', показа­тели которой являются наилучшими (наихудшими). Вектор 0' = (§\...,о'м) поко­ординатно необходимо дописать в матрицу ОТЕ-признак. Далее показатели можно (и нужно) нормировать, взвешивать, проводить компонентный анализ. После этого и рассчитываются расстояния от (N+l)-u условной ОТЕ о' до всех остальных ОТЕ и формируется новый признак. Большие значения этого при­знака сигнализируют о худшей (лучшей) ситуации в ОТЕ по комплексу исход­ных показателей.

Можно заметить, что второй метод сводится к первому при нормировке по наилучшим (наихудшим) значениям, без применения метода главных ком­понент, и использовании манхэттенского расстояния d (т.е. первый метод - ча­стный случай второго).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]