![](/user_photo/2706_HbeT2.jpg)
- •Лекция № 10
- •Единиц в системе гис
- •2. Предварительная обработка данных.
- •3. Методы классификации, основанные на описании классов ядрами.
- •4. Параметрические методы классификации, основанные на модели смеси распределений.
- •5. Иерархические методы классификации.
- •6. Методы районирования.
- •Контрольные вопросы
6. Методы районирования.
Алгоритмы формального районирования направлены на получение территориально нерасчлененных районов, выделяемых по критерию их несхожести в признаковом пространстве с учетом выбранной метрики или матрицы близостей ОТЕ-ОТЕ. Районирование является классической задачей географии, где оно выполняется по логическим правилам и кроме признака несхожести и территориальной нерасчлененности районов зачастую, как, например, в социально-экономической географии, требуется дополнительно наличие ядра районообра-зования, районообразующих связей и др. Ряд алгоритмов формального районирования, с одной стороны, практически полностью дублирует алгоритмы классификации с добавлением дополнительной процедуры проверки условия на наличие смежности у объединяемых в районы территориальных единиц. С другой стороны, существуют специфические алгоритмы районирования, для которых отсутствуют аналоги в классификации (например, метод барьеров максимальных различий, классические примеры физико-географического районирования).
Для систематизации методов районирования, по аналогии с обычными классификациями, используют несколько оснований.
По сфере применения выделяют природное и социально-экономическое районирование. Именно в этих сферах важна территориальная нерасчлененность районов. Природные признаки априорно распределены непрерывно по
20
территории, а социально-экономическая география является основой территориального управления.
По интерпретации расстояний между объектами в пространстве признаков многие авторы выделяют узловое и однородное районирование. Узловое районирование позволяет формировать районы на основе силы связей между ОТЕ, однородное - на основе «похожести» значений их показателей. С содержательной точки зрения это разные группы методов. С математической точки зрения разница между ними сводится только к различию способов выбора метрики и функционалов расстояний и качества.
По степени охвата районирование можно подразделить на интегральное и отраслевое [В.И.Блануца, 1993. - С. 3]. Например, в случае экологического интегрального районирования оценивается экологическая ситуация в целом, а в случае отраслевого экологического районирования - какой-либо аспект экологической ситуации (состояние воздушной среды, почв, растительного покрова и т.д.). Отраслевое районирование отличается от интегрального только подбором признаков и способом их предварительной обработки.
По динамике изменения характеристик классов ОТЕ в одном из пространств методы районирования подразделяются на нацеленные на выявление районов с разными трендами атрибутивных признаков и на определение тенденции изменения сетки районов.
Методы районирования, основанные на описании районов ядрами. Основной проблемой этого класса методов является выбор ядер районов, которые обязаны быть реальными ОТЕ. После того как ядра районообразования получены, начинается последовательное присоединение к ним максимально «похожих» смежных ОТЕ.
В экологических и географических исследованиях часто применяют для районирования стандартные методы классификации, а после получения классов анализируют их пространственную структуру. Затем, выделив в каждом классе несколько ОТЕ, образующих пространственно-целостный район, полагают их
21
ядрами районов. После этого выделенные ядра расширяются путем докласси-фикации оставшихся ОТЕ по приведенному выше алгоритму.
Методы районирования, основанные на модели смеси распределений. Параметрические методы классификации на основе модели смеси распределений играют важнейшую роль в прикладной статистике. На основе этих методов разработаны эффективные алгоритмы, которые могут применяться для классификации и экологических, и географических данных.
В работе [С. Ambroise, G. Govaert, 1996] описана модификация ЫУ1-алгоритма, которую авторы назвали NEM-алгоритмом (Neighborhood ЕМ-алгоритм). Этот метод позволяет учитывать помимо атрибутивного признакового пространства и любое другое пространство, заданное матрицей близостей ОТЕ-ОТЕ. В данном случае дополнительным пространством будет географическое, а матрица близостей может быть как бинарной таблицей смежности, так и заданной пространственными расстояниями между парами ОТЕ.
По аналогии с ЕМ-алгоритмом, NEM-алгоритм итерационно находит оценки всех параметров, на каждом шаге улучшая их. Оценки апостериорных вероятностей р^ используются для районирования (или нечеткого районирования) точно так же, как и в классическом ЕМ-алгоритме. Недостатком алгоритма является необходимость подбора параметра веса пространства, от значений которого сильно зависит результат районирования.
Иерархические методы районирования. Отличие агломеративных алгоритмов районирования от соответствующих алгоритмов классификации состоит в формировании матрицы пространственной смежности и проверке на каждом шаге граничности объединяемых районов. При этом классические агломе-ративные алгоритмы классификации можно использовать для районирования при условии, что минимум расстояния между районами (или максимум функции качества при объединении) ищется только для пространственно-смежных районов.
Быстрый агломеративный алгоритм районирования полностью соответствует быстрому агломеративному алгоритму классификации с добавлением эта-
па проверки на шаге п граничности объединяемых районов, расстояния между которыми в признаковом пространстве меньше константы сп.
Большинство дивизимных алгоритмов районирования, по аналогии с «ядерными» и агломеративными, получается путем естественной модификации классических методов классификации. Дивизизимному алгоритму классификации, основанному на методе 2-средних, соответствует полностью повторяющий его метод районирования на основе алгоритма 2-медоидов. Дивизимному алгоритму, основанному на расчленении графа, соответствует давно описанный в стандартной литературе по прикладной статистике [С. А. Айвазян и др., 1989] метод классификации при ограничениях. Ограничения накладываются на используемую в дивизимном алгоритме матрицу близостей А признакового пространства матрицей пространственной смежности G в соответствии с формулой
Это условие соответствует удалению из графа расстояний признакового атрибутивного пространства (соответствующего матрице А) ребер, соединяющих пространственно несмежные ОТЕ. После удаления ребер к полученному графу применяют дивизимный алгоритм на основе расчленения графа, описанный выше.
Помимо стандартных методов разработаны и широко используются специализированные для экологии и географии процедуры районирования, для которых отсутствуют аналоги в классификации. Речь в первую очередь идет о методе барьеров максимальных различий, предложенном М. С. Монмонье [M.S.Monmonier, 1973]. Этот метод применим только к ОТЕ полигонального типа.
Значением барьера для заданного района (содержащего более одной ОТЕ) будем называть максимальное расстояние между двумя пространственно смежными ОТЕ этого района в пространстве показателей, барьером - границу между
23
двумя соответствующими ОТЕ. Обозначать значение барьера /-го района будем символом B(Sj):
Для районирования методом барьеров максимальных различий вычисляются расстояния только между пространственно смежными ОТЕ, а все ОТЕ при инициализации алгоритма относятся к одному единственному району. После этого на каждом шаге происходит деление одного из полученных районов на два (необязательно равных по площади) района. Начинается деление с определения в каждом из уже полученных районов по одному значению барьеров. среди которых отыскивается максимальный. Район, имеющий в своем составе барьер с максимальным значением, подлежит делению. По обе стороны от барьера итеративно проводится граница - до тех пор, пока она не разделит текущий район. Очередная итерация расширяет границу за счет присоединения следующего барьера (который вычисляется без учета пар ОТЕ, уже поучаствовавших в образовании предыдущих барьеров), примыкающего к границе.
Можно ограничить количество итераций алгоритма, либо заранее задавая искомое число классов К, либо вводя некоторый порог с. Поскольку значения барьера максимальных различий уменьшаются с каждым шагом алгоритма, критерием остановки алгоритма является условие
Большое разнообразие примеров и методик классификации экологии и географии, среди которых типологические, оценочные и комплексные классификации, классификации «нечетких» систем, проблемы взвешивания показателей, оценка надежности классификаций и другие можно найти в книге [B.C. Ти-кунов, 1997