Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4 курс / 1 семестр / ГИС / Лурье И.К. - Геоинформационное картографирование - М., КДУ - 2008.pdf
Скачиваний:
1248
Добавлен:
23.07.2018
Размер:
14.5 Mб
Скачать

8.4. Алгоритмы классификации

393

8.4.3. Алгоритмы неконтролируемой классификации

Алгоритмы неконтролируемой классификации позволяют пользователю задать некоторые параметры, которые компьютер применяет для обнаружения присущих данным спектральных (в том числе статистических) образов. Эти образы не обязательно соответствуют объектам съемки; они являются простыми группами пикселов со сходными спектральными характеристиками.

Алгоритмы неконтролируемой классификации реализуют часто применяемые в различных многомерных исследованиях методы кластеризации, в основе которых лежат так называемые пороговые процедуры. В них предполагается, что количество первоначальной информации достаточно для разделения классов и поэтому эталоны не используются. При обработке снимков эти алгоритмы применяют разные меры разделимости классов в пространстве признаков объектов и составляют математическую основу их формальной классификации.

В общем случае при пороговой классификации сравниваются значения яркости двух соседних пикселов. Если различие в значениях яркости превышает некоторую заранее заданную величину — порог, то считается, что эти пикселы принадлежат разным объектам и между ними проходит разделяющая граница. В случае многозонального снимка пороги задают либо для различий яркостей каждой спектральной зоны, либо для расстояний в пространстве признаков, которые используют в качестве меры разделимости. При таком способе классификации точность обычно невысока, тем не менее, при отсутствии априорной информации о классах выполнение такой процедуры целесообразно, так как она позволяет выделить однородные по яркости области (подклассы) объектов на основе их естественных природных отличий, проявляющихся в спектральной яркости. Когда объекты некоторого класса описываются векторами, компонентами которых являются действительные числа, этот класс можно рассматривать как кластер и выделять его свойства в пространстве образов кластера.

Алгоритмы кластеризации. В основе алгоритмов кластеризации лежит объединение пикселов в группы — кластеры — в зависимости от установленного дешифровщиком порога (порогов) близости их характеристик. Основная процедура состоит и следующем.

Пусть каждый элемент изображения на исходном многозональном снимке описывается вектором Х{ спектральных признаков

394 Глава 8. Цифровая обработка изображений

X г д е г и с — номера строк и столбцов элементов изображения, j — номер зоны спектра, а для оценки меры сходства объектов (и кластеров) задано значение пороговой величины d. Выбор меры сходства лежит в основе правила отнесения элементов к области, характеризуемой центром некоторого кластера — средневзвешенным значением яркостей всех пикселов Mk, вошедших в кластер. Простейшей мерой сходства является евклидово расстояние (8.10).

Компьютерная обработка снимков осуществляется построчно. Так как никакой априорной информации о центрах кластеров не имеется, то в качестве центра первого кластера — его значения Mk — выбирается первый пиксел начальной строки. Далее вычисляются расстояния от него до следующих пикселов в строке. Эти расстояния сравниваются с порогом. Если каждое из них меньше d, то число пикселов в формируемом кластере увеличивается на

единицу для каждого Х-, отнесенного к кластеру, а центр

кластера

пересчитывается по формуле

 

 

*

1

(8.18)

где пк — число элементов снимка, принадлежащих к k-му кластеру, MJk -j-я компонента нового центра кластера, MJk старое значение j-vL координаты центра того же кластера. Пиксел, отнесенный к k-му кластеру, на карте кластеризации кодируется числом, равным k.

Операция повторяется для последующих элементов строки снимка до тех пор, пока расстояние от рассматриваемого пиксела до центра кластера не станет больше d. В этом случае отыскивается кластер, расстояние до центра которого от пиксела меньше d. После нахождения такого кластера его центр пересчитывается по формуле (8.18) и соответственно меняются текущие параметры. Если же такого центра не оказалось, то элемент считают центром нового кластера, формируют его параметры, и процесс повторяется с рассмотрения следующего элемента. После просмотра всей строки переходят к следующей; при этом учитываются результаты просмотра предыдущих строк и в качестве центров кластеров используются ранее созданные. Процедура повторяется до тех пор, пока не будут просмотрены все строки снимка.

В результате выполнения алгоритма создается так называемая карта кластеризации, а также массив спектральных координат

8.4. Алгоритмы классификации

395

центров кластеров с определенным числом пикселов в каждом из них. Дешифровщик, используя карту кластеризации, а также дополнительную информацию, может принять решение об объединении областей в нужные тематические классы, тем самым способствуя созданию тематической карты.

Существуют различные модификации такого алгоритма кластеризации, отличающиеся в основном способом приближения к классам выделяемых кластеров, основанных на дополнительных проверках их «качества». При этом оценивается:

расстояние между образованными центрами кластеров: при небольшом расстоянии повышается вероятность пересечения кластеров и возникает необходимость их объединения;

разброс пикселов в кластерах: большая дисперсия значений яркости пиксела относительно центра кластера служит показателем случайности попадания этого пиксела в данный кластер; кластер «рыхлый» и скорее всего должен быть разделен.

Подобные проверки выполняются итерационно и на каждой итерации уточняются характеристики кластеров. Должны быть заданы следующие величины: К — число кластеров, которое нужно выделить на снимке (число классифицируемых объектов); К — число эталонных кластеров, которое может не совпадать с К, и значения координат их центров — эталонные значения центров кластеров; необходимое число итераций последовательной кластеризации; массив исходных данных — подлежащие кластеризации N объектов; два оцениваемых параметра, задающие пороговые значения «качества» кластеров.

В начале работы алгоритма пикселы приписываются к ближайшим эталонным центрам, например, по минимальному расстоянию. При этом образуется Кэ кластеров, центры которых вычисляются по формуле, аналогичной (8.18). Далее вычисляют расстояния между центрами кластеров, а для каждого кластера — координаты вектора среднеквадратических отклонений признаков объектов от центра кластера — внутрикластерная дисперсия. Алгоритм объединяет кластеры при расстоянии между их центрами меньше заданного порога и разделяет их при внутрикластерной дисперсии по какойлибо спектральной компоненте, большей заданного для нее порога. В случае, если разделение или объединение произошло, переходят

396

Глава 8. Цифровая обработка изображений

к новой итерации, на которой уточняются заданные первоначально центры кластеров. Число итераций должно быть подобрано так, чтобы на соседних итерациях значения координат центров с одним номером отличались несущественно (совпадали), — это условие сходимости алгоритма.

Аналогичные действия выполняются в известном алгоритме Isodata, который положен в основу кластеризации во многих растровых ГИС-пакетах. Их реализации отличаются рядом эвристических процедур: в качестве Nобъектов используют кластеры, полученные с помощью стандартной кластеризации, описанной выше (как первый этап кластеризации); первоначальные К кластеров программа выбирает на основе анализа гистограммы распределения яркости, построенной по синтезированному снимку. В пакете Idrisi программа Isoclust для уточнения параметров кластеров на каждой итерации использует процедуры метода максимального правдоподобия.

Для первой итерации алгоритма Isodata средние значения N кластеров можно определять произвольно, например, вычисляют средние значения М. и стандартные отклонения а. спектральной яркости в каждой зоне снимка, а полученный интервал (М. ± а ) делят па N равных частей, назначая точки деления центрами кластеров [Лурье, Косиков, 2003].

Вобщем случае выбор числа эталонных кластеров и, если нужно, их центров, остается за дешифровщиком. При этом может быть использована информация о характере спектральной яркости основных типов объектов (например, вода, почва, растительность

ит. п.), поскольку значения центров кластеров — аналоги их спектральных образов.

Всостав программного обеспечения автоматизированной обработки аэрокосмических снимков обычно входят несколько алгоритмов как контролируемой, так и неконтролируемой классификации. Выбор рабочего алгоритма определяется наличием априорной информации, качеством используемого снимка, решаемой задачей, опытом и интуицией дешифровщика.

8.4.4. Оценка результатов классификации

После того, как классификация выполнена, необходимо оценить точность ее результатов, которая подразумевает оценку точности совпадения полученных классов и классов местности. Однако,

8.4. Алгоритмы классификации

397

поскольку границы классов местности, как правило, достоверно неизвестны, то оценивают такой показатель, как достоверность классификации, который определяется как процент пикселов, верно отнесенных к классу, заданному как эталон. Для оценки качества классификации могут быть использованы разные способы:

визуальный экспертный анализ с привлечением всех известных данных об объектах местности;

проверка по данным в координатно привязанных точках наземных наблюдений, не использованных при наборе обучающих выборок;

оценки статистических характеристик выборок и итоговых классов.

Визуальный экспертный анализ необходим на всех стадиях оценок полученных результатов классификации.

Проверять каждый пиксел классифицированного изображения на соответствие истинным данным о поверхности или каким-либо иным образом не практично. Поэтому, как правило, используют набор эталонных пикселов. Эталонные пикселы — это точки на классифицированном изображении, для которых известны фактические данные. Целесообразно использовать данные в точках наземных обследований, координатно привязанных с помощью ГПС-приемников (GPS) и не находящихся ни на одном из участков обучающих выборок (которые, естественно, должны классифицироваться правильно). По координатам точки накладываются на снимок, и имеющиеся полевые определения сопоставляются с полученными на снимке классами. В зависимости от точности приемника, координатной привязки и разрешения снимка классы могут определяться в радиусе до нескольких пикселов от контрольной точки.

Оценка статистических характеристик может выполняться интерактивно с использованием доступных компьютерных средств. Она включает:

определение пороговых значений для отделения ошибочно классифицированных пикселов;

оценку точности и достоверности на основе сравнения результатов классификации с истинными данными о земной поверхности или другими данными.