Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Картфак-пособие.doc
Скачиваний:
4
Добавлен:
01.04.2025
Размер:
3.68 Mб
Скачать

7.7. Обучение статистических классификаторов. Меры статистической разделимости.

Методы контролируемой классификации или, иначе, классификации с обучением требуют наличия готовых обучающих данных - сигнатур классов. Обычно классификация с обучением применяется в тех случаях, когда необходимо выделить на изображении определенный набор классов, независимо от того, сколько их там на самом деле. Остальные классы могут быть отнесены либо к классу «прочее», либо объединены с другими классами, как это делается при неконтролируемой классификации.

Основой для получения сигнатур классов могут служить, в том числе, и сигнатуры, полученные при неконтролируемой классификации, или же сигнатуры, полученные в результате группировки кластеров [1]. Однако это возможно лишь в тех случаях, когда такие кластеры или их группы на изображении достаточно точно «ложатся» на определенные типы объектов. В большинстве случаев, однако, границы между сигнатурами таких классов в пространстве яркостей не оптимальны, то есть не обеспечивают минимальные ошибки при классификации всех пикселей изображения.

В разделе 7.2 был рассмотрен еще один способ получения обучающих данных, имеющийся в пакете ERDAS Imagine, - непосредственно в пространстве яркостных признаков. Однако этот способ приемлем только в тех случаях, когда между всеми парами каналов наблюдается высокая корреляция, за исключением какой-либо одной пары (обычно это пара «красный-ближний ИК»). В этом случае можно выбрать области решения на диаграмме рассеяния этой пары каналов.

Основным способом получения обучающих данных является создание сигнатур по оконтуренным на изображении эталонным участкам. При этом необходимо учитывать, что качество обучения зависит от целого ряда факторов.

1. От способа RGB-синтеза изображения при выводе на экран и особенностей палитры. В процессе RGB-синтеза, так или иначе, происходит некоторая потеря информации, обусловленная самой математической моделью этой процедуры. Кроме того, индивидуальные особенности восприятия каждым человеком цветовой гаммы влияют на способность аналитика различать объекты исследования и, следовательно, на процесс формирования обучающих выборок. Из этих соображений, особенно при большом количестве каналов, бывает полезно использовать для выбора эталонных участков RGB-композиции в главных компонентах (см. раздел 6.3).

2. От достоверности наземных данных, в том числе от способа их сбора и точности координатной привязки тестовых участков к изображению. При разрешении цифрового изображения на местности 10-15 м, а тем более 30-50м, мы едва ли сможем строго привязать точечные измерения. Следовательно, для надежного обучения классификатора необходимы тестовые участки с высокой степенью пространственной однородности.

При работе с материалами наземных обследований это еще один довод в пользу двухэтапной схемы обработки. Сначала выполняется неконтролируемая классификация с целью выбора участков, однородных по индексу определенного класса и тематическая интерпретация этих классов с использованием справочных картографических материалов и данных наземных обследований. Затем выполняется классификация с обучением по наиболее типичным однородным эталонам.

В ERDAS Imagine предусмотрен еще один способ получения наиболее однородных по яркостным признакам эталонных участков: наращивание областей с использованием функции Seed Properties AOI-инструментария. Этот способ рассмотрен в методическом пособии для практических занятий [1].

3. От размера и способа расположения обучающих выборок на изображении. Изменчивость спектральных отражательных свойств объектов земной поверхности даже в пределах одного изображения может оказаться очень высокой. Кроме факторов, обусловленных условиями съемки и учитывающихся в процессе нормализации изображений, на отражательные характеристики объектов могут повлиять такие факторы, как ветер, осадки и т.п. Поэтому, если не удается выбрать достаточно большой эталонный участок (обычно не менее 100 пикселей), нужно выбрать несколько эталонов одного класса в разных частях изображения и затем объединить сигнатуры этих участков в сигнатуру одного класса. При этом следует стремиться к тому, чтобы все обучающие выборки имели примерно одинаковый размер.

После подготовки обучающих данных необходимо провести их статистический анализ для выбора наиболее подходящего метода (или схемы) классификации. Если мы собираемся использовать параметрические методы классификации, необходимо убедиться, что гистограммы сигнатур классов могут быть аппроксимированы нормальным распределением. Последствия несоответствия распределения сигнатур нормальному рассмотрены в пособии для практических занятий [1]. Если добиться такого соответствия невозможно, лучше использовать комбинированную схему обработки с непараметрическим методом классификации в качестве основного (см. раздел 7.8.).

Предположим теперь, что мы получили вполне надежные обучающие выборки и рассчитали параметры функций плотности распределения для всех классов. Каким способом можно оценить возможности удовлетворительной классификации конкретных данных при выбранных описаниях классов, то есть ожидаемые вероятности ошибок? Для этой цели используется такое понятие, как статистическая разделимость.

Статистическая разделимость классов - это некоторая функциональная характеристика, известным образом связанная с вероятностью ошибки классификации.

Как мы уже видели при рассмотрении статистических классификаторов, вероятность ошибки при разделении пары классов связана с площадью перекрытия их функций плотности распределения (рис.30).

Ясно, что при различных средних значениях m1 и m2 (рис. 30, а) вероятность ошибки убывает при увеличении расстояния между m1 и m2 . Поэтому для классов с различными средними можно использовать такую меру статистической разделимости, как нормализованное расстояние:

. (33)

Величина Rn связана обратной зависимостью с вероятностью ошибок: она возрастает как с увеличением расстояния между средними, так и с уменьшением дисперсии внутри классов. Для нормальных распределений эта величина принимает значение Rn=1 “на уровне одного ”, то есть когда функции плотности распределения соприкасаются в точках перегиба: |m1-m2|=1+2. На этом уровне при равных априорных вероятностях появления классов вероятность ошибок классификации (заштрихованная площадь) 0.33. Это обычно считается верхней границей допустимой величины ошибки, то есть результат уже поддается интерпретации и постклассификационной обработке.

Для многомерного случая (при C1= C2= C, m1m2) иногда используется квадратичное расстояние Махаланобиса между векторами средних значений [6], которое для нормальных распределений иначе называют расстоянием между плотностями распределения:

R12=(m1-m2) TC-1(m1-m2). (34)

Расстояние (34) также обратно пропорционально ожидаемой величине ошибки.

Недостатки мер такого типа проявляются в случаях, когда средние значения для двух классов совпадают (рис.30, б). Поэтому для обработки всех ситуаций необходима мера более универсальная. Таковой является, например, попарная дивергенция, позволяющая учесть соотношения между значениями плотностей распределения двух классов в каждой точке х.

Дивергенция определяется через так называемое среднее количество различающей информации.

Средним количеством различающей информации для класса 1 относительно класса 2 называется величина [6]

. (35)

Аналогично можно записать среднее количество различающей информации для класса 2 относительно класса 1. Тогда полное среднее количество различающей информации для пары классов 1 и 2 будет выглядеть так:

(36)

Величина D12 называется дивергенцией. Как видно из формулы (36), дивергенция включает само отношение правдоподобия и его логарифм, то есть учитывает расстояние между функциями правдоподобия в каждой точке пространства Х и их соотношение.

Несмотря на кажущуюся сложность выражения (36) для многомерного случая, для нормально распределенных значений х дивергенция достаточно просто вычисляется через средние и и ковариационные матрицы пары классов [4].

D12= ½ tr [(C1-C2)(C2-1-C1-1)]+ ½ tr [(C1-1+C2-1)(m1-m2)(m1-m2)T. (37)

Дивергенция пригодна для оценки обеих ситуаций, представленных на рис. 27. Она удовлетворяет требованиям метрики: Dij>0 при ij, Dij=0 при i=j, Dij=Dji, Dij(x1, …, xn)Dij(x1, …, xn,xn+1), то есть добавление нового измерения никогда не приводит к уменьшению дивергенции. Более того, если признаки классов распределены по нормальному закону с равными ковариационными матрицами, то нетрудно показать, что Dij=Rij, где Rij – квадратичное расстояние Махаланобиса. При статистической независимости измерений дивергенция аддитивна: . Эти свойства дивергенции иногда используют при выборе признаков для оценки их информативности [4]: при заданном количестве классов из возможного набора признаков следует отбирать те, для которых общая или средняя попарная дивергенция максимальна.

Однако квадратичная мера D с увеличением расстояния между классами растет значительно быстрее, чем величина R из (33). Поэтому использование для набора из К классов такой оценки, как средняя попарная дивергенция, целесообразно только в тех случаях, когда все классы распределены равномерно по пространству Х. В противном случае даже один класс, далеко отстоящий от всех остальных, может дать слишком оптимистическую оценку ошибки.

В общем случае предпочтительнее использовать предлагаемую в ERDAS Imagine трансформированную дивергенцию [7], которая рассчитывается по формуле:

. (38)

Эта величина принимает при 100% точности классификации максимальное значение 2000.

Более грубой, но и более простой оценкой является так называемое расстояние Джеффриса-Матуситы (J-M расстояние) [2]. J-M расстояние рассчитывается по формуле:

(39)

Для нормально распределенных значений признака J-M расстояние вычисляется по формуле [7]:

. (40)

J-M расстояние связано с ожидаемой вероятностью правильного распознавания зависимостью, которую можно считать почти линейной. В ERDAS Imagine при 100% вероятности правильного распознавания эта величина принимает значение 1414.