
- •«Обработка изображений и распознавание образов» Визильтер Юрий Валентинович Методическое пособие-2010
- •Раздел 2. Распознавание образов. 184
- •Уровни и методы машинного зрения
- •Растровое изображение Изображение как двумерный массив данных
- •Алгебраические операции над изображениями
- •Физическая природа изображений
- •Изображения различных диапазонов длин волн
- •Изображения различной физической природы
- •Тип пикселя
- •Возможности и особенности системы Pisoft
- •Базовые средства просмотра и анализа изображений и видеопоследовательностей
- •Алгебра изображений
- •Геометрические преобразования изображений
- •Устройства оцифровки и ввода изображений
- •Линейки и матрицы, сканеры и камеры
- •Геометрия изображения
- •Цифровые и аналоговые устройства
- •Пространственное разрешение
- •Программное обеспечение
- •Обработка цветных изображений
- •Цветовая модель rgb
- •Цветовая модель hsv
- •Цветовая модель yuv
- •Цветовая сегментация изображения
- •Гистограмма и гистограммная обработка изображений
- •Профиль вдоль линии и анализ профиля
- •Проекция и анализ проекции
- •Бинаризация полутоновых изображений
- •Сегментация многомодальных изображений
- •Выделение и описание областей
- •Выделение связных областей на бинарных изображениях
- •1. Отслеживающие алгоритмы на примере алгоритма обхода контура.
- •2. Сканируюющие алгоритмы.
- •Оконная фильтрация изображений в пространственной области
- •Фильтрация бинарных изображений Модель шума «соль и перец»
- •Структура оконного фильтра
- •Логическая фильтрация помех
- •Бинарная медианная фильтрация
- •Бинарная ранговая фильтрация
- •Взвешенные ранговые фильтры
- •Анизотропная фильтрация
- •Расширение-сжатие (простая морфология)
- •Стирание бахромы
- •Нелинейная фильтрация полутоновых изображений
- •Ранговая оконная фильтрация
- •Минимаксная фильтрация
- •Задача выделения объектов интереса
- •Бинарные фильтры для выделения объектов
- •Метод нормализации фона
- •Скользящее среднее в окне
- •Гауссовская фильтрация
- •Преобразование Фурье. Линейная фильтрация в частотной области
- •Преобразование Фурье
- •Комплексное представление преобразования Фурье
- •Быстрое преобразование Фурье
- •Двумерное преобразование Фурье
- •Свертка с использованием преобразования Фурье
- •Фильтрация изображений в частотной области
- •Вейвлет-анализ
- •Пирамида изображений
- •Вейвлет-преобразование
- •Операторы вычисления производных
- •Операторы вычисления векторов градиентов
- •Операторы Марра и Лапласа
- •Постобработка контурного изображения Локализация края
- •Утончение контура
- •Сегментация полутоновых изображений
- •Пороговая и мультипороговая сегментация
- •Методы слияния, разбиения и слияния/разбиения областей
- •Способы описания выделенных областей
- •Текстурные признаки
- •1.6. Морфологические методы анализа сцен (по ю.П. Пытьеву) Методы обнаружения объектов, заданных эталонами
- •Согласованная фильтрация.
- •Корреляционное обнаружение.
- •Морфологический подход ю.П. Пытьева.
- •Форма изображения как инвариант преобразований изображений, отвечающих вариациям условий регистрации
- •Сравнение изображений по форме
- •Выделение отличий изображений по форме
- •Обнаружение объекта по его изображению и оценка его координат
- •*Морфология на базе кусочно-линейной интерполяции
- •Преобразование Хафа для поиска прямых
- •*Различные способы параметризации прямых
- •Преобразование Хафа для поиска окружностей
- •Анализ аккумулятора при поиске геометрических примитивов
- •Обобщенное преобразование Хафа
- •*Специализированная процедура голосования для поиска эллипсов
- •*Рекуррентное преобразование Хафа в скользящем окне
- •1.8. Математическая морфология (по ж. Серра)
- •Морфологические операции на бинарных изображениях
- •Морфологические операции на полутоновых изображениях
- •Морфологическое выделение «черт» и объектов
- •Морфологический спектр
- •Морфологические скелеты. Непрерывная бинарная морфология Непрерывная бинарная морфология
- •Непрерывное гранично-скелетное представление изображения
- •Обработка и использование скелета
- •*Обобщенные скелетные представления бинарных фигур
- •Алгоритмы утончения дискретного бинарного изображения
- •*Регуляризация скелетов
- •Типы нерегулярностей скелета
- •Устранение нерегулярностей
- •Регуляризация скелета по Тихонову
- •*Селективные морфологии
- •Метод оптических потоков
- •Дифференциальный подход
- •Корреляционный подход
- •Частотный подход
- •Корреляционное слежение.
- •Форматы хранения и передачи цифровых изображений
- •Методы сжатия цифровых изображений
- •Формат bmp
- •Формат pcx
- •Формат gif
- •Формат tiff
- •Формат jpeg
- •Форматы хранения и передачи цифровых видеопоследовательностей
- •Формат avi
- •Формат mpeg
- •Форматы mpeg 1 и mpeg 2
- •Формат mpeg 4
- •Форматы mpeg 7
- •Раздел 2. Распознавание образов.
- •Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Метод k ближайших соседей.
- •Линейные решающие правила
- •Метод построения эталонов
- •Методы ближайших соседей
- •Параметрические и непараметрические методы
- •Дискриминантные и моделирующие методы обучения
- •Способность распознавателя к обобщению. Регуляризация.
- •Байесовская теория решений. Случай двух классов. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок. Разделяющие функции для случая нормальной плотности.
- •Дискриминантный анализ. Линейный дискриминант Фишера. Персептронная функция критерия. Линейный дискриминантный анализ (lda, дискриминант Фишера)
- •Персептрон Розенблатта
- •Байесовское объединение свидетельств
- •Структурное распознавание
- •Автоматизированное конструирование алгоритмов обнаружения объектов на основе преобразований модельных описаний объектов.
- •Нейросетевое распознавание
- •Нейронные сети ассоциативной памяти. Сети Хопфилда.
- •Многослойные персептроны. Оптимизационное обучение. Метод обратного распространения ошибки.
- •Многослойные персептроны. Правило Хебба.
- •*Связь с байесовским распознаванием
- •Сети встречного распространения. Самоорганизующиеся сети.
Параметрические и непараметрические методы
Методы обучения, т.е. нахождения достаточно хорошей распознающей функции f F, традиционно подразделяются на параметрические и непараметрические в соответствии с тем, просто или сложно устроено пространство F. Параметрические - это те методы, в которых F ={F(w,·)w W} для некоторого достаточно удобного (например, евклидова) пространства параметров W и некоторой функции F:W×XY, а непараметрические - это методы, в которых, якобы, пространство F не зафиксировано заранее, а зависит от обучающего набора T. На самом деле разница между параметрическими и непараметрическими методами - только в употребляемых словах.
Полезный пример параметрических методов - методы обучения линейных распознавателей, которых даже для простейшей линейной регрессии (X =Rd, Y =R, W =R×Rd, F(w,x)=w0+j=1dwjxj) довольно много. Подробнее эти методы рассматриваются в разделе 2.
Практически бесполезный, но теоретически важный пример непараметрического (якобы) метода - описываемый в разделе 1.2.7 метод ближайшего соседа.
Дискриминантные и моделирующие методы обучения
Можно обучать распознаватели, минимизируя среднюю ошибку обучения E(f,T), оценивая качество обучения по средней ошибке тестирования E(f,T) и полностью забыв про вероятностную модель. Такие методы обучения называются дискриминантными калька с английского discriminative, канонический перевод неизвестен, название унаследовано от двухклассовой классификации, когда вычисляемая распознавателем функция f в точности различает классы и поэтому называется дискриминантом). Но можно, наоборот, пытаться все-таки восстановить распределение или условные распределения (1). Такие методы называются моделирующими (generative), канонический перевод неизвестен, название связано с тем, что распознаваемые объекты порождаются в соответствии с распределением или, соответственно, ответ y порождается признаками x в соответствии с распределением (1)). При поиске "правильного" распределения заодно обнаруживаются "правильные" подпространство в пространстве распознавателей F и "правильная" функция ошибки E. Вот несколько разновидностей таких методов, сформулированных для моделирования распределения .
Максимизация правдоподобия.
Можно очень сильно ограничить пространство распределений P и искать распределение , максимизируя вероятность увидеть то, что увидели (метод наибольшего правдоподобия, ML, maximum likelihood). Для непрерывных распределений вида p(x,y)dxdy это сводится к решению экстремальной задачи
-
P(T)=
N i=1
p(xi,yi)
max P
.
(5)
После того, как решение * найдено, ответом распознавания вектора признаков x является не какой-то конкретный элемент в пространстве ответов Y, а распределение p*;x(y) (формула (1)). Заметим, что никакая отдельная функция штрафа E(y,t) при обучении не понадобилась, да и от априорного выбора пространства распознавателей F никакой пользы пока не видно (на самом деле она может быть, см. раздел 1.2.4).
Очень сильно ограничивать пространство P необходимо для того, чтобы не получить плотность вероятности p, сколько-нибудь отличную от нуля только возле точек обучающего набора, т.е. не построить вероятностную модель, объявляющую все, кроме того, чему ее учили, практически невозможным, а значит, неинтересным. Задачи, в которых естественно возникают такие сильные ограничения, действительно встречаются, но в большинстве остальных ситуаций метод наибольшего правдоподобия работает плохо.
Максимизация апостериорной вероятности.
Несколько лучше работает метод максимума апостериорной вероятности (MAP, maximum of a-posteriori probability), для которого на пространстве распределений P в свою очередь вводится априорное распределение . Метод предполагает, что пространство распределений P достаточно простое, например, евклидово, и и априорное распределение на нем имеет плотность p(), и каждое распределение P имеет некоторую плотность p(x,y). Метод состоит в решении максимизационной задачи
-
p(T,)=p()
N i=1
p(xi,yi)
max P
(6)
(ср. с формулой (5)) и использовании этого решения так же, как и в методе наибольшего правдоподобия. При равномерном распределении формула (6)) совпадает с формулой (5)).
Байесовское обучение.
Существенно другой подход, называемый байесовским, состоит в том, что после того, как на пространстве распределений P введено априорное распределение , по формуле Байеса
-
()=P{T} =
P{T}d
P
P{T}d
вычисляется апостериорное распределение , а затем по нему вычисляется ожидание распределения p;x(y)
-
p,T;x(y) =
p;x(y) d()
(7)
и выдается в качестве ответа.
Этот подход замечателен всем, кроме одного: почти никогда не удается все проинтегрировать честно: аналитически это сделать обычно невозможно, а численно - слишком трудоемко. Есть, правда, один общеизвестный и небесполезный случай, в котором байесовское обучение можно провести аналитически, - это когда все распределения P и являются гауссовыми.
Байесовский подход действительно строит распознаватель, использующий априорные предположения и обучающие данные в полном соответствии с вероятностной наукой. А есть ли какие-нибудь обоснования применения методов MAP и ML, кроме общеизвестности их названий и наличия известных только специалистам теорем об их состоятельности? Есть, но они не всегда применимы. Метод максимизации апостериорной вероятности подменяет усреднение плотности p;x(y) по распределению d() ее значением в точке максимума плотности . Эта подмена почти корректна, если, например точка * максимума плотности единственна и почти все распределение сосредоточено в достаточно малой окрестности этой точки, в которой p;x(y) почти не отличается от p*;x(y). То же соображение работает в случае, когда максимумов много, но все они переводятся друг в друга симметриями распределения , являющимися также симметриями p;x(y). Такие ситуации действительно часто встречаются. Метод ML, как уже упоминалось выше, является просто безответственным предельным случаем метода MAP; можно доказать, что при росте числа N обучающих векторов распознаватели, обучаемые методами MAP и ML, сходятся к одному и тому же.
Все три описанные для моделирующих методов идеи, как найти самое лучшее распределение или как вместо поиска наилучшего усреднять по всем распределениям (ML, MAP и байесовский подход) применяются и при дискриминантном подходе непосредственно для обучения распознавателя.