
- •«Обработка изображений и распознавание образов» Визильтер Юрий Валентинович Методическое пособие-2010
- •Раздел 2. Распознавание образов. 165
- •1.1. Задачи и приложения машинного зрения. Примеры практических приложений.
- •Уровни и методы машинного зрения
- •Растровое изображение Изображение как двумерный массив данных
- •Алгебраические операции над изображениями
- •Физическая природа изображений
- •Изображения различных диапазонов длин волн
- •Изображения различной физической природы
- •Тип пикселя
- •Возможности и особенности системыPisoft
- •Базовые средства просмотра и анализа изображений и видеопоследовательностей
- •Алгебра изображений
- •Геометрические преобразования изображений
- •Устройства оцифровки и ввода изображений
- •Линейки и матрицы, сканеры и камеры
- •Геометрия изображения
- •Цифровые и аналоговые устройства
- •Пространственное разрешение
- •Программное обеспечение
- •Обработка цветных изображений
- •Цветовая модельRgb
- •Цветовая модель hsv
- •Цветовая модель yuv
- •Цветовая сегментация изображения
- •Гистограмма и гистограммная обработка изображений
- •Профиль вдоль линии и анализ профиля
- •Проекция и анализ проекции
- •Бинаризация полутоновых изображений
- •Сегментация многомодальных изображений
- •Выделение и описание областей
- •Выделение связных областей на бинарных изображениях
- •1. Отслеживающие алгоритмы на примере алгоритма обхода контура.
- •2. Сканируюющие алгоритмы.
- •1.3. Фильтрация. Выделение объектов при помощи фильтров
- •Оконная фильтрация изображений в пространственной области
- •Фильтрация бинарных изображений Модель шума «соль и перец»
- •Структура оконного фильтра
- •Логическая фильтрация помех
- •Бинарная медианная фильтрация
- •Бинарная ранговая фильтрация
- •Взвешенные ранговые фильтры
- •Анизотропная фильтрация
- •Расширение-сжатие (простая морфология)
- •Стирание бахромы
- •Нелинейная фильтрация полутоновых изображений
- •Ранговая оконная фильтрация
- •Минимаксная фильтрация
- •Задача выделения объектов интереса
- •Бинарные фильтры для выделения объектов
- •Метод нормализации фона
- •Скользящее среднее в окне
- •Гауссовская фильтрация
- •Преобразование Фурье. Линейная фильтрация в частотной области
- •Преобразование Фурье
- •Комплексное представление преобразования Фурье
- •Быстрое преобразование Фурье
- •Двумерное преобразование Фурье
- •Свертка с использованием преобразования Фурье
- •Фильтрация изображений в частотной области
- •Вейвлет-анализ
- •Пирамида изображений
- •Вейвлет-преобразование
- •Операторы вычисления производных
- •Операторы вычисления векторов градиентов
- •Операторы Марра и Лапласа
- •Постобработка контурного изображения Локализация края
- •Утончение контура
- •Сегментация полутоновых изображений
- •Пороговая и мультипороговая сегментация
- •Методы слияния, разбиения и слияния/разбиения областей
- •Способы описания выделенных областей
- •Текстурные признаки
- •1.6.Морфологические методы анализа сцен (по ю.П. Пытьеву) Методы обнаружения объектов, заданных эталонами
- •Согласованная фильтрация.
- •Корреляционное обнаружение.
- •Морфологический подход ю.П. Пытьева.
- •Форма изображения как инвариант преобразований изображений, отвечающих вариациям условий регистрации
- •Сравнение изображений по форме
- •Выделение отличий изображений по форме
- •Обнаружение объекта по его изображению и оценка его координат
- •*Морфология на базе кусочно-линейной интерполяции
- •Преобразование Хафа для поиска прямых
- •*Различные способы параметризации прямых
- •Преобразование Хафа для поиска окружностей
- •Анализ аккумулятора при поиске геометрических примитивов
- •Обобщенное преобразование Хафа
- •*Специализированная процедура голосования для поиска эллипсов
- •*Рекуррентное преобразование Хафа в скользящем окне
- •1.8.Математическая морфология (по ж. Серра)
- •Морфологические операции на бинарных изображениях
- •Морфологические операции на полутоновых изображениях
- •Морфологическое выделение «черт» и объектов
- •Морфологический спектр
- •Морфологические скелеты. Непрерывная бинарная морфология Непрерывная бинарная морфология
- •Непрерывное гранично-скелетное представление изображения
- •Обработка и использование скелета
- •*Обобщенные скелетные представления бинарных фигур
- •Алгоритмы утончения дискретного бинарного изображения
- •*Регуляризация скелетов
- •Типы нерегулярностей скелета
- •Устранение нерегулярностей
- •Регуляризация скелета по Тихонову
- •*Селективные морфологии
- •1.9. Анализ движения. Выделение движущихся объектов. Разность кадров. Вычитание фона. Анализ оптических потоков. Слежение за движущимися объектами. Корреляционное слежение.
- •Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Методkближайших соседей.
- •Линейные решающие правила
- •Метод построения эталонов
- •Методы ближайших соседей
- •Параметрические и непараметрические методы
- •Дискриминантные и моделирующие методы обучения
- •Способность распознавателя к обобщению. Регуляризация.
- •Байесовская теория решений. Случай двух классов. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок. Разделяющие функции для случая нормальной плотности.
- •Дискриминантный анализ. Линейный дискриминант Фишера. Персептронная функция критерия. Линейный дискриминантный анализ (lda,дискриминант Фишера)
- •Персептрон Розенблатта
- •Анализ свидетельств
- •Байесовское объединение свидетельств
- •Структурное распознавание
- •Автоматизированное конструирование алгоритмов обнаружения объектов на основе преобразований модельных описаний объектов.
- •Нейросетевое распознавание
- •Нейронные сети ассоциативной памяти. Сети Хопфилда.
- •Многослойные персептроны. Оптимизационное обучение. Метод обратного распространения ошибки.
- •Многослойные персептроны. Правило Хебба.
- •*Связь с байесовским распознаванием
- •Сети встречного распространения. Самоорганизующиеся сети.
Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Методkближайших соседей.
Для построения решающих правил нужна обучающая выборка. Обучающая выборка – это множество объектов, заданных значениями признаков и принадлежность которых к тому или иному классу достоверно известна "учителю" и сообщается учителем "обучаемой" системе. По обучающей выборке система строит решающие правила. Качество решающих правил оценивается по контрольной (экзаменационной) выборке, в которую входят объекты, заданные значениями признаков, и принадлежность которых тому или иному образу известна только учителю. Предъявляя обучаемой системе для контрольного распознавания объекты экзаменационной выборки, учитель в состоянии дать оценку вероятностей ошибок распознавания, то есть оценить качество обучения. К обучающей и контрольной выборкам предъявляются определённые требования. Например, важно, чтобы объекты экзаменационной выборки не входили в обучающую выборку. Обучающая и экзаменационная выборки должны быть репрезентативны, то есть достаточно полно представлять генеральную совокупность
Линейные решающие правила
Само название говорит о том, что граница, разделяющая в признаковом пространстве области различных образов, описывается линейной функцией (рис. 4)
=
.
Рис. 4. Линейное решающее правило для распознавания двух образов
Одна
граница при этом разделяет области двух
образов. Если
>2,
то требуется несколько линейных функций
и граница является, вообще говоря,
кусочно линейной. Для наглядности будем
считать
=2.
Если на множестве объектов выполняется
условие
,
если
–
реализация первого образа
,
если
–
реализация второго образа
,
то
образы
и
называют линейно разделимыми.
Существуют различные методы построения линейных решающих правил (см. ниже, например, линейный дискриминант Фишера).
Метод построения эталонов
Для каждого класса по обучающей выборке строится эталон, имеющий значения признаков
,
где =
,
–
количество объектов данного образа в
обучающей выборке,
–
номер признака.
По существу, эталон – это усреднённый по обучающей выборке абстрактный объект (рис. 2). Абстрактным мы его называем потому, что он может не совпадать не только ни с одним объектом обучающей выборки, но и ни с одним объектом генеральной совокупности.
Распознавание
осуществляется следующим образом. На
вход системы поступает объект
,
принадлежность которого к тому или
иному образу системе неизвестна. От
этого объекта измеряются расстояния
до эталонов всех образов, и
система относит к тому образу, расстояние
до эталона которого минимально. Расстояние
измеряется в той метрике, которая введена
для решения определённой задачи
распознавания.
Методы ближайших соседей
Метод
ближайшего соседа:
Обучение в данном случае состоит в
запоминании всех объектов обучающей
выборки. Если системе предъявлен
нераспознанный объект
,
то она относит этот объект к тому образу
(рис. 7), чей "представитель"
оказался ближе всех к
.
Метод
ближайших соседей
состоит в том, что строится гиперсфера
объёма
с центром в
.
Распознавание осуществляется по
большинству "представителей"
какого-либо образа, оказавшихся внутри
гиперсферы. Здесь тонкость состоит в
том, чтобы правильно (разумно) выбрать
объём гиперсферы.
должен быть достаточно большим, чтобы
в гиперсферу попало относительно большое
число "представителей" разных
образов, и достаточно маленьким, чтобы
не сгладить нюансы разделяющей образы
границы. Метод ближайших соседей имеет
тот недостаток, что требует хранения
всей обучающей выборки, а не её обобщённого
описания. Зато он даёт хорошие результаты
на контрольных испытаниях, особенно
при больших количествах объектов,
предъявленных для обучения.
Для сокращения числа запоминаемых объектов в методах ближайших соседей можно применять комбинированные решающие правила, например сочетание метода эталонов и ближайших соседей. В этом случае запоминанию подлежат те объекты, которые попали в зону пересечения гиперсфер. Метод ближайших соседей применяется лишь для тех распознаваемых объектов, которые попали в данную зону пересечения. Иными словами, запоминанию подлежат не все объекты обучающей выборки, а только те, которые находятся вблизи разделяющей образы границы.
Обучение с учителем: статистический подход. Формальная постановка задачи распознавания. Параметрические и непараметрические методы. Дискриминантные и моделирующие методы обучения. Максимизация правдоподобия. Максимизация апостериорной вероятности. Байесовское обучение. Способность распознавателя к обобщению. Регуляризация.
Формальная постановка задачи распознавания
В задаче статистического обучения с учителем обычно рассматриваются следующие элементы:
пространство (векторов) признаков X ,
точками которого кодируются распознаваемые объекты, например, d-мерное евклидово пространство Rd;
пространство ответов Y ,
точками которого кодируются результаты распознавания, например, q-мерное пространство Rq;
пространство F распознающих функций (распознавателей) f:XY,
например, в случае евклидовых пространств X и Y, - непрерывных, дважды дифференцируемых, линейных, полиномиальных и т.п.;
пространство P распределений (вероятностных мер) на X×Y,
например, в случае евклидовых пространств X и Y, - абсолютно непрерывных по мере Лебега, возможно еще и со всюду положительной и(или) гладкой плотностью, гауссовых смесей и т.п., удовлетворяющих каким-то специфическим для задачи условиям;
функция штрафа E :X×Y×YR,
называемая также функцией ошибок, потерь, риска, loss function, error function, ..., как правило, неотрицательная и равная 0 при совпадении второго параметра (прогнозируемого ответа) и третьего (истинного ответа); например, в случае евклидова пространства Y применяется квадратичный штраф E(x,y,t)=ty2, а в случае дискретного пространства - так называемый " 0-1-штраф " E(x,y,t)={ 0 при y=t; 1 при y t }; далее будут рассматриваться только функции штрафа вида E:Y×YR, от точки пространства признаков X не зависящие2;
набор обучающих данных T =((x1,y1),...,(xN,yN)),
где (xi,yi) X×Y, которые считаются значениями независимых случайных величин с одним и тем же, но совершенно неизвестным распределением P.
Обратите внимание на то, что не требуется, чтобы по значению признаков x правильный ответ y был определен однозначно. Определено лишь, хотя и неизвестно, зависящее от совместного распределения распределение вероятностей правильного ответа, в случае непрерывных распределений имеющее плотность
p;x(y)=p(yx)=
p(x,y)
y Y
p(x,y)dy
.
(1)Хочется по X, Y, F, P, E и T построить распознаватель f F, минимизирующий математическое ожидание штрафа E(f)3
|
(2) |
где P, или обещающий про штраф что-нибудь еще хорошее, например, что при некоторых , > 0
|
(3) |
Такое желание выглядит странным и нереалистичным, поскольку про распределение , от которого все зависит, почти ничего не известно и наоборот, известные обучающие данные T ни на что не влияют. На самом деле про известно, что обучающие данные T являются случайными с распределением , что позволяет приблизить интеграл в формуле (2) методом Монте-Карло и нагло подменить минимизацию интеграла E(f) минимизацией этого приближения E(f,T)
(x,y) X×Y
E(f(x),y) d(x,y) E(f,T)=
1
N
N i=1
E(f(xi),yi)
min f F
,
(4)называемого средним штрафом или средней ошибкой обучения (training error), эмпирическим рискоми т.д. Без каких-либо дополнительных предположений про распределение трудно понять, много ли потеряно при такой подмене задачи. Но это можно определить экспериментально: взять набор тестовых данных T=((x1,y1),...,(xN,yN)), аналогичных обучающим и независимых от них, и посчитать для них среднюю ошибку распознавания (test error) E(f,T).
Есть и альтернативный ("более научный") способ формализации задачи распознавания, при котором вместо аддитивной функции штрафа E(x,y,t) используется мультипликативная функция условной вероятности (или ее плотности) p(tx,y)4. При этом нужно потратить усилия на то, чтобы придать выражению p(tx,f(x)) смысл (плотности) условной вероятности того, что для вектора признаков x правильный ответ равен t при условии, что распознаватель f дает ответ f(x). Зато потом можно пользоваться всей мощью вероятностной науки. От одного способа можно переходить к другому подстановкой E(x,y,t)=ln(p(tx,y)). Тогда, например, задача (2) превращается в минимизацию взаимной энтропии.