
- •«Обработка изображений и распознавание образов» Визильтер Юрий Валентинович Методическое пособие-2010
- •Раздел 2. Распознавание образов. 165
- •1.1. Задачи и приложения машинного зрения. Примеры практических приложений.
- •Уровни и методы машинного зрения
- •Растровое изображение Изображение как двумерный массив данных
- •Алгебраические операции над изображениями
- •Физическая природа изображений
- •Изображения различных диапазонов длин волн
- •Изображения различной физической природы
- •Тип пикселя
- •Возможности и особенности системыPisoft
- •Базовые средства просмотра и анализа изображений и видеопоследовательностей
- •Алгебра изображений
- •Геометрические преобразования изображений
- •Устройства оцифровки и ввода изображений
- •Линейки и матрицы, сканеры и камеры
- •Геометрия изображения
- •Цифровые и аналоговые устройства
- •Пространственное разрешение
- •Программное обеспечение
- •Обработка цветных изображений
- •Цветовая модельRgb
- •Цветовая модель hsv
- •Цветовая модель yuv
- •Цветовая сегментация изображения
- •Гистограмма и гистограммная обработка изображений
- •Профиль вдоль линии и анализ профиля
- •Проекция и анализ проекции
- •Бинаризация полутоновых изображений
- •Сегментация многомодальных изображений
- •Выделение и описание областей
- •Выделение связных областей на бинарных изображениях
- •1. Отслеживающие алгоритмы на примере алгоритма обхода контура.
- •2. Сканируюющие алгоритмы.
- •1.3. Фильтрация. Выделение объектов при помощи фильтров
- •Оконная фильтрация изображений в пространственной области
- •Фильтрация бинарных изображений Модель шума «соль и перец»
- •Структура оконного фильтра
- •Логическая фильтрация помех
- •Бинарная медианная фильтрация
- •Бинарная ранговая фильтрация
- •Взвешенные ранговые фильтры
- •Анизотропная фильтрация
- •Расширение-сжатие (простая морфология)
- •Стирание бахромы
- •Нелинейная фильтрация полутоновых изображений
- •Ранговая оконная фильтрация
- •Минимаксная фильтрация
- •Задача выделения объектов интереса
- •Бинарные фильтры для выделения объектов
- •Метод нормализации фона
- •Скользящее среднее в окне
- •Гауссовская фильтрация
- •Преобразование Фурье. Линейная фильтрация в частотной области
- •Преобразование Фурье
- •Комплексное представление преобразования Фурье
- •Быстрое преобразование Фурье
- •Двумерное преобразование Фурье
- •Свертка с использованием преобразования Фурье
- •Фильтрация изображений в частотной области
- •Вейвлет-анализ
- •Пирамида изображений
- •Вейвлет-преобразование
- •Операторы вычисления производных
- •Операторы вычисления векторов градиентов
- •Операторы Марра и Лапласа
- •Постобработка контурного изображения Локализация края
- •Утончение контура
- •Сегментация полутоновых изображений
- •Пороговая и мультипороговая сегментация
- •Методы слияния, разбиения и слияния/разбиения областей
- •Способы описания выделенных областей
- •Текстурные признаки
- •1.6.Морфологические методы анализа сцен (по ю.П. Пытьеву) Методы обнаружения объектов, заданных эталонами
- •Согласованная фильтрация.
- •Корреляционное обнаружение.
- •Морфологический подход ю.П. Пытьева.
- •Форма изображения как инвариант преобразований изображений, отвечающих вариациям условий регистрации
- •Сравнение изображений по форме
- •Выделение отличий изображений по форме
- •Обнаружение объекта по его изображению и оценка его координат
- •*Морфология на базе кусочно-линейной интерполяции
- •Преобразование Хафа для поиска прямых
- •*Различные способы параметризации прямых
- •Преобразование Хафа для поиска окружностей
- •Анализ аккумулятора при поиске геометрических примитивов
- •Обобщенное преобразование Хафа
- •*Специализированная процедура голосования для поиска эллипсов
- •*Рекуррентное преобразование Хафа в скользящем окне
- •1.8.Математическая морфология (по ж. Серра)
- •Морфологические операции на бинарных изображениях
- •Морфологические операции на полутоновых изображениях
- •Морфологическое выделение «черт» и объектов
- •Морфологический спектр
- •Морфологические скелеты. Непрерывная бинарная морфология Непрерывная бинарная морфология
- •Непрерывное гранично-скелетное представление изображения
- •Обработка и использование скелета
- •*Обобщенные скелетные представления бинарных фигур
- •Алгоритмы утончения дискретного бинарного изображения
- •*Регуляризация скелетов
- •Типы нерегулярностей скелета
- •Устранение нерегулярностей
- •Регуляризация скелета по Тихонову
- •*Селективные морфологии
- •1.9. Анализ движения. Выделение движущихся объектов. Разность кадров. Вычитание фона. Анализ оптических потоков. Слежение за движущимися объектами. Корреляционное слежение.
- •Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Методkближайших соседей.
- •Линейные решающие правила
- •Метод построения эталонов
- •Методы ближайших соседей
- •Параметрические и непараметрические методы
- •Дискриминантные и моделирующие методы обучения
- •Способность распознавателя к обобщению. Регуляризация.
- •Байесовская теория решений. Случай двух классов. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок. Разделяющие функции для случая нормальной плотности.
- •Дискриминантный анализ. Линейный дискриминант Фишера. Персептронная функция критерия. Линейный дискриминантный анализ (lda,дискриминант Фишера)
- •Персептрон Розенблатта
- •Анализ свидетельств
- •Байесовское объединение свидетельств
- •Структурное распознавание
- •Автоматизированное конструирование алгоритмов обнаружения объектов на основе преобразований модельных описаний объектов.
- •Нейросетевое распознавание
- •Нейронные сети ассоциативной памяти. Сети Хопфилда.
- •Многослойные персептроны. Оптимизационное обучение. Метод обратного распространения ошибки.
- •Многослойные персептроны. Правило Хебба.
- •*Связь с байесовским распознаванием
- •Сети встречного распространения. Самоорганизующиеся сети.
1.1. Задачи и приложения машинного зрения. Примеры практических приложений.
ЦИФРОВОЕ ИЗОБРАЖЕНИЕ. ЯРКОСТЬ И ГЕОМЕТРИЯ. ВИДЫ ИЗОБРАЖЕНИЙ. ФОРМАТЫ ИЗОБРАЖЕНИЙ. ПЕРВИЧНЫЕ СРЕДСТВА АНАЛИЗА ИЗОБРАЖЕНИЙ. ГЕОМЕТРИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ ИЗОБРАЖЕНИЙ.
ИЗОБРАЖЕНИЯ РАЗЛИЧНОЙ ФИЗИЧЕСКОЙ ПРИРОДЫ. ИК-ДАТЧИКИ. РАДАРЫ. ЛАЗЕРНЫЕ ЛОКАТОРЫ. РЕНТГЕНОВСКИЕ ИЗОБРАЖЕНИЯ. УЛЬТРАЗВУКОВЫЕ ИЗОБРАЖЕНИЯ. ТОМОГРАФИЧЕСКИЕ ИЗОБРАЖЕНИЯ.
ЗНАКОМСТВО С СИСТЕМОЙPISOFT.
СПОСОБЫ ПОЛУЧЕНИЯ РЕАЛЬНЫХ ИЗОБРАЖЕНИЙ. CCD МАТРИЦЫ. СКАННЕРЫ. ГЕОМЕТРИЯ ИЗОБРАЖЕНИЯ. ЦИФРОВЫЕ И АНАЛОГОВЫЕ УСТРОЙСТВА. ПРОСТРАНСТВЕННОЕ РАЗРЕШЕНИЕ. ТИПОВЫЕ ВИДЫ ПОМЕХ И ИСКАЖЕНИЙ НА ИЗОБРАЖЕНИЯХ РАЗЛИЧНОГО ТИПА.
ЦВЕТНЫЕ ИЗОБРАЖЕНИЯ. ЦВЕТОВОЕ ПРОСТРАНСТВО И ВОСПРИЯТИЕ ЦВЕТА ЧЕЛОВЕКОМ. РАЗЛИЧНЫЕ ЦВЕТОВЫЕ ПРОСТРАНСТВА. ПРЕОБРАЗОВАНИЯ ЦВЕТОВЫХ ПРОСТРАНСТВ.
Обработка и анализ изображений в задачах машинного зрения
Если в любом из популярных интернет-поисковиков ввести запрос с ключевыми словами «обработка изображений», то большинство выпавших ссылок скорее всего будут связаны с редактированием цифровых фотографий в системах типа Photoshop или созданием разнообразных визуальных эффектов наподобие тех, которыми столь славен в последнее время Голливуд. Данный учебный курс, несмотря на схожее название, посвящен совсем иному кругу вопросов. В центре нашего интереса находятся математические, алгоритмические, программные и аппаратные средства, дающие возможность воспроизводить и автоматизировать при помощи компьютеров те зрительные функции человека, которые позволяют ему дистанционно ориентироваться в окружающем мире, понимать его, выполнять те или иные стоящие перед ним целевые задачи. В 60-е годы прошлого века задачи такого типа ставились скорее в теоретической плоскости и обобщенно относились к области «распознавания образов», в свою очередь входящей в еще более пафосную научную отрасль под названием «искусственный интеллект». Сегодня, полвека спустя, когда теории во многом превратились в технологии, мы гораздо более скромно говорим о технической дисциплине под названием «машинное зрение». Это не означает, что в области обработки и анализа изображений не осталось открытых проблем – их огромное количество. Но признаком несомненной зрелости нашей прикладной науки является то, что теперь эти вопросы всегда ставятся в практической плоскости, с учетом обязательных и близких перспектив технического внедрения. И значит, у студентов, решивших посвятить определенное время изучению данного учебного курса, имеется достаточно серьезный повод надеяться, что полученные знания, скорее всего, окажутся профессионально востребованы в ближайшие 10-20 лет. Причем число организаций и компаний, в которых сегодня существует или завтра возникнет потребность в специалистах подобного профиля, продолжает стремительно увеличиваться.
Наверное, одна из самых дерзких целей, которые могут быть поставлены перед научно-инженерным сообществом – это задача создания роботов, не уступающих по возможностям своим создателям. Подобно человеку такие роботы должны иметь разнообразные органы чувств, возможность анализировать поступающую информацию, делать на ее основе целеполагающие выводы, вырабатывать и реализовывать программы поведения и т.д. Однако эта гордая мечта натыкается на препятствие уже в самом начале, а именно при попытке создать систему понимания изображений - искусственное (или как чаще говорят) машинное зрение. Далее мы будем использовать обобщающий термин «машинное зрение» (Machine vision) как понятие, наиболее полно объемлющее круг инженерных технологий, методов и алгоритмов, связанных с задачей интерпретации сцены наблюдения по её двумерным проекциям (изображениям), а также практическое использование результатов этой интерпретации.
Рассматривая homo sapiens как самую совершенную из известных нам систему управления, можно на основе сравнения с последними достижениями в механике, электронике и радиотехнике, вычислительных архитектурах и платформах сделать вывод, что многие элементы этой системы управления уже имеют искусственные аналоги. Например, современные сенсоры уже превосходят человеческий глаз – как по характеристикам разрешения, так и по возможностям анализа сцены в различных спектральных диапазонах.
Вычислительные платформы демонстрируют непрекращающийся бурный рост. Счет идет на тера и пентафлопсы, колоссальные успехи наблюдаются в промышленной робототехнике и мехатронике, марсоходы исследуют соседние планеты. Однако огромное (увы!) отставание в технологиях «искусственного интеллекта» и его важной составляющей части – понимании сцен и изображений – остается сегодня, по сути, основным сдерживающим фактором для дальнейшего развития сложных систем управления. Кроме роботов-андроидов к классу объектов, обладающих сложными системами управления, можно безусловно отнести самолеты, корабли, автомобили, производственные комплексы и многое другое.
Невозможность полноценного автоматического анализа сцен на таком уровне, на каком это делает даже ребенок, вынуждает исследователей двигаться постепенно, разбивая задачу машинного зрения на ряд подзадач меньшей сложности, таких как улучшение изображений, их стандартизация (нормализация), выделение особых характерных элементов и т.п.
Зрение – наиболее информативный канал восприятия окружающей действительности. Объемы информации, поступающей от зрения (видеопоток), на порядки превосходят объемы данных от других органов чувств. Однако другая сторона этой информационной вакханалии – колоссальная избыточность изображений, в то время как для практического применения может оказаться достаточно только одного байта информации – есть или нет в поле зрения нужный предмет. (Как зрительная система человека в принципе может справляться с информационной избыточностью, было, в частности, показано в фундаментальном исследовании Д. Марра.)
Стремясь защитить человека от непомерной и рутинной работы, максимально повышая функциональные возможности человеко-машинных систем, разработчики пришли к созданию таких приложений, в которых лишь некоторая часть зрительных задач возлагается на машинную часть системы. Таковы, например, системы «усиленного» видения, системы формирования зон интереса для человека-оператора и т.д.
По сути, наиболее точным термином, отражающим происходящие развитие современных сложных систем управления, служит термин «интеллектуализация», т.е. достижение все большего функционального сходства с возможностями человека. Как следует из вышесказанного ключевой аспект интеллектуализации – прогресс в технологиях машинного зрения.
Каждый, кто глубоко сталкивался с проблемой конструирования системы технического зрения, осознает, какой большой разрыв существует между современными достижениями в этой дисциплине и реальным зрительным восприятием человека. Еще более обидно для науки и сообщества то, что великолепное умение ориентироваться в сложных сценах демонстрируют даже не самые развитые на вид животные, например, таракан или муравей. Почему же задача понимания изображений оказывается на проверку такой необычайно сложной? На взгляд авторов этой книги здесь можно привести три соображения.
Первое – это необыкновенное разнообразие яркостно-геометрических свойств изображения. Каких только расцветок, форм, текстур и их немыслимых сочетаний не преподносит нам природа и человеческая фантазия. Все это богатство не имеет жесткой причинной взаимосвязи, не вытекает из действия каких либо физических законов, позволивших бы упростить модельное описание сцены наблюдения. Значит, нужны все новые, все более гибкие математические и информационные подходы к описанию содержимого изображений при помощи формально сконструированных яркостно-геометрических структур. Такие подходы действительно создаются – морфология Серра, Пытьева, теория фракталов и т.п., но до окончательных успехов здесь пока далеко.
Второе соображение – это колоссальная изменчивость, существующая в царстве изображений. Истоки этой изменчивости также бесконечно разнообразны и трудно формализуемы – случайная игра света, отклонения формы и размеров, тысячи видов искажений и шумов, происходящий из трехмерной природы сцены постоянный фактор загораживания объектов интереса. Все это выдвигает очень тяжелое требование устойчивости работы алгоритмов в трудных условиях – требование робастности. Это объясняет интерес к любым математическим подходам в обработке изображений, несущих в себе элементы робастности, например к преобразованию Хафа, оцениванию на основе ранговых статистик и др. Однако недостатки существующих методик и нужна в таких подходах по-прежнему очевидны.
Третье соображение касается информационной поддержки процесса понимания сцен. Ясно, что система, желающая что-то понять, должна обладать огромной базой знаний об окружающем мире. Организация этой базы, ее наполнение, актуализация – очень непростые задачи, достаточно вспомнить, что формирование аналогичной базы в сознании человека занимает долгие годы.
Представляется, что на сегодняшний день наиболее продуктивен так называемый модельный подход, который сводит общую проблему «понимания изображений» к гораздо более простой и ясной проблеме обнаружения и распознавания или измерения по одному или нескольким изображениям объектов, удовлетворяющих некоторому, заранее известному модельному описанию. Теория машинного зрения предлагает целый ряд различных модельных описаний наблюдаемых объектов, которые могут быть использованы для их обнаружения и измерения. В литературе описан широкий спектр таких моделей – от простейших признаковых описаний до высоко специализированных и изощренных структурных моделей. Однако общий метод составления работоспособных моделей по вышеупомянутым соображениям отсутствует. Отсюда следует, что разработка и использование моделей, пригодных для эффективного решения задачи обнаружения соответствующих объектов, в значительной степени остается на грани науки и искусства, то есть требует особого «know-how» или, другими словами, знания предметной области, отражающего многолетний опыт исследований по решению частных задач.
Решение задачи автоматического выделения сложных объектов открывает перед системами «машинного зрения» огромное число потенциальных областей применения, таких как промышленная инспекция и контроль качества, робототехника, навигация и транспортировка, дистанционное зондирование, медицина и биомеханика, инженерный труд, автоматизация проектирования, новые технологии обработки документов, биометрия и множество других. При этом сама задача обнаружения объектов является безусловно базовой, но частной технологической задачей по отношению ко всему комплексу основных целевых задач, которые в общих чертах могут быть сформулированы следующим образом:
1. калибровка сенсоров, самоориентация и самопозиционирование;
2. обнаружение объектов и изменений в сцене наблюдения;
3. слежение за объектами;
4. реконструкция поверхностей и обнаружение трехмерных структур;
5. высокоточные измерения элементов сцены
6. описание сцены и идентификация объектов;
7. организация зрительной обратной связи при работе управляемых устройств, манипуляторов или мобильных роботов в изменчивой среде.