
- •«Обработка изображений и распознавание образов» Визильтер Юрий Валентинович Методическое пособие-2010
- •Раздел 2. Распознавание образов. 184
- •Уровни и методы машинного зрения
- •Растровое изображение Изображение как двумерный массив данных
- •Алгебраические операции над изображениями
- •Физическая природа изображений
- •Изображения различных диапазонов длин волн
- •Изображения различной физической природы
- •Тип пикселя
- •Возможности и особенности системы Pisoft
- •Базовые средства просмотра и анализа изображений и видеопоследовательностей
- •Алгебра изображений
- •Геометрические преобразования изображений
- •Устройства оцифровки и ввода изображений
- •Линейки и матрицы, сканеры и камеры
- •Геометрия изображения
- •Цифровые и аналоговые устройства
- •Пространственное разрешение
- •Программное обеспечение
- •Обработка цветных изображений
- •Цветовая модель rgb
- •Цветовая модель hsv
- •Цветовая модель yuv
- •Цветовая сегментация изображения
- •Гистограмма и гистограммная обработка изображений
- •Профиль вдоль линии и анализ профиля
- •Проекция и анализ проекции
- •Бинаризация полутоновых изображений
- •Сегментация многомодальных изображений
- •Выделение и описание областей
- •Выделение связных областей на бинарных изображениях
- •1. Отслеживающие алгоритмы на примере алгоритма обхода контура.
- •2. Сканируюющие алгоритмы.
- •Оконная фильтрация изображений в пространственной области
- •Фильтрация бинарных изображений Модель шума «соль и перец»
- •Структура оконного фильтра
- •Логическая фильтрация помех
- •Бинарная медианная фильтрация
- •Бинарная ранговая фильтрация
- •Взвешенные ранговые фильтры
- •Анизотропная фильтрация
- •Расширение-сжатие (простая морфология)
- •Стирание бахромы
- •Нелинейная фильтрация полутоновых изображений
- •Ранговая оконная фильтрация
- •Минимаксная фильтрация
- •Задача выделения объектов интереса
- •Бинарные фильтры для выделения объектов
- •Метод нормализации фона
- •Скользящее среднее в окне
- •Гауссовская фильтрация
- •Преобразование Фурье. Линейная фильтрация в частотной области
- •Преобразование Фурье
- •Комплексное представление преобразования Фурье
- •Быстрое преобразование Фурье
- •Двумерное преобразование Фурье
- •Свертка с использованием преобразования Фурье
- •Фильтрация изображений в частотной области
- •Вейвлет-анализ
- •Пирамида изображений
- •Вейвлет-преобразование
- •Операторы вычисления производных
- •Операторы вычисления векторов градиентов
- •Операторы Марра и Лапласа
- •Постобработка контурного изображения Локализация края
- •Утончение контура
- •Сегментация полутоновых изображений
- •Пороговая и мультипороговая сегментация
- •Методы слияния, разбиения и слияния/разбиения областей
- •Способы описания выделенных областей
- •Текстурные признаки
- •1.6. Морфологические методы анализа сцен (по ю.П. Пытьеву) Методы обнаружения объектов, заданных эталонами
- •Согласованная фильтрация.
- •Корреляционное обнаружение.
- •Морфологический подход ю.П. Пытьева.
- •Форма изображения как инвариант преобразований изображений, отвечающих вариациям условий регистрации
- •Сравнение изображений по форме
- •Выделение отличий изображений по форме
- •Обнаружение объекта по его изображению и оценка его координат
- •*Морфология на базе кусочно-линейной интерполяции
- •Преобразование Хафа для поиска прямых
- •*Различные способы параметризации прямых
- •Преобразование Хафа для поиска окружностей
- •Анализ аккумулятора при поиске геометрических примитивов
- •Обобщенное преобразование Хафа
- •*Специализированная процедура голосования для поиска эллипсов
- •*Рекуррентное преобразование Хафа в скользящем окне
- •1.8. Математическая морфология (по ж. Серра)
- •Морфологические операции на бинарных изображениях
- •Морфологические операции на полутоновых изображениях
- •Морфологическое выделение «черт» и объектов
- •Морфологический спектр
- •Морфологические скелеты. Непрерывная бинарная морфология Непрерывная бинарная морфология
- •Непрерывное гранично-скелетное представление изображения
- •Обработка и использование скелета
- •*Обобщенные скелетные представления бинарных фигур
- •Алгоритмы утончения дискретного бинарного изображения
- •*Регуляризация скелетов
- •Типы нерегулярностей скелета
- •Устранение нерегулярностей
- •Регуляризация скелета по Тихонову
- •*Селективные морфологии
- •Метод оптических потоков
- •Дифференциальный подход
- •Корреляционный подход
- •Частотный подход
- •Корреляционное слежение.
- •Форматы хранения и передачи цифровых изображений
- •Методы сжатия цифровых изображений
- •Формат bmp
- •Формат pcx
- •Формат gif
- •Формат tiff
- •Формат jpeg
- •Форматы хранения и передачи цифровых видеопоследовательностей
- •Формат avi
- •Формат mpeg
- •Форматы mpeg 1 и mpeg 2
- •Формат mpeg 4
- •Форматы mpeg 7
- •Раздел 2. Распознавание образов.
- •Обучение с учителем. Детерминированные методы, основанные на «близости». Линейные решающие правила. Метод построения эталонов. Метод ближайшего соседа. Метод k ближайших соседей.
- •Линейные решающие правила
- •Метод построения эталонов
- •Методы ближайших соседей
- •Параметрические и непараметрические методы
- •Дискриминантные и моделирующие методы обучения
- •Способность распознавателя к обобщению. Регуляризация.
- •Байесовская теория решений. Случай двух классов. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок. Разделяющие функции для случая нормальной плотности.
- •Дискриминантный анализ. Линейный дискриминант Фишера. Персептронная функция критерия. Линейный дискриминантный анализ (lda, дискриминант Фишера)
- •Персептрон Розенблатта
- •Байесовское объединение свидетельств
- •Структурное распознавание
- •Автоматизированное конструирование алгоритмов обнаружения объектов на основе преобразований модельных описаний объектов.
- •Нейросетевое распознавание
- •Нейронные сети ассоциативной памяти. Сети Хопфилда.
- •Многослойные персептроны. Оптимизационное обучение. Метод обратного распространения ошибки.
- •Многослойные персептроны. Правило Хебба.
- •*Связь с байесовским распознаванием
- •Сети встречного распространения. Самоорганизующиеся сети.
Тип пикселя
Рассмотрим теперь растровое цифровое изображение как чистую структуру данных, абстрагировавшись от всего, что было изложено выше и касалось физических особенностей и способов их получения. Поскольку с геометрической (и программной) точки зрения структура любого изображения совершенно стандартна и представляет собой регулярный двумерный массив (матрицу) пикселей, различные типы изображений могут порождаться только оригинальным типом данных, представляющим пиксель.
В таблице 1.1.3 сведены основные варианты структур двумерных растровых данных различного типа.
@Таблица 1.1.3. Изображения с различным типом пикселя
Тип пикселя |
Емкость (в битах) |
Яркостное разрешение (диапазон) |
Семантический смысл |
Bit (Boolean) |
1 |
[0,1] |
Бинарное изображение. 0 – «фон», 1 – «объект» |
Byte (char, shortint) |
8 |
[0..255], [–128..127] |
Полутоновое изображение стандартного яркостного разрешения – со знаком и без знака |
Integer (word, int) |
10, 12, 16 |
[0..210–1], [–29.. 29–1], [0..212–1], [–211.. 211–1], [0..216–1], [–215.. 215–1] |
Полутоновое изображение повышенного яркостного разрешения – со знаком и без знака. Меточные изображения |
Long (double word, long int) |
32, 64 |
[0..232–1], [–231.. 231–1], [0..264–1], [–263.. 263–1] |
Полутоновое изображение высокого яркостного разрешения – со знаком и без знака |
RGB (TColorRef) |
24, 32 |
[{0,0,0}..{255,255,255}] [{0,0,0,0}..{255,255,255,255}] |
Цветное изображение. Разрешение 8 бит на цветовой канал. С выравниванием и без |
Real (fixed, float, double) |
* |
**(зависит от реализации) |
Действительнозначное изображение. Результат обработки |
Complex |
* |
**(зависит от реализации) |
Комплексное изображение. Результат перехода в частотную область |
Vector (array of…) |
* |
**(зависит от реализации) |
Векторное изображение. Многозональные и гиперспектральные данные. Результаты комплексирования. Результаты вычисления множественных признаков |
По типу данных изображения делятся на битые (булевские, логические), байтовые (со знаком и без знака), целочисленные (со знаком и без знака), действительные (с фиксированной и плавающей точкой), цветные (специальный тип данных) и векторные (пиксель представляет собой массив или список численных значений).
В семантическом плане об этих типах изображений можно вкратце сказать следующее:
Бинарные изображения (битые, булевские, логические). 0 обозначает пиксель «фона», 1 – пиксель «объекта», «символа» (или наоборот – зависит от знака контраста объект/фон). В качестве исходного бинарное изображение формирует только один тип устройств ввода – оптический сканер в режиме сканирования текстовых документов. В качестве промежуточных и окончательных результатов обработки изображения такого типа широко используются в задачах обнаружения объектов, задачах морфометрических измерений, системах автоматического считывания текста и штриховых кодов;
Полутоновые изображения стандартного разрешения (байтовые без знака). На сегодня разрешение 8 бит (диапазон значений [0..255] – 256 градаций серого) – фактический стандарт для систем видеоввода, способных работать в реальном времени – фреймграбберов и цифровых видеокамер для технического зрения и систем видеонаблюдения. Это самый распространенный формат входных полутоновых данных. Соответственно в том же формате представляются и результаты фильтрации полутоновых изображений. Системный тип данных TBitmap поддерживается операционной системой Windows как часть графического интерфейса на системном уровне;
Результаты обработки полутоновых изображений, в которых возможны отрицательные значения пикселей (байтовые со знаком). Короткое целое со знаком используется для представления промежуточных результатов обработки в целях экономии используемого объема памяти. Длинное целое со знаком стандартной и двойной длины используется при реализации всех возможных целочисленных операций над изображениями (например, накопления разнообразных сумм и разностей) в случае, если нет необходимости в специальном ограничении потребных объемов памяти. Действительные значения пикселей используются при реализации различных нецелочисленных операций и преобразований над изображениями. В случае, если требуется ограничить объем задействованной памяти или увеличить быстродействие алгоритмов, вместо представлений с плавающей точкой используются представления действительных чисел с фиксированной точкой;
Полутоновые изображения повышенного разрешения (целочисленные без знака). Используются в тех случаях, когда диапазон в 256 градаций серого не позволяет отразить все богатство исходной информации, предоставляемое датчиком в силу его физической природы. Таким образом оцифровываются, в частности, медицинские рентгеновские и томографические изображения, а также астрономические и технические изображения, полученные в результате длительных экспозиций. Многие специализированные медицинские и технические устройства формируют на выходе изображения с яркостным разрешением в 10 или 12 бит, однако в компьютерных системах обработки такие данные удобно дополнять до «целого слова» в 16 бит, с которым проще и быстрее оперируют современные 16-, 32- и 64-битные вычислительные архитектуры;
Меточные изображения (целочисленные без знака стандартной или двойной длины). Используются при автоматическом выделении связных областей и объектов. Каждый пиксель такого изображения помечен номером области, которой он принадлежит. Байтовые изображения здесь не подходят, так как в них можно закодировать только 255 различных областей, а на изображениях высокого разрешения их могут оказаться десятки и даже сотни тысяч;
Двумерные частотные характеристики – комплексные изображения, состоящие из действительной и мнимой части. Формируются в результате двумерного преобразования Фурье, быстрого преобразования Фурье (БПФ), двумерного косинусного преобразования (ДКП) и т.п. преобразований изображения из пространственной области в частотную. На программном уровне, как правило, реализуются не как двумерный массив комплексных чисел (двухкомпонентных векторов), а как пара двумерных массивов (изображений), один из которых представляет действительную часть образа, а второй – мнимую;
Цветные изображения – специальный тип данных, запись формата TcolorRef = {Red, Green, Blue}. Разрешение по каждому из каналов – 8 бит. С целью выравнивания до «целого слова» 32-битной архитектуры часто дополняется еще одним 8-битным компонентом: TColorRef32 = {Red, Green, Blue, Reserved}. Цветное изображение – системный тип данных. Он поддерживается всеми устройствами ввода цветовых изображений. Кроме того, стандартный тип данных TRGBBitmap поддерживается операционной системой Windows как часть графического интерфейса на системном уровне;
Многозональные и гиперспектральные изображения – векторные, пиксель представляет собой массив целочисленных значений. Формируются специальными устройствами ввода. Используются для попиксельной классификации и сегментации изображений. На программном уровне, как правило, реализуются не как двумерный массив векторов, а как набор двумерных изображений, каждое из которых соответствует одной зональной или спектральной компоненте;
Признаковые изображения – скалярные или векторные, пиксель представляет собой скаляр, массив или список действительных значений. Представляют собой результат признакового анализа изображений. Используются для попиксельной классификации и сегментации изображений. На программном уровне, как правило, реализуются не как двумерный массив векторов, а как набор двумерных изображений, каждое из которых соответствует одному типу признаков.