
- •Глава 6. Системы технического зрения
- •6.1. Основные понятия
- •6.2. Основы формирования и передачи изображений
- •6.2.1. Понятие о видеосигнале
- •6.2.2. Принципы кодирования цвета
- •6.3. Датчики изображений
- •6.3.1. Видикон
- •6.3.2. Телекамеры на основе приборов с зарядовой связью
- •6.3.3. Фотодиодные матрицы
- •6.4. Устройства ввода и хранения изображений
- •6.4.1. Принципы хранения изображений
- •6.4.2. Кодирование видеосигнала
- •Форматы хранения изображений в стз
- •6.5.1. Структура графического файла
- •6.5.2. Сжатие изображений
- •6.5.2.1. Сжатие графических файлов
- •Ааааааааааааааа
- •6.5.2.2. Сжатие видеоизображений
- •6.6. Базовые алгоритмы обработки изображений
- •6.6.1. Предварительная обработка изображений
- •6.6.2. Сегментация
- •6.6.3. Кодирование изображений
- •6.6.4. Описание изображений
- •6.7. Распознавание изображений
- •6.7.1. Пример алгоритма распознавания
- •6.7.2. Особенности получения трехмерных изображений
- •Вопросы для самостоятельной подготовки
6.6. Базовые алгоритмы обработки изображений
Одной из наиболее быстро развивающихся областей техники является направление, связанное с обработкой визуальных данных. В настоящее время существуют десятки коммерческих пакетов обработки статических и динамических изображений (фотографий, видеофильмов, текстов и др.). В этом секторе работает много крупных фирм, в том числе Adobe Systems Inc, (США), ABBYY (Россия) и т.д. Существующие системы контроля доступа используют программы распознавания лиц, отпечатков пальцев и радужной оболочки глаза. Также известны системы распознавания номеров транспортных средств, штрих-кодов и пр. Многие из этих программ функционируют в реальном масштабе времени, выполняя все необходимые процедуры в темпе поступления данных. Часто это требует реализации ряда алгоритмических функций аппаратными средствами.
Все рассмотренные системы относятся к классу СТЗ.
Проблема зрительного восприятия уже много лет будоражит ученые умы. Большой вклад в ее решение внес Г. Гельмгольц, чей трактат по физиологии зрения, актуален до сего времени. Активные исследования процедур обработки изображений начались в начале XX века. Одной из первых в этом ряду была работа Л. Вертхеймера, обнаружившего, что при восприятии движущегося изображения, оно представляется не как совокупность отдельных точек, а как целостная структура. (Аналогией здесь является стая птиц, воспринимаемая как единое целое, в котором отдельные птицы не различаются). В результате подобных исследований, была обнаружена зрительная кора головного мозга, ответственная как за получение изображения, так и его интерпретацию. Элементы зрительной коры были локализованы к концу 50-х годов ХХ века, однако некоторые ее функции еще не нашли объяснения до настоящего времени. В те же годы делаются первые попытки построения алгоритмов обработки изображений и распознавания образов. Эти алгоритмы, созданные в нейрофизиологических лабораториях и сейчас весьма популярны, хотя их компьютерные реализации либо узкоспециализированы, либо весьма ненадежны.
С позиций бионики, зрение - это процесс, порождающий по изображениям внешнего мира некоторое описани, не перегруженное существенной информацией. Полезность некоторого описания (представления) зависит от того, насколько хорошо оно соответствует цели, для достижения которой используется. Характерным примером является представление, сформированное сетчаткой. У многих животных оно имеет мало общего с реальным изображением. Так, рецепторы сетчатки лягушки определяют только движущиеся объекты; сетчатка некоторых пауков (аттидов), состоящая из двух диагональных полос в виде буквы «V», позволяет отличить потенциальную добычу от потенциального брачного партнера, имеющего такой узор на спине. Зрительная система кролика может быть названа «детектором мелких хищных птиц» (поскольку безошибочно реагирует на перемещающиеся вверху небольшие объекты). Особенно интересен с этой точки зрения орган зрения мухи, который непосредственно связан с ее системой управления. Управление полетом мухи осуществляется с помощью пяти независимых, очень быстродействующих и жестко запрограммированных подсистем. Одна из этих подсистем управляет посадкой: если приближающаяся поверхность стремительно расширяется, муха автоматически устремляется на посадку в ее центр. Система управления горизонтальным движением предназначена для отслеживания объектов, имеющих определенные угловые размеры. В соответстви с ее алгоритмом будет дана команда на перехват другой мухи, находящейся на удалении в нескольких сантиметров, но не на «перехват» слона, расположенного в полукилометре.
В настоящее время доказано, что при обработке визуальной информации зрительный аппарат животных и людей широко использует операторные принципы, в соответствие с которыми над массивом элементов, образующих изображение, выполняются некоторые типовые процедуры (фильтрация, дифференцирование и др.). Кроме того, и сам этот массив представляет собой совокупность не точек, а фрагментов, включающих отрезки границ, текстуры и т.д. Попытки описать эти процедуры привели к появлению оригинальных моделей (операторы Хюкеля и Робертса, алгоритм интерпретации изображения по граням, ребрам и затененным областям Уолша), широко используемым в СТЗ.
Иерархия информационных процессов при описании изображения может быть грубо представлена в виде трех уровней:
представление характеристик двухмерного изображения (типа изменений значений яркости и локальных геометрических свойств);
представление характеристик видимых поверхностей (ориентации, отражающей способности, расстояния) в системе координат наблюдателя;
представление трехмерной структуры (в сочетании с какими-либо свойствами поверхности) в системе координат объекта.
Наибольшего успеха удалось достичь в исследовании первого уровня описания. Физиологи обнаружили визуальные каналы, обладающие избирательностью по ориентации и пространственной частоте. На основании этих результатов была предложена операторная модель, в которой каждая точка поля зрения содержит четыре настраиваемых на пространственный размер фильтра (маски), предназначенных для анализа изображения. Размер маски, соответствующей каналу, растет линейно с увеличением эксцентриситета (углового расстояния от центральной ямки). В порядке увеличения размера маски каналы называются N, S, T и U. Канал S обладает наибольшей чувствительностью как по отношению к тонической (амплитудной), так и фазной стимуляции, канал U - наименьшей. Размеры рецептивных полей составляют: 3,1’ (для канала N - это примерно 9 колбочек центральной ямки), 6,2’ (канал S), 11,7’ (канал T), 21’(канал U).
Алгоритмическую
основу каналов образуют2G-фильтры
(рис. 6.42). Оператор 2G
аппроксимирует полосовой фильтр шириной
1,25 октавы, соответствующей половине
энергии спектра. Обозначено: 2
- оператор Лапласа (2
= 2/x2
+ 2/y2),
а символ G
обозначает распределение Гаусса:
2G фильтр обладает двумя существенными свойствами. Во-первых, он реализует дифференциальный оператор, вычисляющий первую и вторую пространственную производную изображения, что позволяет четко выделять границы. (Именно в контуре изображения содержится большая часть информации об объекте; по оценкам физиологов - до 90%). Во-вторых, он допускает настройку на разных масштабных уровнях, что позволяет обнаруживать границы на размытых участках на больших фрагментах изображения и обнаруживать малые элементы изображения на его хорошо сфокусированных участках. Физиологическая реализация 2G-фильтра основана на взаимодействии возбуждающих и тормозящих функций, реализуемых центральной и периферической областями рецептивных полей.
Алгоритмическое обеспечение СТЗ можно условно представить в виде двух групп алгоритмов, выполняющих функции:
обработки изображений;
анализа визуальных образов.
Если СТЗ содержит алгоритмы исключительно первой группы, то, согласно приведенной ранее классификации, ее можно отнести к СТЗ нижнего и среднего уровня.
Сущность обработки изображений заключается в приведении исходного изображения сцены к виду, достаточного для его распознавания. Сюда относятся многочисленные процедуры формирования и улучшения изображения (включающие компенсацию оптических помех и сглаживание), бинаризация, получение контурного представления изображения, выделение элементов сцены и определение их признаков. Конечной целью обработки изображений в СТЗ является подготовка объектов сцены к распознаванию, т.е. отнесению их к некоторым заранее заданным классам. Несмотря на многообразие представленных процедур, обработка изображений в СТЗ разбивается на три основные этапа:
ввод и предварительная обработка изображения;
сегментация;
описание.
В свою очередь, этап предварительной обработки изображений принято разделять на две базовых процедуры: формирование изображения и его кодирование (сжатие). При этом кодирование, в зависимости от вида сцены, может проводиться как до, так и после сегментации. В частности, для сцен, содержащих несколько объектов, сегментация предшествует кодированию. Для удобства представим базовые процедуры обработки изображений в виде табл. 6.17.
Таблица 6.17. Этапы обработки изображений
Обработка изображений | ||
1 |
Ввод изображения (восприятие) | |
2 |
Предварительная обработка:
|
Формирование Кодирование |
3 |
Сегментация | |
4 |
Описание |