
- •Глава 6. Системы технического зрения
- •6.1. Основные понятия
- •6.2. Основы формирования и передачи изображений
- •6.2.1. Понятие о видеосигнале
- •6.2.2. Принципы кодирования цвета
- •6.3. Датчики изображений
- •6.3.1. Видикон
- •6.3.2. Телекамеры на основе приборов с зарядовой связью
- •6.3.3. Фотодиодные матрицы
- •6.4. Устройства ввода и хранения изображений
- •6.4.1. Принципы хранения изображений
- •6.4.2. Кодирование видеосигнала
- •Форматы хранения изображений в стз
- •6.5.1. Структура графического файла
- •6.5.2. Сжатие изображений
- •6.5.2.1. Сжатие графических файлов
- •Ааааааааааааааа
- •6.5.2.2. Сжатие видеоизображений
- •6.6. Базовые алгоритмы обработки изображений
- •6.6.1. Предварительная обработка изображений
- •6.6.2. Сегментация
- •6.6.3. Кодирование изображений
- •6.6.4. Описание изображений
- •6.7. Распознавание изображений
- •6.7.1. Пример алгоритма распознавания
- •6.7.2. Особенности получения трехмерных изображений
- •Вопросы для самостоятельной подготовки
Глава 6. Системы технического зрения
Человек по визуальному каналу получает более 60% всей информации, регулирующей его взаимодействие с внешней средой. (От глаз к мозгу передаются сигналы по двум из трех миллионов нервных волокон, связанных с мозгом). Это же справедливо и для искусственных сенсорных систем: те из них, которые используют визуальную информацию, обладают наибольшей информативностью. В классе ОЛС особое место занимают системы технического зрения (СТЗ), относящиеся к группе бесконтактных пассивных информационных средств. Для большей части СТЗ характерно отсутствие излучателя; система содержит только приемник собственного излучения объекта. Однако в некоторых случаях излучатель используется, это относится, в частности, к рентгеновским телевизионным системам. СТЗ функционируют в широком диапазоне электромагнитного излучения - от 10-1 м (для телевидения ОВЧ) до 10-9 м. Существенной особенностью систем этого типа является необходимость формирования изображения объекта, представляющего собой распределение интенсивности его двумерной функции яркости L(x, y). Заметим, что для большинства систем локации функция распределения интенсивности одномерная - L(z). СТЗ нашли применение в задачах визуального контроля, наблюдения, управления и многих других.
Наибольшее распространение получили системы, работающие в видимом диапазоне волн - 380 … 780 нм. Поскольку, все окружающие предметы поглощают и отражают разное количество света в зависимости от его длины волны, то и спектральная отражательная способность объекта распределяется в видимом диапазоне волн неравномерно. Эта особенность приводит к тому, что поверхность объекта воспринимается разноцветной. Кроме того, и амплитуда отраженного от объекта сигнала, т.е. его яркость неодинакова. Разница в средней яркости соседних структур воспринимается как их контраст. Средняя яркость окружающей среды варьируется в широких пределах: от 10-6 кд/м2 пасмурной ночью, 10-1 кд/м2 в полнолуние, до 107 кд/м2 в солнечный день на снежном поле. Человек способен достаточно уверенно ориентироваться в этом диапазоне яркостей, поскольку его зрение способно воспринимать энергии, крайние значения которых соотносятся как 1: 1011. Однако этот диапазон не является динамическим, т.к. для зрения свойственна адаптация к освещению и при постоянном освещении диапазон воспринимаемых яркостей не превышает 100.
6.1. Основные понятия
Системы
зрения предназначены для восприятия
визуальной информации об окружающей
среде, обработки и анализа изображений
рабочих сцен с целью решения задачи
распознавания образов. Обработка
визуальной информации, как в живых, так
и технических системах заключается в
получении некоторого представления
сцены - ее
изображения и формирование последующего
описания.
Описание должно, с одной стороны,
содержать всю существенную информацию
о сцене, а с другой - обеспечивать
обработку изображений за необходимое
время. В этом смысле, при описании
происходит частичное выделение искомой
информации, при некоторой потере общей.
Баланс этих двух процедур является
важнейшей задачей СТЗ. Под распознаванием
образов
будем понимать процесс, при котором на
основании многочисленных характеристик
(признаков)
некоторого объекта определяется
одна или несколько наиболее
существенных, но недоступных для
непосредственного определения его
характеристик, в частности его
принадлежность к определенному классу
объектов. Данное определение является
«кибернетическим» и используется в
задачах искусственного интеллекта при
анализе любых сложных изображений,
когда отсутствует ограничение по времени
обработки данных. Функционирование
робототехнических систем обычно
осуществляется в «реальном масштабе
времени» и требует разрешения классического
противоречия между быстродействием
системы
и ее объемом
памяти. В
этом смысле, далеко не все задачи
распознавания являются доступными.
Так, например, распознавание сложных
трехмерных образов требуют очень высоких
ресурсов производительности
1 .. 100 109
MIPS (миллионов операций в секунду).
Поэтому, такие задачи «напрямую» в
робототехнике не решаются. Здесь
традиционным путем является конкретизация
начальных условий - позволяющая упростить
алгоритмы распознавания.
В частности,
в большинстве случаев ограничиваются
плоскими изображениями объектов. Если
требуется восстановить форму объекта,
используется несколько изображений,
причем таких, на которых видны все точки
поверхности и их взаимное положение.
Однако и в этом случае, форма объекта
может оказаться недоступной для
непосредственного рассмотрения. В
зависимости от формы различают два
класса объектов:
объекты, все точки которых можно увидеть под определенными углами зрения;
объекты, некоторые точки невидимы независимо от угла зрения.
Так, полное описание выпуклого объекта можно получить на основании двух его изображений (например, при использовании двух видеодатчиков с правильно выбранным направлением съемки рис. 6.1). Под выпуклым понимается объект, для которого касательная плоскость в любой точке поверхности не разрезает эту поверхность.
Способ расположения видеодатчиков зависит от того, необходима ли информация о рельефе объектов. Двумерные неподвижные датчики такую информацию дать не могут, и поэтому в состав СТЗ входят либо несколько двухмерных датчиков, либо сканер - подвижный двумерный датчик. (Аналогично получают двумерную информацию от одномерного датчика, сканируя им рабочую сцену).
Вообще говоря, поверхность реального объекта является сложной и содержит как выпуклые участки, так и вогнутые. При анализе подобных объектов необходимо выбирать бесконечное множество направлений съемки, покрывающих телесный угол 4. Однако и в этом случае возможны области недоступные для наблюдения. Таким образом, даже максимально полное трехмерное описание объекта, может оказаться недостаточным для его адекватного распознавания. Поэтому, распознавание образов в СТЗ (как, впрочем, и у человека) основывается на признаках, полученных при анализе частичных изображений.
По назначению СТЗ условно можно разделить на два класса:
прикладные (предназначенные для обработки ограниченного количества изображений с заданным быстродействием);
универсальные (позволяющие анализировать сложные сцены на основе принципов искусственного интеллекта).
Первые исследовательские СТЗ появились в конце 60-х годов ХХ века. В Стенфордском проекте «глаз - рука» СТЗ содержала телекамеру на основе видикона, устройство полукадрового ввода изображения 606500 элементов с 16 градациями яркости и ЭВМ типа PDP-6. В 1972 году в Массачусетском Технологическом Институте была разработана опытная система для обработки трехмерных сцен. Родоначальником промышленных СТЗ явилась фирма SRI International выпустившая в 1975 году систему Vicion Module, обрабатывающую бинарные изображения и ставшую прототипом большинства современных СТЗ. (На основе тех же аппаратно-программных принципов в 1978 году была построена классическая система VS-100, фирмы Machine Intellegence Corp.). Сейчас в промышленности СТЗ используются для контроля качества (первыми определять дефекты на печатных платах предложила фирма Hitachi), отслеживания контуров при механической обработке и дуговой сварке, в задачах сборки и монтажа деталей, конвейерной сортировки, видеонаблюдения и др.
Рынок СТЗ быстро растет. Так, если в 1994 году в США было выпущено около 60000 систем со средней стоимостью 20000 долларов, то к началу XXI века их производство увеличилось в 3,4 раза. В мировом рынке США занимает около 40 %, Японии и Франции по 15 %, Великобритании и Германии по 8 %.Выпуском СТЗ занимается более 200 крупных фирм.
Современные СТЗ классифицируются по трем основным признакам.
По характеру решаемых задач: мощные, средние, малые и персональные.
По структуре вычислительного процесса: однопроцессорные, многопроцессорные, системы на базе матричного процессора, системы поточной обработки.
По типу первичного преобразователя: одномерные или 1D (например, на базе ПЗС-линейки), двумерные или 2D (используются стандартные телекамеры), подвижные двумерные или K2D, трехмерные или 3D (рельефные стереокамеры).
В настоящее время в зависимости от технической задачи и типа датчиков наибольшее распространение получили 5 схем построения СТЗ (табл. 6.1).
Таблица 6.1. Схемы построения СТЗ
Вариант |
Тип изображения |
Тип вычислительной структуры |
Тип датчика | ||||
плоское |
объемное |
последовательная |
параллельная |
смешанная |
цветной |
черно-белый | |
1 |
+ |
- |
+ |
- |
- |
- |
+ |
2 |
+ |
+ |
- |
м |
- |
+ |
+ |
3 |
+ |
- |
- |
- |
мк |
- |
+ |
4 |
+ |
+ |
- |
к |
- |
- |
+ |
5 |
+ |
+ |
- |
т |
- |
+ |
+ |
Примечание.
Буквами «м», «мк», «к» и «т» обозначены архитектуры на базе матричного и конвейерного процессоров, транспьютера, а также использующие смешанный «матрично-конвейерный» способ обработки данных.
Наиболее
распространенной схемой СТЗ являетсяоднопроцессорная
схема, которая строится на базе
персонального компьютера. Системы
такого рода иногда называются персональными
(рис 6.2). Более 80% эксплуатируемых СТЗ
относятся к однопроцессорным. В ряде
случаев, предварительная обработка
изображений осуществляется аппаратно,
с помощью специализированных устройств
ввода - фреймграбберов.
Так были организованы, в частности,
отечественные системы типа «Videoscan»
и «Megapixel».
Однопроцессорная
структура относится к первому поколению
СТЗ и имеет существенный недостаток -
невозможность обработки сложных (в том
числе - цветных) изображений в реальном
масштабе времени. Относительно низкое
быстродействие этих систем обусловлено
невозможностью распараллеливания
вычислений и отсутствием специальной
шины для передачи изображений. Наиболее
распространенным путем повышения
производительности СТЗ явилась идеология
фирмы Data Translation (США), предполагающая не
только аппаратную фильтрацию
изображений, но и использование
в устройстве ввода программируемых
логических матриц, позволяющих изменять
алгоритм обработки в зависимости от
типа и характера изображения. В большинстве
случаев персональная СТЗ включается в
состав системы управления соответствующим
оборудованием, а ее обучение осуществляется
в ручном или полуавтоматическом
режиме оператором.
С целью уменьшения времени на пересылочные операции из памяти в процессор и обратно производится разделение потоков информации, т.е. создаются многошинные структуры. Примером такой СТЗ является модель DT - 100, фирмы Data Translation. Большинство таких систем имеют две шины, по одной передается видеоинформация, по другой управляющие сигналы (рис. 6.3а). Это позволяет совмещать во времени процесс управления системой и передачу данных. С точки зрения организации вычислений система включает несколько блоков обработки данных (например, однокристальных) БО1 ... БОN. Каждый блок специализирован на определенный круг задач, которые решаются параллельно. Общее управление работой системы осуществляется персональным компьютером. Такая структура тоже не лишена недостатков, которые связаны с наличием конфликтов на шинах. Их разрешение требует, либо организации жесткой приоритетной дисциплины обращения к шинам, либо использования шинного арбитра и диспетчера заданий. Первый способ дает большой выигрыш по быстродействию, но возможен только для определенного класса задач обработки изображений, второй позволяет анализировать любые изображения, но его реализация ведет к временным потерям на анализ изображения, определение процедур обмена и выдачу текущих заданий блокам обработки данных.
Одним из условий эффективной реализации процесса параллельной обработки, является наличие у задачи свойства «внутреннего параллелизма», благодаря которому задачи могут быть разбиты на «квазинезависимые» части. В целом, реализация этой концепции требует слишком большого числа вычислительных блоков, и поэтому, на существующих параллельных системах используют смешанный последовательно-параллельный принцип организации вычислений. (Примером этой структуры СТЗ является модель 79а фирмы Kawasaki).
Вычислительная система на базе матричного процессора осуществляет параллельную обработку данных при полной загрузке процессоров (рис. 6.3б). Такая структура, называемая SIMD (Single Instruction Multiple Data) представляет собой матрицу процессорных элементов, использующих одно устройство управления. Устройство управления формирует единый поток команд ко всем подчиненным процессорам, которые одновременно выполняют одну и ту же операцию, но со своими данными. Анализ подобной архитектуры показывает, что для «квазинезависимых задач» она достигает максимального быстродействия. Очевидным недостатком СТЗ на базе матричного процессора является их чрезмерная стоимость. Среди известных структур этого типа отметим систему РЕРЕ, использующуюся министерством обороны США для обработки визуальной информации о воздушной обстановке.
Системы на базе конвейерной архитектуры, называемой MISD (Multiple Instruction Single Data), эффективны при обработке массивов данных за длительный период данных. В СТЗ конвейерная (поточная) обработка используется в случае массивов с большим числом элементов поля и числом градаций яркости (рис.6.4). Конвейер состоит из последовательности процессорных элементов, каждый из которых выполняет свою группу операций, а результат появляется на выходе последнего из них. Максимальный эффект достигается в случае когда на конвейере одновременно находится p блоков данных, где p - длина конвейера. На практике такая ситуация возможна только на определенном этапе вычислительного процесса, поскольку массивы имеют конечную размерность и после обработки последнего элемента массива i-ый процессорный элемент переходит в режим ожидания, в то время как конечный результат будет получен только через p-шагов. В настоящее время известен конвейерный видеопроцессор PIPE для обработки сложных изображений в реальном времени.
Последним достижением в области построения высокоскоростных систем параллельной обработки изображений явилось использование транспьютеров. Транспьютерные системы позволяют на одной и той же аппаратуре формировать различные топологии процессоров («линейка», «кольцо», «дерево», «решетка», «гиперкуб» и др.) и различные типы параллельных архитектур (MISD, SIMD, MIMD). Для каждой из задач обработки видеоинформации существуют оптимальные топологии, обеспечивающие их эффективное решение. Так, алгоритмам распознавания и идентификации, характеризующимся сужением потока данных (от большого массива пиксельных данных к данным на уровне объекта) соответствует структура типа «дерево», в корне которого формируется обобщенное описание признаков объектов кадра.
В табл. 6.2 представлены некоторые модели СТЗ, реализованные в рамках рассмотренных схем.
Таблица 6.2. Примеры промышленных СТЗ
Модель |
Тип СТЗ |
Область применения |
Производительность (тип ЭВМ) |
Устройство ввода |
Размер кадра, NN |
Цена, тыс. $ |
Cybe Ikon (США) |
мощная |
космическая съемка |
высокая (IBM 370) |
сканеры |
40004000 |
До 1000 |
Magiscan (Англия) |
средняя |
биология, медицина |
средняя |
специальные телекамеры |
10241024 |
До 100 |
VS - 100 (США) |
малая |
промышленность |
малая (LSI - 11) |
промышленные телекамеры |
256256 |
1 … 10 |
DT - 2871 (США) |
персональная |
охранные системы |
средняя (PDP, IBM PC) |
бытовые телекамеры |
512512 |
0,1 … 1 |
Вробототехнике, как правило, используются
достаточно простые схемы СТЗ, поэтому
к 2000 году более 70% роботов США оснащались
этими средствами. В зависимости от
задачи и типа робота наиболее распространены
2D
и K2D
системы (рис. 6.5). В первом случае,
применяются видеодатчики, формирующие
плоскую рабочую сцену. Во втором, при
сканировании плоской сцены выделяется
трехмерная информация. Типичным решением
при построении системы управления
роботов с СТЗ явилась известная структура
«главная
машина - сателлит».
Здесь инициализация работы СТЗ
осуществляется главной машиной, в
качестве которой обычно выступает
управляющая ЭВМ робота. Вся обработка
видеинформации производится в СТЗ
(сателлите), которая затем передает в
главную машину соответствующие данные.
Чаще всего такими данными являются
характеристики рабочей сцены, координаты
конкретных объектов и т.д. Описанная
структура системы управления получила
название двухуровневой:
на нижнем уровне производится обработка
сенсорной информации, а на верхнем -
непосредственное управление манипулятором.
Несмотря на свое подчиненное по отношению к главной машине положение, СТЗ способна решать весьма сложные информационные задачи. Преобразование информации в СТЗ обычно представляется в виде последовательности шести основных этапов [ ]:
восприятия или ввода информации (т.е. получения визуального изображения с помощью видеодатчиков);
предварительной обработки изображения (предполагает использование методов подавления шума и улучшения изображений отдельных деталей сцены);
сегментации (обычно, выделения на изображении одного или нескольких интересующих объектов);
описания (определения характерных параметров объекта: размеров, формы и т.д., необходимых для его выделения из числа всех, образующих сцену);
распознавания (как этап обработки информации представляет собой идентификацию объекта, т.е. отнесение его к некоторому классу, например, «болт», «блок двигателей»);
интерпретации (выявления принадлежности к группе распознаваемых объектов, например, «на сцене есть несколько гаек»).
В соответствии с тем, какие этапы преобразования информации реализуются конкретной СТЗ, она может быть отнесена к мощной, средней или малой (персональной). Так, задачи, решаемые малыми СТЗ (их иногда называют СТЗ низкого уровня), ограничиваются восприятием и предварительной обработкой информации. (По словам К. Фу подобные задачи можно сравнить с теми, что решает человек, пытающийся найти свое место в темном зале кинотеатра, куда он попал с яркой улицы). В СТЗ среднего уровня решаются задачи сегментации, описания и распознавания отдельных объектов. Алгоритмы, используемые на нижнем и среднем уровнях, основаны на традиционных подходах к обработке информации и разработаны достаточно хорошо, в то время как процессы верхнего уровня, в значительной степени, не определены.