Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 11. Назначение периферийных устройств

182

обеспечения удобства работы оператора (речевой ввод-вывод информации, объемные изображения, полуавтоматические и автоматические устройства ввода-вывода) а также организация режима с разделением времени призваны согласовывать быстродействия операторов и ЭВМ с целью достижения максимальной эффективности использования ЭВС.

Контрольные вопросы к главе 11

1. Перечислите основные внешние устройства ЭВС.

2. Назовите три нерешенных до конца проблемы периферийных устройств (ПУ).

3.Для чего предназначены ПУ?

4.Назовите три группы, на которые подразделяются ПУ по назначению.

5Назовите, на какие три группы делятся ПУ по быстродействию.

6Перечислите оперативные ПУ. В чем состоит их главное отличие от автоматических ПУ?

7Какие параметры ВС с разделением времени ограничивают число ПУ и соответственно операторов? Зависит ли это от квалификации операторов?

8Какие эргономические параметры человека-оператора при работе с ПУ сказываются на эффективности функционирования ВС?

9. Каким образом совершенствование ПУ позволит повысить эффективность использования ЭВС?

Глава 12. Устройства автоматического считывания текстов

183

Глава 12. УСТРОЙСТВА АВТОМАТИЧЕСКОГО СЧИТЫВАНИЯ ТЕКСТОВ

12.1. Устройства автоматического ввода печатных текстов

Наиболее трудоемким и ответственным этапом ввода в ЭВМ исходных данных является этап переноса информации с первичных документов на машинные носители, который может осуществляться и с помощью УПД. При непосредственном ручном вводе с клавиатуры помимо низкого быстродействия оператора (порядка 300 знаков в минуту, достигнутого на международных соревнованиях) на качестве ввода сказываются ошибки оператора (в среднем 2 - 3 опечатки на страницу текста). Исключить этот этап можно, применяя читающие автоматы - устройства, позволяющие считывать, распознавать и вводить в ЭВМ цифро-буквенную информацию непосредственно с документа, минуя промежуточные носители. Читающие автоматы способны превращать “картинку”, изображение страницы, в структурированный текст, готовый для использования в базах данных, информационных, редакционно-издательских и банковских системах, для передачи по каналам электронной почты, и т.д. Такие устройства с успехом могут применяться при использовании сетевых информационных ресурсов мирового научного сообщества, предоставляемых сетью Internet, для распространения научных достижений в виде электронных публикаций.

Читающие автоматы выполняют следующие функции:

-сканирование в целях получения сигналов, соответствующих оптическому изображению;

-эффективное с точки зрения представления изображения кодирование результирующих сигналов;

-принятие решения о принадлежности анализируемого знака к одному из классов. Устройства автоматического ввода текстов, иначе называемые читающими автомата-

ми или сканерами, построены на принципах распознавания образов. Образ - контур, форма или конфигурация; в данном случае образом будет являться символ - буква, цифра или ка- кой-либо другой знак в виде смежных или связанных штрихов на плоскости, используемые как составная часть средства организации, управления или представления данных.

Процесс распознавания образов состоит из трех выполняемых автоматически этапов. На рис. 12.1 приведена укрупненная структурная схема читающего автомата. Первый этап заключается в проведении анализа образа, то есть в разбиении его на элементы. Этот этап иногда называют считыванием. Реализация первого этапа выполняется аппаратно и для автоматических устройств ввода разного типа строится на разнообразных физических принципах.

Второй этап - собственно распознавание путем сравнения методом перебора полученного на первом этапе кода вводимого образа с кодами эталонов (шаблонов) базы эталонных образов и, затем, присвоение образу имени того эталона, чей код совпал со считанным кодом (идентификация).

Третий этап заключается в преобразовании кода имени распознанного образа в машинный код и собственно ввод в ЭВМ.

Глава 12. Устройства автоматического считывания текстов

184

1 этап -

 

2 этап -

 

3 этап -

 

анализ

идентификация

ввод

 

 

 

 

 

 

В ЭВМ

 

Усторойство

Декодер-

БЗУ

 

 

сравнения

 

кодер

 

 

 

 

 

 

 

 

 

Считать

 

1

2

7

 

 

 

 

УУ

 

 

 

1 2 7

ПЗУ

эталонов

Рис. 12.1. Структурная схема читающего автомата

1

2

3

4

6

7

5

Рис. 12.2. Рецепторное поле по методу зондов

Из нескольких известных методов считывания наиболее просто аппаратно реализуется метод зондов. На рецепторном поле, куда проецируется посимвольно подлежащий вводу текст, размещен ряд рецепторов (зондов). Рецептор - чувствительный элемент, способный реагировать на изменение внешних воздействий: фотоэлемент, терморезистор, вариконд, сегнетоэлектрик, прибор с зарядовой связью и другие. Фотоэлементы при изменении освещенности изменяют один из своих параметров, таких, как сопротивление или емкостное сопротивление. Например, зонды могут быть выполнены из сегнетоэлектрического материала, помещенного в среду с температурой выше температуры Кюри. Работа их основана на свойстве изменения емкостного сопротивления при изменении освещенности. Зонды могут быть выполнены в форме, например, фотопроводящих полосок. Полоски образуют рисунок, называемый маской. При разработке конфигурации масок специализированных читающих автоматов ориентируются на форму букв шрифта вводимого текста. Самая простая маска имеет вид матрицы рецепторов, но в этом случае считанный код печатного знака обладает большой избыточностью. Маска в виде матрицы используется в универсальных автоматах и в автоматах, читающих рукописный текст.

Рассмотрим первый этап распознавания - разбиение на элементы - для наиболее простого случая - ввода печатных цифр. Одна из рациональных конфигураций маски приведена на рис. 12.2. Маска состоит из семи зондов, расположенных так, чтобы они с наибольшей вероятностью пересекались линиями контура проецируемого на маску того или иного

Глава 12. Устройства автоматического считывания текстов

185

символа. Каждый из зондов используется в качестве признака и совокупность признаков однозначно описывает символы. Пересекаемые линиями зонды возбуждаются, и каждому символу соответствует своя комбинация возбужденных зондов, то есть свой в данном случае семиразрядный двоичный код. В таблице приведены кодовые комбинации считываемых арабских цифр для конфигурации маски рис.12.2. “1” означает ситуацию, когда контур символа пересекает поле зонда, “0” - зонд не пересекается, 0(1) - неопределенность, вызванная могущим быть искаженем формы символа - зонд либо пересекается, либо нет.

Таблица 12.1. Кодовые комбинации считываемых арабских цифр

_________________________________________________________________

Анализируемый

Номера

 

 

 

 

 

 

 

символ

зондов

1

2

3

4

5

6

7

_________________________________________________________________

1

0(1)

1

0

1

0

0

1

2

(0)1

1

1

0(1)

1

0

1

3

1

1

1

1

0

1

1

4

1

0

0(1)

1

1

1

0

5

1

1

0

1

0

1

1

-

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

_________________________________________________________________

С целью исключения случаев неопределенности производится предварительная стилизация считываемых символов. Международной организацией по стандартизации ISO предложен в качестве международного стандарта шрифт типа OCR - A. На его основе создан русский шрифт, состоящий из 61 символа: 32 буквы, 10 цифр и 19 специальных знаков. Из них 40 символов заимствованы из шрифта OCR - A. Спецификой азбуки является наличие 6-ти широких букв с тремя вертикальными линиями, их сузили, то есть стилизовали. Примером является равноширокий шрифт Courier NewCyr. Стилизация, то есть преднамеренное заранее оговоренное изменение начертаний букв, приводит к увеличению кодового расстояния между кодовыми комбинациями, соответствующими наиболее похожим буквам. Считываемые кодовые комбинации отличаются друг от друга наличием “0” и “1” в разных разрядах. Это отличие между двумя кодами называется кодовым расстоянием d и измеряется числом разрядов с противоположными значениями битов. Так, между цифрами 3 и 5 кодовое расстояние равно 1, так как не совпадают значения только в одном третьем разряде кодов. С целью повышения достоверности считывания стремятся значение кодового расстояния повысить. Об увеличении кодовых расстояний для улучшения распознаваемости человеком цифр подумали еще древние арабы, разрабатывая арабские цифры, а о распознаваемости букв кириллицы позаботились болгарские просветители Кирилл и Мефодий. Повышение степени распознаваемости может быть достигнуто стилизацией. Примером могут служить стилизованные цифры кодов номеров почтовых отделений на конвертах.

Второй путь увеличения кодового расстояния - введение избыточности, то есть дополнительных разрядов в коде и, соответственно, дополнительных зондов в маске. Это приводит к повышению аппаратных и временных затрат, вызываемых обработкой и хранением более длинных кодовых посылок, но повышает степень достоверности вводимых в ЭВМ кодов символов.

Очевидно, что для осуществления ввода не только цифровой, но и буквенной информации маска должна быть усложнена путем увеличения числа зондов, а, соответственно, и увеличена разрядность кодов. В конечном итоге маска принимает форму матрицы. Зачастую вместо маски применяется линейка из вертикально расположенных рецепторов, продвигающаяся вдоль символа и вдоль строки текста.

Глава 12. Устройства автоматического считывания текстов

186

б)

а)

в)

г)

Рис. 12.3. Различные формы знаков (а), б - электровоз, в - нефтепромысел, г - пассажирский самолет

N

0

255

I

Рис. 12.4. Гистограмма яркостей участка изображения текста

Помимо текстов с помощью читающего автомата, построенного по методу зондов, возможно вводить и специальные символы. Наиболее употребительные типовые символы в некоторых специализированных системах приведены на рис. 12.3. Символы стилизованы с двух точек зрения: наибольшей легкости опознания оператором и сокращения разрядности соответствующего символу кода. В среднем на кодирование одного символа приходится от трех до 7-ми бит информации.

Cовременный универсальный сканер, способный вводить не только тексты, но и полутоновые картинки типа фотографий, на первом этапе ввода на месте каждого разряда дает не “0” или “1”, а значение в некотором диапазоне, например, от 0 до 256, характеризующее степень “черноты” в соответствующем месте страницы. Такое изображение называют полутоновым, или “серым”. При вводе текста обычно используется черно-белое изображение и, соответственно, первая задача состоит в бинаризации, то есть в выборе порога яркости, при котором черно-белое изображение было бы наиболее качественным. В зависимости от правильности выбора порога яркости достоверность распознавания будет разной, так как при неудачном выборе некоторые символы будут сливаться, либо их контуры становятся прерывистыми.

Для правильного выбора порога яркости при вводе того или иного текста используется статистический метод, при котором строится гистограмма яркостей участка изображения. Типичная гистограмма приведена на рис. 12.4, где на оси абсцисс отложены значения градаций яркости I (0 - абсолютно белое, 256 - абсолютно черное), а по оси ординат - количество точек N, в которых эта яркость зафиксирована на некотором участке, например,