Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздел 5.doc
Скачиваний:
127
Добавлен:
05.06.2015
Размер:
277.5 Кб
Скачать

5.3. Автоматическое распознавание текстов.

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взгля­нуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превра­щается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решаютс помощью специальных программных средств, называемых сред­ствами распознавания образов. Реальный технический прорыв вэтой области произошел лишь в последние годы. До этого распозна­вание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, храня­щимся в памяти компьютера). Подобные системы назывались OCR (Optical Character Recognition – оптическое распознавание символов) и опирались на специальноразработанные шрифты, облегчавшие такой подход.

Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распо­знавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Программа имеет ряд удобных возможностей. Она позволяет объе­динять сканирование и распознавание в одну операцию, работатьс пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шриф­тов. Она позволяет редактировать распознанный текст и проверять его орфографию.

Панель Scan&Readсодержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Пер­вая кнопка позволяет выполнить такое преобразование в единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.

Панель Распознаваниепозволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.

Панель Инструментыиспользуют при работе с исходным изобра­жением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.

Элементы управления панели Форматированиеиспользуют для изменения представления готового текста или при его редакти­ровании.

5.4. Автоматический перевод документов.

Быстрое развитие международного сотрудничества, науки, торгов­ли, туризма привело к необходимости автоматизированного перевода до­кументов с одного языка на другой. Подобный перевод часто называют машинным. Выполняется он прикладным процессом. Сложность этого процесса связана со многими трудностями. В первую очередь, среди них выделяются неоднозначность слов и фраз различных естественных языков, разные интерпретации предложений и т.д. Вследствие этого, автоматизи­рованный перевод пока не может полностью заменить переводчика.

Выделяют следующие типы текстов, исполь­зуемых для перевода:

• научно-технический;

• узкоспециальный (например, документация в банке);

• обработанный (так, что исключается неоднозначное толкование слов).

Программные средства автоматического перевода можно условно разбить на две основные категории.

Первую категориюпредстав­ляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвест­ного слова.Преимущество компьютерных словарей состоит в быстроте доступа и удобстве автоматического поиска значения выделенного слова.Автоматический словарь обычно предоставляет возможность пере­вода слова по нажатию выделенной комбинации клавиш.

Ко второй категорииотносятся программы, позволяющие выпол­нить автоматический перевод связного текста. Они принимаюттекст на одном языке (предположительно грамотный и не содержа­щий опечаток) и выдают текст на другом языке. В ходе работы про­грамма использует обширные словари, наборы грамматическихправил и другие средства, обеспечивающие наилучшее (с точки зре­ния программы) качество перевода. Словарь может содержать не только отдельные слова, но и типичные словосочетания.

Из систем автоматического перевода с русского языка на английский и с английского на русский наиболее распространены такие про­граммы, как Socrat и Stylus. Stylus, вне всяких сомнений, обеспечи­вает более высокое качество и более высокую гибкость при переводе. Последняя версия программы Stylus сменила название и теперь назы­ваетсяPromt.Программа Promt предназначена для автоматического перевода текстов с английского языка на русский и с русского на английский. Она способна работать с документами в различных форматах, допус­кает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.

Система Promt включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управле­ния их использованием. Перевод слов, которые не входят ни в один из словарей, можно определить самостоятельно и сохранить в пользовательском словаре. Кроме того, программа Promt  позволяет указать правила работы с именами собственными и другими словами, не требующими перевода, например сокращениями.

Дополнительные возможности программы включают пакетный пере­вод файлов, быстрый перевод неформатированного текста, а также возможности синхронного перевода Web-страниц в Интернете. Эти средства реализованы как отдельные приложения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]