Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Заочники лекция 4 часа.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
227.33 Кб
Скачать

3. Системы автоматизации делопроизводства и документооборота

    1. Системы оптического распознавания символов. Обучаемая ocr-система FineReader.

Распознавание текста производится так называемыми OCR-программами. Это система оптического распознавания символов, или система ввода документов в компьютер, которая требует сканер и не требует клавиатуры для набора текста.

Необходимость использования таких программ обусловлена тем, что текст, который получен после сканирования черно-белого изображения формата А4, представляет собой изображение, имеющее размер около 1000000 байт информации. Распознанный текст занимает около 4000 байт информации и пригоден для обработки текстовым редактором. Кроме того, скорость ручного ввода текста с клавиатуры меньше, чем скорость ввода через сканер.

Первые программы распознавания текстов работали по принципу сравнения распознаваемого символа с набором эталонов. Если в документе встречался текст, набранный другим шрифтом, то начинались проблемы. Современные программы распознавания текстов могут распознавать символы различных шрифтов, включая напечатанные на матричном принтере и даже рукописные. Это программы FineReader, CuneiForm, CorelDrow.

FineReader разработана отечественной фирмой ABBYY и является одним из наиболее распространенных пакетов программ для распознавания русскоязычных текстов.

Возможности FineReader:

  • встроенная возможность автоматической настройки на новые шрифты,

  • строенная проверка орфографии для быстрого обнаружения неправильно распознанных слов,

  • распознавание таблицы с сохранением структуры в распознанном тексте,

  • распознавание не только русских, английских и русско-английских текстов, но и немецких и французских текстов, а также текстов на смешанных языках, т.е русско-французские, англо-немецкие тексты и т.п.,

  • возможность передачи распознанных документов в программы Word и Excel.

Работа с программой FineReader состоит из следующих этапов:

  1. сканировать, считывание изображения с бумажного носителя и представление его в виде графического изображения,

  2. сегментировать, изображение разбивается на блоки в зависимости от содержания,

  3. распознать, графическое изображение преобразуется в текст, таблицы и картинки,

  4. проверить, орфография и неточно распознанные символы,

  5. сохранить.

    1. Системы машинного перевода текста. Работа с профессиональной системой перевода promt.

Активный словарный запас любого языка ограничен, поэтому идея использовать компьютер для автоматического перевода текстов возникла давно. Однако из-за сложностей естественных языков до настоящего времени эта проблема в общем виде не решена.

Одной из попыток решения этой проблемы является программа для перевода текстов, разработанная отечественной фирмой PROMT — Stylus 3.0, PROMT 99 и PROMT 2000. Одной из особенностей программы Stylus является возможность интеграции в комплект программ Microsoft Office (Word и Excel). Работая в этих программах, можно:

  • переводить текущий параграф, выделенный текст или весь текст,

  • прямо из этих приложений, не загружая Stylus, использовать любое из имеющихся направлений перевода, подключать и отключать языковые и тематические словари, пополнять и исправлять словари, добавлять слова в список зарезервированных слов,

  • программы отслеживают направление перевода — если переводили текст с русского на английский, а затем решили переводить английский текст, то программа это заметит и изменит направление перевода на нужное,

  • программа позволяет напрямую работать с программами распознавания текстов.

Программы Stylus, PROMT 99 и PROMT 2000 позволяют переводить тексты, как подготовленные в других программах, так и принесенные извне. Исходные тексты могут быть представлены в файлах следующих форматов txt, doc, rtf, html и др.

При открытии документа сохраняется форматирование текста: размеры, атрибуты шрифтов, отступы и выравнивание абзацев. Деление на таблицы и колонки программа не поддерживает.