Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kniga_Osnovy_informatiki_i_informatsionnyh_tehn....doc
Скачиваний:
46
Добавлен:
21.04.2019
Размер:
2.84 Mб
Скачать

10.5. Системы оптического распознавания текстов

Системы оптического распознавания текстов (Optical Character Recognition System) предназначены для распознавания текстов, содержащихся в графических файлах различных форматов (BMP, GIF, TIF, PCX и т.д.), а также текстов, считываемых с помощью сканера.

Наиболее известными и часто используемыми программами оптического распознавания текста являются программы FineReader (ABBYY Software House (BIT Software, Inc)) и CuneiForm (Cognitive Enterprises LLC и Cognitive Technologies Ltd).

Системы распознавания текста различаются наличием и уровнем предоставляемых дополнительных услуг, скоростью и качеством распознавания текста, а также возможностью организации взаимодействия и интеграции с другими программами (в частности, с текстовыми редакторами).

Системы оптического распознавания символов (Optical Character Recognition, OCR) служат для автоматизации ввода печатной информации в компьютер посредством сканера.

С помощью сканера возможно получить изображение входного документа. Но это будет лишь изображение – его можно просмотреть и, возможно, отпечатать, но воспользоваться содержащимся в нём текстом или внести в него какие-либо изменения нельзя. Редактирование такого документа возможно только с помощью графических редакторов, которые не обладают удобными средствами для работы с текстом.

Для преобразования изображения в текстовый документ созданы специальные программы (OCR). С их помощью компьютер как бы учится «читать» документ. Полученный документ можно с лёгкостью редактировать, форматировать и использовать, как и любой текстовый документ, подготовленный с помощью текстового редактора.

10.6. Интеграция систем распознавания текстов, компьютерного перевода и офисных пакетов

В современных офисных системах реализована идея объединения систем оптического распознавания текста, текстовых процессоров и систем перевода. Интеграция этих продуктов обеспечивает создание полнофункциональных офисных приложений, обеспечивающих перевод «с листа на лист».

Системы оптического распознавания текстов позволяют распозна­вать печатные документы быстро и достаточно качественно. После непродолжительного редактирования во встроенном редакторе электронный вариант документа оказывается полностью подготовленным для дальнейшего использования, для его обработки с помощью систем электронного перевода и текстовых процессоров.

Системы электронного перевода осуществляют перевод не одного слова или словосочетания, а полный перевод документа. При этом сохраняется его исходное форматирование. Но каким бы удобным ни был встроенный редактор программ оптического распознавания текста или электронного перевода, он не обладает полной функциональностью современных текстовых процессоров. Поэтому многие программы рассматриваемых классов изначально ориентированы на работу с Microsoft Word.

Основная задача создателей интегрированных систем – заставить приложения работать совместно. Наиболее успешными примерами подобной интеграции являлись до последнего времени Stylus и Socrat.

В системах Stylus Lingvo Office (совместный продукт ПроМТ и Bit SoftWare) и Русский офис (Арсеналъ) в качестве программы оптического распознавания текста используется система FineReader.

Системой перевода в Stylus Lingvo Office является Stylus компании ПроМТ. Кроме того, при правке отдельных спорных или неправильных фрагментов переведенного документа можно использовать электронную систему словарей Lingvo.

В Русском офисе в систему интегрирован переводчик Socrat фирмы Арсеналъ.

Русский офис изначально ориентирован на работу с Microsoft Office (Word). При установке Офиса в Word встраиваются новые макросы. Средства Русского офиса позволяют переводить текст прямо в текущем документе, вставлять отсканированный и распознанный текст, а также настраивать переводчик, не выходя из него.

Stylus Lingvo Office также прекрасно «общается» с Microsoft Word различными способами: через буфер обмена, через создание связей с любым активным документом.

Описанные продукты были первыми шагами по пути интеграции. Следующий пакет предоставляет более мощные возможности интеграции (в частности, с Web).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]