Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие_2010.docx
Скачиваний:
235
Добавлен:
03.06.2015
Размер:
4.23 Mб
Скачать

Сканирование и распознавание текстов

Сканирование и распознавание текстов – процесс преобразования бумажного документа в машиночитаемый.

Процесс преобразования состоит из двух этапов: создания растрового изображения документа и преобразования изображения букв в редактируемый текст.

Качество распознавания характеризуется точностью воспроизводства текста. Качество зависит от выбора правильного режима сканирования и от возможности программы отождествить изображение знака с одной из букв алфавита выбранного языка. Возможности программы зависят от встроенного алгоритма распознавания образов.

Распознавание образов — область информатики и математики, связанная с разработкой методов выделения важных свойств некоторой совокупности объектов, установления по этим свойствам принадлежности объекта к одному из известных типов (объединению, образу).

При распознавании текста стоит задача выделения характерных свойств знака на фоне шума, возникающего при сканировании, и особенностей начертания использованной гарнитуры шрифта. Для решения этой задачи применяют алгоритмы распознавания образов, в которых сравниваются суммарные отклонения элементов знака от набора эталонов. Знаку присваивается тот эталон, для которого суммарное отклонение минимальное. Более подробно задача распознавания образов будет рассмотрена в Теме 3 нашего курса.

Одной из наиболее популярных программ распознавания текста является ABBYY FineReader. В последней редакции (8.0) имеется возможность обучения программы особенностям начертания шрифта, что избавляет пользователя от исправления одной и той же ошибки распознавания, например, распознание ып как ьш .

Машинный перевод текстов

С практической точки зрения, не имея ввиду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:

  • автоматический перевод;

  • автоматизированный машинный перевод при участии человека;

  • перевод, осуществляемый человеком с использованием компьютера.

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов, однако работа над такими переводчиками ведется очень интенсивно.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.

В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

К МТ-программам относятся продукты машинного перевода фирмы ПРОМТ, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа (упрощенная бесплатная версия такого продукта установлена на сайте www.translate.ru). Коммерческая версия фирмы ПРОМТ обладает большими возможностями и может быть установлена в корпоративной сети.

На отечественном рынке следует также отметить продукт Retrans Vista фирмы «Виста текнолоджиз», предназначенный только для англо-русского и русско-английского перевода текста. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней «длиной» в 2,2 слова.

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.

Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation’s Workbench фирмы Trados (для краткости часто также называемый Trados). Сейчас рынок ТМ-систем быстро растет, тем не менее, эти продукты остаются все еще слишком дорогими для российского пользователя (цена пакета составляет 5–7 тыс. долларов).

Выводы

    1. Документ (документированная информация) – информация, зафиксированная на материальном носителе и имеющая реквизиты для идентификации.

    2. Для придания документу юридической силы документ подписывает официальное лицо. Электронные документы могут быть заверены электронно-цифровой подписью.

    3. Документы могут иметь регламент оформления для стандартизации. В зависимости от содержащейся в документе информации документы разделяют по режиму доступа, по статусу.

    4. Юридическая деятельность связана с огромным потоком текстовой информации. В настоящее время широко представлены различные технологии работы с текстовой информацией. Технологии включают в себя технические и программные средства.

    5. Технические средства включают в себя офисную технику, персональные компьютеры, мощные суперкомпьютеры для организации хранилищ данных и средства связи (сети и средства их поддержки).

    6. К программным средствам относятся текстовые редакторы (например, Word), электронные таблицы (Excel), а также программные средства сканирования и распознавания текста (ABBY FineReader), проверки правописания (ОРФО) и автоматизации перевода (ПРОМТ, Trados).