Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
!!Ответы ИТ сборка.docx
Скачиваний:
4
Добавлен:
01.03.2025
Размер:
1.72 Mб
Скачать

Электронный переводчик как словарь.

Вообще-то в составе мощных переводческих пакетов, таких как Promt, например, уже имеется отдельный электронный словарь, благодаря использованию которого переводчик может сэкономить довольно много времени, избежав долгого листания страниц его бумажного аналога. Однако электронный словарь всё же несколько отличается по своей функциональности от электронного переводчика. Последний способен оказать существенную помощь в поиске значений не отдельных слов, а фразеологизмов. То есть, он может анализировать группы слов и делать выводы об их возможной фразеологической взаимосвязи и, соответственно, подсказывать результаты, о которых, возможно, переводчик не знал.

Электронный переводчик как накопительная словарная база

Вторая функциональная возможность электронных переводчиков представляет интерес для специалистов, которые занимаются, в основном, переводом технических и прочих специальных текстов, насыщенных отраслевой терминологией. Благодаря возможности создания и пополнения пользовательских словарей, можно наработать большую словарную базу по конкретной отрасли. Впоследствии она поможет максимально упростить процесс поиска «трудных» слов и словосочетаний и, тем самым, значительно увеличить скорость работы.

Оптическое распознавание символов (англ. opticalcharacterrecognition, OCR) — механический или электронный перевод изображений рукописногомашинописного или печатноготекста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образовискусственного интеллекта и компьютерного зрения.

Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты.

Программа распознавания текста CuneiForm

C uneiForm — это программа для оптического распознавания текста документов, представленных в виде изображений, в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах, сохранять в популярных форматах, проводить по ним полнотекстовый поиск.

При распознавании с помощью CuneiForm сохраняется структура документа и его форматирование. Программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки. Распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с принтеров, тексты с пишущих машинок и т. п. Алгоритмы оптического распознавания (OCR), встроенные в программу, позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов. Возможно распознавание документов более чем на двадцати языках. Для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счёт импорта новых слов.

Большинство программ, подобных CuneiForm, практически не распознают рукописный текст.

Программа кроссплатформенная, возможна работа в ОС Windows, Linux, Mac OS и Free BSD. Имеются версии на русском и английском языках.

К сожалению CuneiForm уже длительное время не развивается и начинает серьёзно отставать от своих платных конкурентов. Но другую, такого уровня, бесплатную OCR-программу обнаружить пока не удалось.