- •Раздел 5. Компьютерные технологии подготовки текстовых документов,
- •1. Компьютерные технологии подготовки текстовых документов.
- •2. Компьютеризация делопроизводства.
- •2.1. Персональные компьютеры в современном делопроизводстве.
- •2.2. Автоматизация работы с документами.
- •3. Оформление текста.
- •3.1. Основные методы оформления (форматирования) текста.
- •3.2. Оформление символов текста.
- •3.3. Оформление абзацев.
- •3.4. Расположение текста.
- •3.5. Рубрики, выделения в тексте.
- •3.6. Оформление заголовков.
- •3.7. Примечания, сноски.
- •3.8. Верстка страниц многостраничного текста.
- •3.9. Печать.
- •4. Подготовка таблиц.
- •4.1. Понятие и структура таблицы.
- •4.2. Порядок разработки таблицы.
- •4.3. Основные требования к форме и построению таблиц.
- •4.4. Оформление нумерационного заголовка таблицы.
- •4.5. Оформление заголовков и граф.
- •5. Системы для работы с электронными документами.
- •5.1. Автоматизация ввода информации в компьютер.
- •5.2. Сканеры для ввода текстов и иллюстраций.
- •5.3. Автоматическое распознавание текстов.
- •5.4. Автоматический перевод документов.
- •5.5. Работа со словарями.
- •6. Коммуникационные системы и технологии.
- •6.1. Определение сети.
- •6.2. Гипертекстовые ссылки.
- •6.3. Обозреватели (браузеры).
- •6.4. Ресурсы Интернета.
5.3. Автоматическое распознавание текстов.
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решаютс помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв вэтой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные системы назывались OCR (Optical Character Recognition – оптическое распознавание символов) и опирались на специальноразработанные шрифты, облегчавшие такой подход.
Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работатьс пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.
Панель Scan&Readсодержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.
Панель Распознаваниепозволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.
Панель Инструментыиспользуют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.
Элементы управления панели Форматированиеиспользуют для изменения представления готового текста или при его редактировании.
5.4. Автоматический перевод документов.
Быстрое развитие международного сотрудничества, науки, торговли, туризма привело к необходимости автоматизированного перевода документов с одного языка на другой. Подобный перевод часто называют машинным. Выполняется он прикладным процессом. Сложность этого процесса связана со многими трудностями. В первую очередь, среди них выделяются неоднозначность слов и фраз различных естественных языков, разные интерпретации предложений и т.д. Вследствие этого, автоматизированный перевод пока не может полностью заменить переводчика.
Выделяют следующие типы текстов, используемых для перевода:
• научно-технический;
• узкоспециальный (например, документация в банке);
• обработанный (так, что исключается неоднозначное толкование слов).
Программные средства автоматического перевода можно условно разбить на две основные категории.
Первую категориюпредставляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвестного слова.Преимущество компьютерных словарей состоит в быстроте доступа и удобстве автоматического поиска значения выделенного слова.Автоматический словарь обычно предоставляет возможность перевода слова по нажатию выделенной комбинации клавиш.
Ко второй категорииотносятся программы, позволяющие выполнить автоматический перевод связного текста. Они принимаюттекст на одном языке (предположительно грамотный и не содержащий опечаток) и выдают текст на другом языке. В ходе работы программа использует обширные словари, наборы грамматическихправил и другие средства, обеспечивающие наилучшее (с точки зрения программы) качество перевода. Словарь может содержать не только отдельные слова, но и типичные словосочетания.
Из систем автоматического перевода с русского языка на английский и с английского на русский наиболее распространены такие программы, как Socrat и Stylus. Stylus, вне всяких сомнений, обеспечивает более высокое качество и более высокую гибкость при переводе. Последняя версия программы Stylus сменила название и теперь называетсяPromt.Программа Promt предназначена для автоматического перевода текстов с английского языка на русский и с русского на английский. Она способна работать с документами в различных форматах, допускает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.
Система Promt включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управления их использованием. Перевод слов, которые не входят ни в один из словарей, можно определить самостоятельно и сохранить в пользовательском словаре. Кроме того, программа Promt позволяет указать правила работы с именами собственными и другими словами, не требующими перевода, например сокращениями.
Дополнительные возможности программы включают пакетный перевод файлов, быстрый перевод неформатированного текста, а также возможности синхронного перевода Web-страниц в Интернете. Эти средства реализованы как отдельные приложения.