Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
100
Добавлен:
13.04.2015
Размер:
1.81 Mб
Скачать

Содержательный модуль 3. Программные средства для работы со структурированными документами

3.1. Системы обработки текстовой информации

3.1.1. Функции и классификация систем обработки текстовой информации

Подготовкой разнообразных документов (текстов) занимаются специалисты различных направлений.

Различные программы подготовки и редактирования текстов предоставляют всевозможные преимущества подготовки документов писателю, ученому, инженеру, экономисту, бухгалтеру, учителю и многим другим работникам. Среди этих преимуществ выделяют: контекстный поиск и замену подстрок текста; задание произвольных межстрочных промежутков; автоматическую нумерация страниц; набор текста в несколько столбцов; использование операции "откатки" (отказа от нескольких последних операций, произведенных с текстом); проверку правописания и подбор синонимов; построение оглавлений и многое другое.

Программ подготовки и редактирования текста очень много, и их возможности различаются. В этой связи целесообразно говорить о классификации средств обработки текстовой информации.

Системы обработки текстовой информации

Текстовые редакторы

Текстовые процессоры

Специализированные программы обработки текстовой информации

Издательские системы

общего назначения

специального назначения

программы оптического распознавания символов

лингвосистемы

Текстовый редактор это программное средство, предназначенное для создания и редактирования текстов, не содержащих сложных структур (параграфов, глав и др.), и имеющее малое количество функций.

К текстовым редакторам следует отнести редакторы текстов программ (EdLin, EdiProf) и встроенные редакторы (NotePad, WordPad). Как правило, текстовый редактор - это реализованная в виде функций в более сложной системе возможность редактирования текстов. Так, например, в оболочке Norton Commander существует функция Edit, допускающая редактирование текста, объемом не более 26480 байтов. Отличительной особенностью текстовых редакторов является ограниченность их возможностей. Как правило, они не предполагают работу с такими регулярными структурами текста, как глава, параграф, абзац. Используют текстовые редакторы чаще всего для набора текста программ или экстренного внесения незначительных изменений в небольшой по объему текст. Простота текстовых редакторов с точки зрения их функционального наполнения обуславливает и простоту работы с ними.

Множество дополнительных функций реализовано в текстовых процессорах.

Текстовый процессор – это программное средство, предназначенное для создания и редактирования текстов сложной структуры и имеющее широкое функциональное наполнение. Чаще всего различают текстовые процессоры общего и специального назначения. Отличительной особенностью текстовых процессоров является возможность обрабатывать такие регулярные структуры документа, как абзац, параграф, страница и др. В мире существует сотни текстовых процессоров, различных по своему функциональному наполнению. Чем больше функций реализует тот или иной процессор, тем он более сложен для освоения. Среди наиболее распространенных - текстовые процессоры общего назначения: Лексикон, Фотон, Multe-Edit, Xy Write, Microsoft Wоrd, Word Perfect.

Проводя сравнительную характеристику текстовых процессоров, оценивают, как правило, следующие их функции:

  • редактирование;

  • форматирование;

  • слияние файлов;

  • настольное издательство;

  • печать;

  • быстродействие.

Также имеются специализированные программы обработки текстовой информации – это программные средства, имеющие узкую специализацию. Среди таких программ следует отметить программы проверки правописания и подбора синонимов, формирования текстов, перекодировщики, программы групповой записи текстов, словарные программы. Многие текстовые процессоры в качестве функций содержат некоторые из таких программ.

Для подготовки рекламных буклетов, оформления журналов и книг используются специальные издательские системы. Они позволяют подготавливать к печати сложные документы высокого качества.

В последнее время некоторые редакторы текстов документов на­столько приблизились по возможностям к издательским системам, что стали вплотную с ними конкурировать.

Для большого количества специалистов – научных работников, инженеров, конструкторов, экономистов и т.д. необходимо подготавливать именно документы с математическими и химическими формулами, различными специальными символами, матрицами и сложными диаграммами. Понятно, что им было крайне неудобно печатать текст без формул, а затем вписывать формулы от руки. Поэтому для подготовки таких документов были созданы специальные редакторы научных документов. Однако они не получили широкого распространения, так как к концу 80-х годов прошлого века возможности подготовки формул стали включаться в редакторы текстов общего назначения (сперва в WordPerfect 5.1, затем Microsoft Word для Windows и др.).

При расширяющемся распространении персональных компьютеров работа с различными документами ведется в основном в электронном виде. Но так как существуют и бумажные документы, то их необходимо переводить в электронную форму, чтобы в дальнейшем использовать систему электронного документооборота или, в крайнем случае, получить возможность обработки на компьютере. Чтобы реализовать такой перевод, необходимо выполнить сканирование бумажных документов и распознавать их содержимое с помощью специальной программы, называемой системой оптического распознавания символов (Optical Character Recognition – OCR).

Большинству программ распознавания приходится работать с изображением документов, которое получено через факс-модем или сканер. С точки зрения действий над изображением, OCR-система должна разбить страницу на блоки, представляющие собой текстовое содержимое, графику, таблицы и другие элементы.

Наиболее сложный и трудоемкий процесс распознавания связан с текстом, так как при его идентификации нужно учитывать особенности выравнивания текста, наличия нескольких колонок и другие элементы форматирования.

Собственно процесс распознавания изображения документа начинается с обнаружения текста, который представляет собой набор элементарных связанных областей (букв), имеющих приблизительно одинаковый размер и располагающихся на плоскости вдоль параллельных прямых. После распознавания текстового блока он разбивается на строки. После распознавания строк производится их разбиение на слова. И наконец, решается задача распознавания символов.

В настоящее время среди программ оптического распознавания символов следует особо выделить программу FineReader 8, которая имеет интуитивно понятный пользовательский интерфейс, хорошую техническую поддержку, наивысший показатель "цена/производительность" и обеспечивает самую высокую точность распознавания. Даже в том случае, если она и объявляет о неуверенно распознанных словах, на самом деле все может быть распознано достаточно корректно. После ее обучения можно получить почти 100-процентную точность распознавания текстов на светлом фоне.

Издательские системы используются для подготовки больших, сложных документов (книги, альбомы, журналы, газеты), а также предназначены для верстки текста. Верстка текста заключается в размещении текста по страницам создаваемого документа, вставке рисунков, использовании различных шрифтов применительно к документам, уже созданным с помощью редакторов документов. Эти системы предполагают применение редакторов документов для предварительной подготовки материалов, а для окончательной верстки используется уже сама издательская система. Многие функциональные возможности издательских систем имеют и современные редакторы документов.

Хотя текстовый редактор и издательская система призваны решать одну и ту же задачу создания документов, они ориентируются на различные категории пользователей. Текстовый процессор предназначен для рядового пользователя, для которого главным является удобство и простота интерфейса. Издательская система ориентируется на профессионалов, для которых важнее всего полный контроль над видом создаваемого документа. Указанные ориентации постепенно сближаются по мере совершенствования компьютеров и программ.

Среди программных продуктов можно особо выделить такие, как Corel Ventura Publisher, Adobe PageMaker, QuarkXPress и др.

Соседние файлы в папке пособие_ЭИ