Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции сельхоз.doc
Скачиваний:
51
Добавлен:
26.03.2015
Размер:
1.78 Mб
Скачать

Лекция 5.

Обработка текстовых данных.

Текстовые редакторы и текстовые процессоры. При подготовке текстовых документов на компьютере используются три основные группы операций.

Операции ввода позволяют перевести исходный текст из его внешней формы в электронный вид, т.е. в файл, хранящийся на компьютере. Под вводом не обязательно понимается машинописный набор с помощью клавиатуры. Существуют аппаратные средства, позволяющие выполнять ввод текста путем сканирования бумажного оригинала, и программы распознавания образов для перевода из формата графического изображения в текстовый формат.

Операции редактирования (правки) позволяют изменить уже существующий электронный документ путем добавления или удаления его фрагментов, перестановки частей документа, слияния нескольких файлов в один или, наоборот, разбиение единого документа на несколько более мелких.

Оформление документа задают операциями форматирования. Команды форматирования позволяют точно определить, как будет выглядеть текст на экране монитора или на бумаге.

Все текстовые документы требуют ввода и, обычно, редактирования, форматирование не всегда является обязательным, кроме того, часто вредит делу, так как информация о форматировании заносится в текст в виде невидимых кодов, наличие которых может помешать определенным программам работать с текстом. Например, при написании текста программы форматирование не требуется, так как он предназначен не для печати, а для последующей обработки программой-компилятором.

Существуют два вида программ работы с текстом. Одни из них используются только для ввода и редактирования текста, другие позволяют его также форматировать.

Первые программы называют текстовыми редакторами (Блокнот), вторые – текстовыми процессорами (WordPad, Word).

Неформатированные текстовые файлы в системе Windows имеют расширение .txt , а форматированные .doc.

Основные понятия текстового процессора.

Типовая структура интерфейса включает ряд элементов:

Строка меню содержит имена групп команд, объединенных по функциональному признаку. Строка меню находится в верхней части экрана. Выбор режима из строки меню открывает соответствующее подменю, а выбор определенной опции в нем обеспечивает доступ к меню более низкого уровня. Такая система вложенных (ниспадающих) меню составляет основу интерфейса текстового процессора. Команды меню выбираются с помощью мыши, клавиш управления курсором или комбинаций нажатия определенных клавиш («горячих клавиш»).

Строка состояния (статуса) содержит имя редактируемого документа и определяет текущее положение курсора в этом документе. В строке выводится справочная информация.

Строка подсказки содержит информацию о возможных действиях пользователя в текущий момент.

Рабочее поле — это пространство на экране монитора для создания документа и работы с ним. Максимальный размер рабочего поля определяется стандартными параметрами монитора и составляет 25 строк по 80 знаков каждая.

Координатная линейка определяет границы документа и позиции табуляции. Различают вертикальную и горизонтальную линейки. По умолчанию координатная линейка градуирована в сантиметрах. Нулевая точка координатной линейки выровнена по первому абзацу текста.

Линейка прокрутки служит для перемещения текста документа в рабочем поле окна. Линейка, обеспечивающая вертикальное перемещение текста, называется вертикальной линейкой прокрутки, а горизонтальное перемещение — горизонтальной линейкой прокрутки.

Курсор — короткая, как правило, мигающая линия, показывает позицию рабочего поля, в которую будет помещен вводимый символ или элемент текста.

Управление курсором при помощи клавиатуры:

Четыре клавиши управления курсором передвигают курсор на одну позицию в направлении стрелки.

Клавиши <Ноmе> и <End> перемещают курсор в начало и конец строки текста соответственно.

Клавиши <Page Up> и <Page Dn> перемещают текст на одну страницу (экран) вверх или вниз.

При использовании мыши перемещение по документу осуществляется щелчком по соответствующей стрелке на линейках прокрутки или щелчком по самой линейке прокрутки, а также перетаскиванием мышью движка по линейке прокрутки.

Режим вставки и замены символов. Текстовый процессор всегда находится в одном из двух режимов — вставка или замена. Для их переключения используется клавиша <Ins>. В режиме вставки вводимый с клавиатуры текст отодвигает направо текст документа, стоящий правее курсора, не разрушая его. В режиме замены вместо символа, стоящего правее курсора, вводится новый символ с клавиатуры. Режим вставки разрушает существующий текст документа.

Копирование, перемещение и удаление текста. Фрагментом называется непрерывная часть текста. Выделение фрагмента делает его объектом последующей команды, выделить фрагмент — значит «подсветить» его с помощью мыши или клавиатуры. Существуют специальные способы выделения для слова, строки, предложения и др. (Например, двойной или тройной щелчок мышью в WinWord).

Копирование и перемещение фрагментов текста. Эти операции могут выполняться как с буфером промежуточного хранения, так и без него. Например, в текстовом процессоре WinWord возможно перетаскивание фрагментов мышью на новое место (с удалением по старому месту или без удаления) без помощи буфера. Сущность операций, использующих буфер промежуточного хранения, состоит в том, что помеченный фрагмент текста переносится на новое место. Технология выполнения этих операций включает в себя несколько этапов:

  • выделение части текста (фрагмента);

  • перенос выделенного фрагмента в буфер промежуточного хранения;

  • перемещение курсора в нужное место документа;

  • копирование (перенос) выделенного фрагмента из буфера в место документа, указанное курсором.

Поскольку все приложения Windows работают через общий системный буфер промежуточного хранения, можно переносить (копировать) помеченный фрагмент из текущего документа WinWord, в другой открытый документ WinWord или в документ табличного процессора Excel.

Удаление текста. В современных текстовых процессорах возможно удалить символ, слово, строку, фрагмент текста (строчный или блочный).

При этом удаление последнего введенного символа (т.е. символа, стоящего левее курсора) осуществляется при помощи клавиши <Backspace>, а символа, следующего за курсором, — при помощи клавиши <Delete>.

Удалению слова, строки, предложения или любого другого фрагмента текста предшествует предварительное выделение соответствующего элемента текста, а затем применение либо клавиши <Delete>, либо операции удаления. Место, занимаемое удаленным элементом текста, автоматически заполняется размещенным после него текстом.

Операция откатки. В текстовом процессоре, предусмотрена операция откатки. Для реализации этой операции текстовый процессор фиксирует последовательность действий по изменению текста в виде последовательных шагов. Специальной командой откатки (Отменить действие) пользователь может вернуть документ к состоянию, которое было несколько шагов назад, т.е. «откатиться».

Форматирование текста. Операции форматирования включают в себя разбивку текста на строки (в рамках абзаца) и страницы, выбор расположения абзацев, отступов и отбивок между абзацами, обтекания отдельных абзацев, а также видов и начертаний шрифтов. Эти операции выполняются различными текстовыми процессорами с разной степенью автоматизации. Например, разбивку на строки и страницы WinWord выполняет автоматически.

Суть форматирования в способности текстового процессора изменять оформление документа на странице, а именно:

  • изменять границы рабочего поля, определяя поля сверху, снизу, слева, справа;

  • устанавливать межстрочный интервал (разреженность строк на странице) и межбуквенный интервал в слове;

  • выравнивать текст — центрировать, прижимать к левой или правой границе, равномерно распределять слова в строке;

  • использовать разные шрифты и т.п.

Форматирование часто применяется по отношению к абзацу. Абзац — фрагмент текста, процесс ввода которого закончился нажатием на клавишу ввода <Enter>. Новый абзац наследует стиль предыдущего.

Примечание. В режиме индикации на экране специальных символов в конце абзаца вы увидите символ .

Работа с окнами.

Характерной особенностью современных текстовых процессоров является их мультиоконность, т.е. способность одновременно работать с несколькими документами, находящимися в различных окнах. При вводе и редактировании текста пользователь работает в активном окне, в котором возможен доступ ко всем меню. Специальные команды дают возможность упорядочивать окна документов, создавать новые и переходить из одного окна в другое. Здесь различают два режима: полноэкранный и неполноэкранный. В полноэкранном режиме вновь открытое окно является текущим (активным) и перекрывает остальные открытые окна. Переход к другим окнам осуществляется по специальной команде. В не полноэкранном режиме специальные команды упорядочения окон дают возможность расположить все открытые окна на экране в натуральную величину с перекрытием в виде стопки документов. Окно становится активным в результате фиксации на нем в произвольном месте указателя мыши. Команды Распахнуть и Свернуть дают возможность распахнуть активное окно во весь экран или свернуть его в прежний уменьшенный формат.

С помощью команды Разделить рабочая область разделяется на две части. Это удобно, если необходимо работать одновременно с двумя разными частями большого документа.

Перемещение текста в окне. Большинство документов слишком велико, чтобы целиком их увидеть на экране монитора. Текстовый процессор обеспечивает перемещение текста в окне. Этот режим включается автоматически, как только курсор достигает границ экрана. Так, если курсор находится на нижней строке экрана, то после нажатия клавиши перемещения курсора вниз, внизу экрана появится новая строка документа, а самая верхняя строка экрана исчезнет. Аналогичное произойдет при движении курсора вверх. Если ширина документа больше ширины экрана монитора, то клавишей перемещения курсора влево и вправо перемещают текст документа в окне по горизонтали.

Минимальный набор типовых операций при работе с текстом.

Операции, производимые с документом в целом:

  • создание нового документа — присвоение документу уникального имени и набор всего текста документа на клавиатуре;

  • загрузка предварительно созданного документа в оперативную память;

  • сохранение документа — копирование документа из оперативной памяти во внешнюю;

  • удаление документа — удаление созданного или загруженного документа с экрана;

  • распечатка документа — создание твердой (бумажной) копии документа.

Операции, производимые над абзацами документа:

  • Установка границ абзацев производится с помощью маркеров отступов, находящихся на координатной линейке, или соответствующими командами меню.

  • Выравнивание (выключка). Различают четыре вида горизонтального (влево, вправо, по центру, по ширине) и три вида вертикального выравнивания (вверх, вниз, по высоте).

  • Перенос. При выключенном режиме автоматического переноса слово, не поместившееся на строке, полностью переносится на следующую строку. При включенном режиме автоматического переноса реализуется мягкий вариант переноса: текстовый процессор сам делит слово на слоги и переносит его наилучшим способом. Этот режим не создает никаких трудностей при повторном форматировании.

Операции, производимые с фрагментами текста. Эти операции включают выделение фрагмента текста, его перемещение, копирование или удаление, которые были уже рассмотрены. Кроме того, выделенный фрагмент текста можно напечатать, произвести поиск и замену символов, применить шрифтовое выделение и ряд других операций.

Расширенный набор типовых операций.

Контекстный поиск и замена. Режим контекстного поиска и замены реализуется поиском в документе некоторого текстового элемента и заменой его на другой, заданный пользователем. Заменяемый и заданный текстовые элементы могут быть различной длины, включать в себя одно слово, группу слов, часть слова, числа и другие знаки. Существует ряд дополнительных условий для выполнения операции поиска и замены:

  • Одноразовая и глобальная замена. Режим одноразовой замены прекращает поиск после нахождения первого вхождения заменяемого элемента. Глобальная замена заменяет все вхождения заменяемого элемента.

  • Автоматическая и ручная замена. Режим ручной замены требует подтверждения пользователя на замену после нахождения каждого вхождения заменяемого элемента. Автоматический режим такого подтверждения не требует.

  • Чувствительность и нечувствительность к строчным и прописным символам. При выборе режима, чувствительного к строчным и прописным символам, регистр, в котором отображен заменяемый элемент, имеет значение при его поиске.

  • Направление поиска. Обычно команда поиска и замены реализует поиск, начиная от позиции текста, занимаемой в настоящее время курсором, и до конца документа. У ряда текстовых процессоров направление поиска можно изменить на обратное. В ряде текстовых процессоров (например, WinWord) с помощью специальных символов реализуется язык запросов, дающий возможность осуществлять контекстный поиск по сложным критериям.

Обзор некоторых операций.

Операции сохранения. Операция сохранения записывает отредактированный документ, находящийся в оперативной памяти, на диск для постоянного хранения. Тип сохраненного документа обычно присваивается текстовым процессором автоматически. Например, в текстовом процессоре Word документу присваивается тип .DOC. Большинство текстовых процессоров используют следующие три операции сохранения данных.

  1. Сохранить и продолжить редактирование. Эта операция выполняется периодически, гарантируя сохранность более свежей копии проектируемого документа на случай возможной его утраты.

  2. Сохранить и выйти.

  3. Выйти без сохранения.

В текстовых процессорах, имеющих многооконный режим работы, предусматриваются одна операция выхода и отдельные операции сохранения и закрытия окон. Если при выходе в закрываемом окне остается несохраненный измененный документ, то текстовый процессор дополнительно запрашивает, следует ли сохранить документ или нет.

Важным фактором защиты создаваемых документов является функция автосохранения, которая может выполняться как обычная операция сохранения или как специальная операция сохранения текущего состояния текстового процессора в специальном файле. В последнем случае при аварийном прекращении работы это состояние может быть восстановлено, включая содержимое всех окон, положение курсоров в окнах и т.п.

Проверка правописания слов и синтаксиса. Режим проверки правописания и синтаксиса выполняется специальными программами, которые могут быть автономными либо встроенными в текстовый процессор. Эти программы значительно различаются по своим возможностям. Наиболее мощные из них проверяют не только правописание, но и склонение, спряжение, пунктуацию и даже стиль. Указанный режим используют для контроля одного слова, страницы или целого документа. Указанное слово сопоставляется с его написанием в словаре и в случае любых несоответствий выдается на экран для редактирования. При этом пользователю предлагается следующий выбор:

1) провести исправление;

2) игнорировать ошибку;

3) добавить данное слово во вспомогательный словарь.

Многие текстовые процессоры предлагают дополнительные услуги (например, варианты написания слова), облегчающие исправление ошибок. Возможности программы зависят от полноты словаря. Существует возможность пополнения вспомогательного словаря.

Кроме проверки ошибок пунктуации и выдачи предложений по их устранению этот режим обеспечивает выявление некоторых ошибок стиля. В частности неправильное использование заглавных и строчных букв, повторение одного и того же слова несколько раз подряд, отсутствие пробела между словами, отсутствие второй кавычки и т.п. Все указанные ошибки выявляются на основе сравнения разработанного текста с хранящимися в памяти основными правилами. Заметим, что используемый в рамках текстового процессора набор таких правил существенно ограничен.

Словарь синонимов. Словарь синонимов поможет избежать повторений и сделает элегантным стиль изложения. Для его использования необходимо навести курсор на нужное слово и ввести команду просмотра словаря синонимов. Текстовый процессор выдаст на экран несколько синонимов

Установка общих параметров страницы. Различают логическую и физическую страницы. Физическая страница (в некоторых текстовых процессорах вместо этого термина используется термин «размер бумаги») обычно имеет некоторый стандартный размер, например А4 210x297мм, а логическая страница образуется на поле физической за вычетом установленных пользователем границ. Количество данных на логической странице определяется, с одной стороны, плотностью печати (количеством знаков на строке), а с другой — разреженностью строк (интервалом между строками). Если работать нужно с двойными листами, конвертами или наклейками, то следует установить новые размеры физической страницы.

Аналогично тому, как осуществляется жесткий и мягкий перевод каретки на новую строку, текстовый процессор осуществляет мягкий и жесткий переход на новую страницу. Мягкий переход осуществляется автоматически после заполнения последней строки на странице. Однако пользователь может начать новую страницу, не дожидаясь ее окончательного заполнения, подав команду жесткого перехода.

Существует также команда запрета разрыва страниц, которая используется, когда нужно, чтобы определенная часть документа (например, таблица) находилась на одной странице.

При разрыве абзаца многие текстовые процессоры обеспечивают контроль за так называемыми висячими строками. Висячей строкой называется первая строка или заголовок нового абзаца, оказавшиеся на последней строке страницы, или последняя строка абзаца, оказавшаяся в начале страницы. Размещение абзаца при его разрыве может регулироваться по-разному. Например, не менее двух строк в конце страницы и не менее трех строк в начале.

Для введения нумерации страниц в создаваемом документе текстовый процессор предложит специальное меню, в котором можно указать все условия нумерации: месторасположение на листе номера страницы, отказ от нумерации первой страницы, использование колонтитулов и др. Номера страниц проставляются в колонтитуле.

Колонтитулы представляют собой одну или несколько строк, помещаемых в начале или (и) конце каждой страницы документа. Они обычно содержат номера страниц, название глав и параграфов, название и адрес фирмы и т.п. Колонтитулы могут различаться для четных и нечетных страниц, а также для первой страницы и последующих. Использование колонтитулов позволяет лучше ориентироваться в документе, а также использовать дополнительные возможности рекламы.

Работа со стилями. Абзац — элементарный объект оформления любого документа. Каждый заголовок документа тоже рассматривается как отдельный абзац. В меню Формат → Абзац имеется немало различных элементов управления, и выполнять их настройку для каждого абзаца отдельно — неэффективная и утомительная задача. Она автоматизируется путем использования понятия стиль.

Стиль оформления это именованная совокупность настроек параметров шрифта, абзаца, языка и некоторых элементов оформления абзацев (линий и рамок). Благодаря использованию стилей обеспечивается простота форматирования абзацев и заголовков текста, а также единство их оформления в рамках всего документа.

Различают: стили абзаца и знаковые стили (стили символов). С помощью стилей абзаца выполняют форматирование абзацев, а с помощью знаковых стилей можно изменять оформление выделенных фрагментов текста внутри абзаца.

Работа со стилями состоит в создании, настройке и использовании стилей. Некоторое количество стандартных стилей присутствует в настройке программы по умолчанию, сразу после ее установки. Их используют путем выбора нужного стиля из раскрывающегося списка на панели управления Форматирование.

Стандартный стиль можно настроить, заменив его параметры собственными, а можно создать новый собственный стиль.

Наследование стиля. Важной чертой является принцип наследования стилей. Он состоит в том, что любой стиль может быть основан на каком-то из существующих стилей (базовом). Это позволяет, во-первых, сократить до минимума настройку стиля, сосредоточившись только на его отличиях от базового, а во-вторых, обеспечить принцип единства оформления всего документа в целом. Так, например, при изменении гарнитуры шрифта, использованного в базовом стиле, автоматически произойдут и изменения наследуемых элементов в стилях, созданных на его основе.

Стиль следующего абзаца указывают для обеспечения автоматического применения стиля к следующему абзацу, после того как предыдущий абзац закрывается клавишей ENTER.

Совокупность удачных стилевых настроек сохраняется вместе с готовым документом. Но можно сохранить их и вне документа в качестве шаблонов и использовать для подготовки новых документов.

Использование шаблонов. Шаблоны — это тоже документы, а точнее говоря, заготовки будущих документов. Их используют для унификации структуры и внешнего вида документов. От обычных документов шаблоны отличаются тем, что в них приняты специальные меры, исключающие возможность их повреждения. Шаблоны позволяют составлять и хранить универсальные бланки документов различного типа: писем, служебных записок, доверенностей, платежных поручений. Составной частью шаблонов являются стили, определяющие внешний вид символов и абзацев. При составлении определенного документа, вначале загружается шаблон этого типа документов, затем текстом заполняются определенные в нем поля. Один раз сделанный на основе стандартов шаблон может в дальнейшем многократно использоваться для создания документов определенного вида.

Некоторое количество универсальных шаблонов поставляется вместе с программой и устанавливается на компьютере вместе с ней.

Некоторые текстовые процессоры (например, WinWord) хранят в шаблонах не только информацию, нужную для создания нового документа, но также и некоторые элементы среды: состав панелей инструментов и меню, набор макросов, коэффициент масштабирования при отображении документа и т.п. В развитых текстовых процессорах существует целый ряд инструментов, способствующих автоматизации создания шаблонов. Среди них важнейшими являются поля подстановки и макросы.

Использование полей подстановки дает возможность вставлять в шаблон документа новые поля, предназначенные для дальнейшего их заполнения пользователем.

Использование макросов. Макросом называют файл, в котором хранится программа последовательности действий, заданная пользователем. Макрос имеет уникальное имя.

С помощью макросов можно автоматизировать многие типовые технологические этапы при работе с документами, например, макрос, выполняющий последовательность команд по созданию стиля для каждого абзаца документа. После вызова макроса записанная в нем последовательность действий или команд будет в точности воспроизведена.

Макрос создают двумя способами:

  • автоматически в специальном режиме текстового процессора путем записи последовательности действий пользователя;

  • программированием последовательности команд, подлежащих выполнению.

Автотекст. Эффективным инструментом для разработки как шаблонов, так и обычных документов является так называемый автотекст (тезаурус). Автотекст создается на основе специального словаря (глоссария), включающего часто употребляющиеся слова, фразы и рисунки, которые по мере необходимости вставляют в документ. Любой из указанных элементов автотекста можно сохранить под определенным именем вместе со своим стилем.

Слияние документов. В мощных текстовых процессорах имеется возможность слияния документов. Для выполнения этой процедуры необходимо иметь:

  • главный документ, содержащий постоянную информацию;

  • документ — источник для хранения переменной информации.

Главным документом может быть стандартная форма справки или приглашения, стандартное письмо, надписи на конверте, т.е. форма любого стандартного текста и т.д.

Документ-источник должен представлять собой базу данных (или таблицу), состоящую из однотипных записей. В документе-источнике содержатся данные, которыми будет заполняться главный документ.

Создание оглавления документа. Текстовые процессоры позволяют создать оглавление документа, применяя соответствующие стили к каждому заголовку, который будет в него включен. Для облегчения ориентации в документе можно также создать предметный указатель, в котором приводится список тем, обсуждаемых в данном документе, вместе с номерами страниц, содержащих соответствующую информацию. Возможно добавление примечаний, закладок, а также перекрестных ссылок.

Вставка диаграмм, формул. Благодаря наличию в текстовом процессоре Word компонент Graph, Equation и WordArt, в текстовый документ можно вставлять различные диаграммы, математические формулы и текстовые эффекты. Эти компоненты не всегда доступны, это зависит от вида установки Word (так компонент Equation, как правило, при обычной установке недоступен).

Автоматизация ввода и редактирования текста. К приемам автоматизации ввода и редактирования текста, а также разработки и оформления документов относятся средства Автотекст, Автозамена, средства проверки правописания, средства расстановки переносов, средства поиска и замены фрагментов текста, создание оглавления, стили оформления абзацев и шаблоны документов.

Режимы отображения документов. Один и тот же документ в текстовом процессоре можно рассматривать в разных режимах.

В обычном режиме представляется только содержательная часть документа без реквизитных элементов оформления, относящихся к печатным страницам, таких как: колонтитулы, подстраничные сноски и т.п. Этот режим удобен на ранних этапах разработки документа (ввод текста, редактирование, рецензирование), а также во всех случаях, когда содержательная часть документа имеет более высокое значение, чем внешнее представление. В этом режиме операции с объемными документами происходят быстрее.

В режиме Web-документа экранное представление не совпадает с печатным. Оно характерно для электронных публикаций в WWW. Назначенные параметры страницы не учитываются, а форматирование на экране является относительным. В этом режиме разрабатывают электронные публикации.

В режиме разметки экранное представление документа полностью соответствует печатному, вплоть до назначенных параметров страницы. Этот режим удобен для большинства работ, связанных с форматированием текста, предназначенного для печати.

В режиме структуры можно отобразить только заголовки документа. Режим полезен в тех случаях, когда разработку документа начинают с создания плана содержания. Режим отличается тем, что при его включении на панели инструментов автоматически открывается вспомогательная панель Структура.

Выбор одного из выше указанных режимов представления документа выполняют с помощью командных кнопок, расположенных в левом нижнем углу окна приложения , или командами меню Вид.

Через меню Файл доступны еще два режима представления документа, используемые для предварительного просмотра. Для электронных документов используют команду Файл→Предварительный просмотр Web-страницы, а для печатных – Файл→Предварительный просмотр.

Масштаб отображения документа. Если шрифт на экране выглядит слишком мелким, нужно настроить масштаб отображения документа командой Вид→Масштаб или использовать раскрывающийся список Масштаб на панели инструментов Стандартная . Если желаемого масштаба нет в списке, его можно ввести непосредственно в поле списка.

Форматы текстовых файлов.

Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых процессоров и оригинальные форматы, которые используются отдельными текстовыми процессорами. Для преобразования текстового файла из одного формата в другой используются специальные программы – конверторы. В текстовых процессорах такие конверторы входят в состав системы.

Некоторые форматы текстовых файлов:

  • только текст (.txt) – наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца

  • текст в формате(.rtf) – универсальный формат, который сохраняет все форматирование. Текст в данном формате может быть прочитан и интерпретирован многими приложениями (например, предыдущими версиями Word)

  • документ Word (.doc) – оригинальный формат используемой версии Word.

  • текстовый документ Works для Windows (.wps) - оригинальный формат интегрированной системы Works. Преобразование в формат документа Word возможно при наличии конвертора, при этом форматирование Works сохраняется не полностью

  • HTML документ (.htm, .html) – формат хранения Web-страниц. Содержит управляющие коды (теги) языка разметки гипертекста.

Преобразование формата текстового документа можно производить в процессе его сохранения или открытия. Конверторы, входящие в состав текстового процессора, позволяют импортировать и экспортировать документы из одного приложения в другое.

Автоматизация ввода информации в компьютер.

Одной из основных задач информатики является разработка и внедрение средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Основным методом такого перевода является сканирование.

Сканирование – это технологический процесс, в результате которого создается графический образ. Существуют несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая точка). В результате создается графический файл, в котором хранится растровое изображение исходного документа. Количество точек определяется как размером изображения, так и разрешением сканера.

Сканеры для ввода текстов и иллюстраций:

  • Ручные сканеры. Не имеет движущихся частей, сканирование производится путем перемещения сканера по документу. Наименее качественное изображение. Очень узкая полоса сканирования.

  • Листовые сканеры. За одну операцию сканируется лист стандартного формата. Блок сканирования неподвижен, а бумага протягивается мимо него как в принтере. Гарантируют хорошее качество сканирования.

  • Планшетные сканеры. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Обеспечивают наилучшее качество и максимальное удобство при работе.

Связь сканера с операционной системой:

  • Есть сканеры со специальной платой-контроллером, которая устанавливается в одно из гнезд материнской платы.

  • Есть сканеры, которые подключаются к свободному параллельному порту (порту принтера).

  • Для стандартизации программного интерфейса связи операционной системы и различных сканеров был создан протокол TWAIN, который должен поддерживаться и ОС и сканером.

Программы оптического распознавания текстов. С точки зрения компьютера, документ после сканирования превращается в набор точек, а не в текстовый документ. Проблема распознавания текста в составе графического изображения является весьма сложной.

Ранее распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные программные системы назывались OСR (оптическое распознавание символов), они опирались на специально разработанные шрифты, облегчавшие такой подход. В последние годы появились совершенно новые алгоритмы распознавания образов и программы, построенные на этих алгоритмах, могут справляться с текстом, не ориентируясь на конкретный шрифт или алфавит, в том числе текст может быть и рукописным.

Наиболее широко известны и распространены программы отечественных производителей FineReader и CuneiForm.

Программа FineReader (ABBY Software). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Возможности:

  • Работает с разными моделями сканеров.

  • Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.

  • Позволяет редактировать распознанный текст и проверять его орфографию.

  • Обучается неизвестным ей шрифтам и учитывает дефекты начертания букв.

  • Сохраняет оформление документа, запоминая расположение текста в колонках, таблицы, рисунки и шрифтовое оформление бумажного оригинала.

  • Распознает табличные данные и сохраняет их в формате электронных таблиц.

  • Экспортирует результат напрямую в MS Word или Excel.

Автоматический перевод документов.

Автоматический перевод текстов с одного языка на другой - очень сложная задача, о полном ее решении пока говорить не приходится.

Все проблемы заключаются в объеме переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако, когда речь идет о переводе целых фраз и, тем более, абзацев связного текста, все осложняется.

Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксический и смысловой. Синтаксический уровень определяет построение предложения, а смысловой - его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и смысл всего абзаца или даже целой главы текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя.

Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить, поэтому программу перевода текста иностранного языка на русский, можно рассматривать как средство получения простейшего черновика.

Программные средства автоматического перевода можно условно разбить на две основные категории. Первую категорию представляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвестного слова. Преимущество их состоит в быстром доступе и удобстве автоматического поиска значения выделенного слова. Автоматический словарь обычно предоставляет возможность перевода слова по нажатию выделенной комбинации клавиш.

Ко второй категории относятся программы-переводчики, позволяющие выполнить автоматический перевод связного текста. Они принимают текст на одном языке и выдают текст на другом языке. В ходе работы программа использует обширные словари, наборы грамматических правил и другие средства, обеспечивающие наилучшее, с точки зрения программы, качество перевода. Чем короче предложение, тем больше шансов на то, что преобразование будет правильным.

Программы-переводчики комплектуются, кроме общих словарей, специализированными словарями по разным областям человеческой деятельности и могут переводить потоком фрагмент текста или весь текст.

В России наиболее широкое распространение получили программы автоматического перевода с английского языка на русский и с русского на английский, такие как Stylus и Socrat. Stylus обеспечивает более высокое качество и более высокую гибкость при переводе. Последние версии Stylus сменили название на Promt98, Promt 2000.

Программа Promt98. Программа предназначена для автоматического перевода с английского языка на русский и с русского на английский.

  • Способна работать с документами в различных форматах, допускает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.

  • Включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управления их использованием. Перевод слов не входящих в словари можно определить самостоятельно и сохранить в пользовательском словаре.

  • Позволяет указать правила работы с именами собственными и другими словами, не требующими перевода.

  • Имеет отдельные приложения, позволяющие пакетный перевод файлов (File Translator), быстрый перевод неформатированного текста (Qtrans), синхронный перевод Web–страниц в Интернете (WebView).

Работа с гипертекстовыми документами.

Гипертекстовый документ представляет собой документ, в котором содержатся ссылки на другие документы. При щелчке на ссылке осуществляется переход к другому документу. Этот термин, например, относится к файлам помощи (справка Windows). Но особенно часто он упоминается в связи с Web.

Опубликованный Web-документ широко доступен в Интернете, и поэтому неизвестно, как будет организовано его воспроизведение. Принципиально невозможно достичь абсолютной точности воспроизведения исходного документа. Жесткого форматирования такого документа не бывает, автор лишь использует специальные коды, с помощью которых указывает, как бы он хотел представить свой документ на экране. Применение этих кодов подчиняется строгим правилам, определяемым спецификацией языка HTML (HyperText Markup Language — язык разметки гипертекста). Язык HTML предназначен не для форматирования документа, а для его функциональной разметки.

Конкретная программа отображения документа – браузер (Internet Explorer, Netscаре Navigator, Opera) выбирает свой способ представления документа по этим специальным кодам, легко отделяемым от смыслового содержания документа.

Управляющие конструкции языка HTML называются тегами и вставляются непосредственно в текст документа. Все теги заключаются в угловые скобки <...>.

Язык HTML позволяет создавать Web-документы вручную, при помощи обычного текстового редактора. Вместе с тем существуют специальные средства автоматического создания Web-документов – редакторы HTML. Их работа основана на принципе WYSIWYG - «Что Видишь, То и Получаешь» и ориентирована на начинающих пользователей. Одним из таких средств является пакет программ Microsoft FrontPage.