Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций КИТ 1 курс ГЭФ.doc
Скачиваний:
307
Добавлен:
22.02.2016
Размер:
3.02 Mб
Скачать
  1. Задачи обработки текстовой информации: ввод текста, редактирование, сохранение документа, форматы текстовых документов, публикация документов. Перевод документов.

Задачи обработки текстовой информации:

  • ввод текста;

  • редактирование;

  • сохранение документа;

  • публикация;

  • поиск и открытие созданного документа;

  • перевод.

Ввод текста

  • набор текста при помощи клавиатуры;

  • перевод бумажных документов в электронную форму;

  • голосовой ввод;

  • рукописный ввод.

Одной из основных задач информатики является разработка и внедрение средств и методов использования вычислительной техники для перевода документооборота из бумажной формы в электронную. Основным методом такого перевода является сканирование.

Сканирование– это технологический процесс, в результате которого создается графический образ. Существуют несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая точка). В результате создается графический файл, в котором хранится растровое изображение исходного документа. Количество точек определяется как размером изображения, так и разрешением сканера.

Сканеры для ввода текстов и иллюстраций:

Ручные сканеры. Не имеет движущихся частей, сканирование производится путем перемещения сканера по документу. Наименее качественное изображение. Очень узкая полоса сканирования.

Листовые сканеры. За одну операцию сканируется лист стандартного формата. Блок сканирования неподвижен, а бумага протягивается мимо него как в принтере. Гарантируют хорошее качество сканирования.

Планшетные сканеры. Блок сканирования перемещается вдоль документа внутри корпуса сканера. Обеспечивают наилучшее качество и максимальное удобство при работе.

Связь сканера с операционной системой:

  • Есть сканеры со специальной платой-контроллером, которая устанавливается в одно из гнезд материнской платы.

  • Есть сканеры, которые подключаются к свободному параллельному порту (порту принтера).

  • Для стандартизации программного интерфейса связи операционной системы и различных сканеров был создан протокол TWAIN, который должен поддерживаться и ОС и сканером.

Программы оптического распознавания текстов

С точки зрения компьютера, документ после сканирования превращается в набор точек, а не в текстовый документ. Проблема распознавания текста в составе графического изображения является весьма сложной.

Ранее распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Подобные программные системы назывались OСR(оптическое распознавание символов), они опирались на специально разработанные шрифты, облегчавшие такой подход. В последние годы появились совершенно новые алгоритмы распознавания образов и программы, построенные на этих алгоритмах, могут справляться с текстом, не ориентируясь на конкретный шрифт или алфавит, в том числе текст может быть и рукописным.

Наиболее широко известны и распространены программы отечественных производителей FineReader и CuneiForm.

Программа FineReader (ABBY Software). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Возможности:

  • Работает с разными моделями сканеров.

  • Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.

  • Позволяет редактировать распознанный текст и проверять его орфографию.

  • Обучается неизвестным ей шрифтам и учитывает дефекты начертания букв.

  • Сохраняет оформление документа, запоминая расположение текста в колонках, таблицы, рисунки и шрифтовое оформление бумажного оригинала.

  • Распознает табличные данные и сохраняет их в формате электронных таблиц.

  • Экспортирует результат напрямую в MS Wordили Excel

Кодирование текстовой информации

Текстовая информация – информация, выраженная с помощью естественных и формальных языков в письменной форме.

Для представления текстовой информации достаточно 256 различных знаков: прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы.

Для обработки текстовой информации на компьютере необходимо представить её в двоичной знаковой системе.

Для кодирования каждого знака необходимо 8 бит информации.

Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255).

Первые 33 кода (с 0 по 32) – соответствуют операциям (перевод строки, ввод пробела и т.д.)

Коды с 33 по 127 – интернациональные, соответствуют знакам латинского алфавита, цифрам, знакам препинания и арифметических операций.

Коды с 128 по 255 – национальные, т.е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки.

Для русских букв существует 5 различных кодовых таблиц.

Сохранение документа

Форматы:

  • ASCII (American Standard Code for Information Interchange)

  • RTF (Rich Text Format)

  • DOC

  • HTML

Сохранение и печать документов

Сохранение документа – для сохранения документа необходимо применить команду Файл – Сохранить, в появившемся диалоговом окне выбрать диск и папку, имя файла и формат файла.

Форматы текстовых файлов:

формат TXT – универсальный текстовый формат (расширение .txt), файлы имеют небольшой информационный объем и могут быть прочитаны различными приложениями, не сохраняется форматирование текста;

формат RTF - универсальный расширенный текстовый формат (расширение .rtf), сохраняются результаты форматирования, большой информационный объем файлов;

формат DOC – оригинальный формат текстового редактора Word (расширение .doc), понимается всеми текстовыми редакторами;

формат Web-страница (расширение .htm или .html) –универсальный, используется для хранения Web-страниц в компьютерных сетях.

Публикация документа

  • печать документа;

  • электронная публикация

  • по электронной почте;

  • выложить в Интернет как Web-страницу;

  • на сменных носителях;

  • Формат PDF

Печать документа – предварительно проводят просмотр документа, задают параметры печати (номера страниц для печати, количество копий и др.).

Гипертекстовый документпредставляет собой документ, в котором содержатся ссылки на другие документы. При щелчке на ссылке осуществляется переход к другому документу. Этот термин, например, относится к файлам помощи (справкаWindows). Но особенно часто он упоминается в связи сWeb.

Опубликованный Web-документ широко доступен в Интернете, и поэтому неизвестно, как будет организовано его воспроизведение. Принципиально невозможно достичь абсолютной точности воспроизведения исходного документа. Жесткого форматирования такого документа не бывает, автор лишь использует специальные коды, с помощью которых указывает, как бы он хотел представить свой документ на экране. Применение этих кодов подчиняется строгим правилам, определяемым спецификацией языкаHTML(HyperTextMarkupLanguage— язык разметки гипертекста). ЯзыкHTMLпредназначен не для форматирования документа, а для его функциональной разметки.

Конкретная программа отображения документа – броузер (InternetExplorer, Netscаре Navigator,Opera) выбирает свой способ представления документа по этим специальным кодам, легко отделяемым от смыслового содержания документа.

Управляющие конструкции языка HTMLназываются тегами и вставляются непосредственно в текст документа. Все теги заключаются в угловые скобки <...>.

Язык HTML позволяет создавать Web-документы вручную, при помощи обычного текстового редактора. Вместе с тем существуют специальные средства автоматического создания Web-документов – редакторы HTML. Их работа основана на принципе WYSIWYG - «Что Видишь, То и Получаешь» и ориентирована на начинающих пользователей. Одним из таких средств является пакет программ Microsoft FrontPage.

Автоматический перевод текстов с одного языка на другой - очень сложная задача, о полном ее решении пока говорить не приходится.

Все проблемы заключаются в объеме переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако, когда речь идет о переводе целых фраз и, тем более, абзацев связного текста, все осложняется..

Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксическийисмысловой. Синтаксический уровень определяет построение предложения, а смысловой - его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и смысл всего абзаца или даже целой главы текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя.

Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить, поэтому программу перевода текста иностранного языка на русский, можно рассматривать как средство получения простейшего черновика.

Программные средства автоматического перевода можно условно разбить на две основные категории. Первую категорию представляют компьютерные словари. Назначение компьютерных словарей то же, что и у обычных словарей: предоставить значение неизвестного слова. Преимущество их состоит в быстром доступе и удобстве автоматического поиска значения выделенное слова. Автоматический словарь обычно предоставляет возможность перевода слова по нажатию выделенной комбинации клавиш.

Ко второй категории относятся программы-переводчики, позволяющие выполнить автоматический перевод связного текста. Они принимают текст на одном языке и выдают текст на другом языке. В ходе работы программа использует обширные словари, наборы грамматических правил и другие средства, обеспечивающие наилучшее, с точки зрения программы, качество перевода. Чем короче предложение, тем больше шансов на то, что преобразование будет правильным.

Программы-переводчики комплектуются, кроме общих словарей, специализированными словарями по разным областям человеческой деятельности и могут переводить потоком фрагмент текста или весь текст.

У нас в стране наиболее широкое распространение получили программы автоматического перевода с английского языка на русский и с русского на английский, такие как Stylus и Socrat. Stylus обеспечивает более высокое качество и более высокую гибкость при переводе. Последние версии Stylus сменили название наPromt98,Promt2000, Promt XP.

Программа Promt. Программа предназначена для автоматического перевода с английского языка на русский и с русского на английский.

  • Способна работать с документами в различных форматах, допускает немедленное редактирование и оригинала и перевода и может сохранить в нужном виде как оригинал, так и перевод.

  • Включает богатый набор как универсальных, так и специализированных словарей и содержит средства для управления их использованием. Перевод слов не входящих в словари можно определить самостоятельно и сохранить в пользовательском словаре.

  • Позволяет указать правила работы с именами собственными и другими словами, не требующими перевода.

  • Имеет отдельные приложения, позволяющие пакетный перевод файлов (FileTranslator), быстрый перевод неформатированного текста (Qtrans), синхронный переводWeb–страниц в Интернете (WebView).

  1. Обработка документов средствами текстовых процессоров: общие сведения о текстовых процессорах, виды и возможности текстовых процессоров: редакторы текстов, редакторы документов, издательские системы.

Одной из наиболее широко распространенных задач, решаемых с использованием офисных систем, является подготовка текстовых документов, писем, статей, отчетов, прайс-листов, рекламных материалов и т.д. Удобство и эффективность применения компьютеров для подготовки текстовых документов привели к созданию множества программных продуктов. Функциональные возможности этих продуктов варьируются от возможностей простейших редакторов текстов (предназначенных для создания текстов простой структуры), до возможностей сложных издательских систем (создание документов для типографского издания).

Основными возможностями, присущими почти всем программным продуктам для подготовки текстовых документов, являются следующие:

• чтение (запись) редактируемого документа с магнитного носителя;

• вывод текста на экран, с целью его просмотра и редактирования (внесения изменений);

• работа с фрагментами текста (перенос и размножение предварительно выделенных участков текста);

• печать документа.

Редакторы текстовориентированы на обработку простых текстов. К этим программным продуктам, во-первых, относят встроенные в систему программирования редакторы программ, например, редакторы систем программирования C++,TurboPascal,Delhiи др., во-вторых, включаемые в операционные оболочки редакторы.

Эти продукты, как правило, выполняют следующие функции:

• создание нового текстового документа, открытие или закрытие существующего, сохранение документа на диск под старым или новым именем;

• перемещение и размножение фрагментов текста из одного места в другое (в ряде случаев из одного файла в другой);

• добавление, удаление или модификацию текста в документе;

• контекстный поиск частей текста, а в ряде редакторов и автоматическая замена;

• печать документа или его части;

• редакторы текстов программ позволяют осуществлять автоматическую верификацию текстов программ, и в ряде случаев, объединяются с отладчиками программ на уровне исходного текста.

Данный класс программных продуктов ориентирован на создание и корректировку программ и простейших текстов. В случае, если требуется подготовить документ с различными стилями оформления, используют редакторы документов.

Редакторы документов,помимо функций редакторов текстов, обеспечивают более сложную модификацию документа:

• возможность использования различных шрифтов (размеров и начертаний) символов и различных способов их выделения (цветом, утолщением, курсивом, подчеркнутые одинарной или двойной линией, зачеркиванием и др.);

• задание произвольных межстрочных интервалов;

• просмотр документа в том виде, как он будет распечатан;

• установку при печати размеров бумажного носителя и отступов;

• выравнивание краев абзаца;

• отмену и повторение предыдущих действий пользователя;

• автоматическую нумерацию страниц;

• печать верхних и нижних заголовков страниц (колонтитулов);

• обработку и нумерацию сносок;

• построение оглавлений, индексов и т.д.;

• набор текста в несколько колонок;

• создание таблиц, рисунков и построение диаграмм;

• удобный интерфейс и средства импорта документов, созданных в иных редакторах;

• включение в документ различных объектов (графических файлов, формул и др.);

• поддерживает автоматический перенос слов на новую строку;

• проверку правописания и подбор синонимов;

• создание макрокоманд и гипертекстовых ссылок.

Существует большой класс редакторов документов. Ранее в Республике Беларусь и России наибольшее распространение получили редакторы Лексикон, ChiWriter, а в настоящее время - редакторMicrosoftWord. В США и Западной Европе распространены редакторыWordPerfectиLaTeX.

Лексикон разработан отечественными программистами, имеет интерфейс на русском языке и позволяет редактировать документы с текстом на русском и английском языках. К его достоинствам следует отнести простоту использования, небольшой объем занимаемого на диске пространства. Среди недостатков следует отметить сложность работы с фрагментами текста, документами большого объема, отсутствие возможностей для создания формул.

ChiWriterориентирован на создание научных документов. Распространению редактора способствовали наличие широкого выбора шрифтов, в том числе математических и идентичных шрифтам пишущих машинок; возможность подготовки документов с математическими и химическими формулами. К недостаткам относят сложности работы с таблицами, невозможность включения в документ рисунков и диаграмм, наличие только одного рабочего окна.

Microsoft Word обеспечивает редактирование текстов и приближается по предоставляемым возможностям к издательским системам. Редактор реализован по принципу WYSIWYG. Несмотря на большой набор функциональных возможностей (указанных выше) редактор Microsoft Word мало приспособлен для оформления газет и иных документов со сложным многоколоночным набором и не позволяет набирать формулы (за исключением верхних и нижних индексов), разбить документ на несколько полос (для печати полноформатных плакатов с последующей склейкой), автоматически выравнивать нижний край текста на странице на заданную границу и др.

WordPerfectобладает приблизительно такими же возможностями, как иMicrosoftWord, однако его интерфейс более сложен и менее удобен, чем уWord, а русифицированные версии не обеспечивают корректную работу с рядом принтеров.

В LaTeXдокументы создаются с встроенными командами форматирования. Эти команды образуют специальный язык, с помощью которого описываются стили документа, виды форматирования, формулы и таблицы. Процесс подготовки документа менее нагляден, чем в редактореWord, но время подготовки документов, содержащих большое количество формул в нем сокращено. Редактор поддерживает создание макрокоманд.

Издательские системыориентированы на подготовку рекламных буклетов, оформления газет, журналов и книг. Они позволяют подготавливать сложные документы высокого качества и выводить их на фотонаборные автоматы или на бумажные носители, обладают возможностями цветоделения, для подготовки высококачественных цветных изданий.

В классификации издательских систем выделяют два основных типа:

• издательские системы для подготовки небольших документов с иллюстрациями, графиками, диаграммами, например газет, рекламных буклетов и небольших журналов. Типичный пример такой системы - AldusPageMaker. Несмотря на ряд достоинств (гибкую поддержку процесса верстки газет и журналов) системаAldusPageMakerобладает рядом недостатков - отсутствие возможности создания и редактирования математических формул;

• системы, ориентированные на создание больших документов, например книг. Они, помимо возможностей систем первого типа, обладают возможностью установки параметров размещения текста. Это позволяет легко изменять оформление документа, сохраняя единство стиля, а также автоматизировать процесс верстки. Одной из наиболее распространенных систем этого типа является издательская система VenturaPublisherфирмыXerox. Данная система управляется посредством развитого меню и обладает возможностью обрабатывать документы, подготовленные с помощью других редакторов (например,MicrosoftWord). Считав в рабочее поле издательской системы документ, можно установить параметры форматирования, определить шрифты для различных частей текста, добавить рисунки и т.д.

Из последних разработок можно назвать такие системы, как QuarkXpressиAdobeInDesign1.5, которые представляют собой весьма продвинутые пакеты, позволяющие выполнять верстку и предпечатную подготовку документов на очень высоком уровне.

Использование издательских систем для набора и редактирования исходного текста в ряде случаев не оправдано. Так, системы VenturaPublisherиAldusPageMakerменее удобны, работают медленнее и по функциональным возможностям редактирования текста значительно уступают таким редакторам документов, какMicrosoftWord. Поэтому целесообразно подготовить текст документа в редактореMicrosoftWord, а затем для окончательной верстки документа поместить его в системуVenturaPublisher.

Основная операция, для которой используются издательские системы - окончательная верстка документа (размещение текста на странице, вставка рисунков, использование разных шрифтов и пр.).