Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
для заочников ОИТ.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
1.43 Mб
Скачать

4. Системы обработки текстовых документов

Системы обработки текстовой информации в зависимости от их функционального назначения принято делить на:

  1. Редакторы текстов.

  2. Редакторы документов.

  3. Издательские системы.

Редакторы текстов ориентированы на обработку простых текстов, в т.ч. текстов программ на языках программирования. Они обычно не являются самостоятельными программными продуктами, а встраиваются в систему программирования, или операционные системы и их оболочки. Например, текстовый редактор Блокнот, встроен в операционную систему Windows.

Редакторы документов предназначены для работы с текстом, имеющим структуру документа, т.е. состоящим из разделов, параграфов, абзацев, предложений, слов. Сегодня наибольшее распространение у нас имеет редактор Microsoft Word. В США и Западной Европе распространены редакторы: Word Perfect и LaTex.

Издательские системы подготавливают текст в виде, близком к типографскому. Основная операция, для которой их используют – окончательная верстка документа, т.е. размещение текста на странице, вставка рисунков, использование шрифтов.

Существующие в настоящее время издательские системы бывают двух видов. Одни – более приспособлены для небольших текстовых материалов с обилием иллюстраций, графиков, диаграмм. Например, настольная издательская система Page Marker. Издательские системы второго вида более приспособлены для подготовки больших документов: книг, учебников, монографий. У них те же характеристики, что и у систем 1-го вида, но они обладают развитым аппаратом размещения текста на страницах. Например, система Ventura Publisher фирмы Xerox.

Иногда выделяют еще редакторы научных текстов, которые используются для подготовки и редактирования научных текстов с большим количеством математических и химических формул, графиков, специальных символов. Например, TxT и MathOr.

В последние годы появились программные продукты, осуществляющие контроль текста и его перевод с одного языка на другой. Имеются системы перевода, которые позволяют переводить практически любые тексты, например, система Prompt.

5. Системы распознавания текстов

Одно из направлений развития информационных технологий – трансформация бумажного документа в электронный. Для этого применяются специализированные программы, которые трансформируют изображение, представляющее собой набор точек и символов, в редактируемый текст. Такие программы получили название OCR (Optical Character Recognition) – системы оптического распознавания символов.

Первая программа оптического распознавания символов могла распознавать тексты, набранные только одним шрифтом определенного размера (разработка компании Intelligent Machine Corporation, 1959 г. ). Затем была разработана система, которую можно было научить распознавать любой шрифт, но с предварительным обучением (разработка компании Kurzweil Computer Products, 70-е годы ХХ века).

В 1986 году появилась система, которая могла распознавать сложные страницы, содержащие набор различных шрифтов, без предварительного обучения (компания Calera Recognition Systems). Эта система использовала идею программного прообраза искусственного интеллекта, который распознавал символы по аналогии с человеком, используя метод нейронных сетей.

Чтобы OCR-системы распознавали различные типы текстов с набором разных шрифтов, стали применять специализированные алгоритмы-эксперты для решения определенных задач при идентификации символов (начало 90-х ХХв.):

  • один – специализировался на различных начертаниях шрифтов;

  • другой – учитывал особенности при распознавании неконтрастных изображений;

  • третий – проверял правильность идентифицированного слова по словарю.

Большинство OCR-систем базируется на технологии целостного целенаправленного адаптивного распознавания. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. Адаптивность – способность OCR-системы к самообучению.

Процесс ввода документа в компьютер можно разделить на два этапа: сканирование и распознавание.

Сканирование. Сканер играет роль "глаза": просматривает изображение и передает его компьютеру. Полученное изображение является набором точек, т. е. картинкой, которую невозможно отредактировать в текстовом редакторе.

Распознавание – это обработка изображения системой оптического распознавания символов.

Сегодня OCR-системы могут распознавать тексты:

  • набранные различным шрифтом,

  • на более чем 100 языках,

  • обеспечивая практически 100% правильность распознавания для высококачественных исходных изображений.

Прогресс наблюдается и при распознавании некачественных текстов с погрешностью порядка 20 %.

Однако программы распознавания символов не могут использовать алгоритм, применяемый человеком. Человек определяет буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл предложения. OCR-системы выполняют только орфографическую проверку отдельных символов и слов. Это отразилось на отсутствии программ для распознавания рукописного текста. При создании программ, способных распознавать рукописный текст, разработчикам приходится решать ряд вопросов:

  • почерк каждого человека уникален;

  • из-за отсутствия пробелов между буквами достаточно сложно выполнить правильную сегментацию символов;

  • человек часто смазывает буквы, делает помарки и т. д.

Это можно решить при максимальном приближении OCR-системы к способу восприятия текста человеком. Сегодня наиболее известно две системы оптического распознавания текстов: FineReader, CuneiForm и др. Лидирует на рынке этих программных средств продукт FineReader компании ABBYY Software Hause.