Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
K_EKZAMENU_po_inform.doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
1.76 Mб
Скачать

21 Сервисные и инструментальные программные средства: архиваторы, электронные словари, переводчики, программы распознавания текста и др.

Их решение строится на основе анализа изображения документа, полученного со сканера, видеокамеры или другого сканирующего устройства. Процесс получения изображения с бу­мажного или другого носителя и занесения его в память компь­ютера называется оптическим вводом.

После оптического ввода документ представляет собой сово­купность черных и белых (либо различных цветов) точек — гра­фическое изображение. Текст в графической форме невозможно отредактировать текстовым редактором, занести в базу данных и т.д. Поэтому общую задачу распознавания документа можно сформулировать как преобразование формы представления ин­формации из графической в воспринимаемую человеком и про­граммой.

В большинстве случаев задача распознавания документов может быть разбита на подзадачи, связанные с распознаванием определенных составляющих — компонент документа (текста, цветных, полутоновых и контурных изображений).

Цветное (полутоновое) изображение в большинстве случаев достаточно сохранить в виде сканированного фрагмента (в графическом формате) для после­дующей вставки его в электронный документ.

Контурное изображение (рамки таблиц, подписи, печати) преобразуется из растрового представления в более удобную для последующего анализа и хранения форму (например, в вектор­ное представление).

Распознавание текста (optical character recognition OCR) является одним из наиболее важных процессов этой задачи и представляет собой преобразование графического изображения текста (печатного либо рукописного) в символьную форму.

Анализ структуры документа преследует две основные цели: во-первых, ее точную передачу, требующуюся, например, при обработке финансовых документов; во-вторых — для распозна­вания компонент документа.Основными целями в системах распознавания документов являются: воспроизведение; преобразование формы представления ;распознавание текста документа; хранение, диспетчеризация, поиск;определение подлинности.

Системы машинного перевода.Машинный (автоматический) перевод — интенсивно разви­вающаяся область научных исследований, экспериментальных разработок и уже функционирующих систем. Системы машин­ного перевода открывают быстрый и систематический доступ к информации на иностранном языке, обеспечивают оперативность и единообразие в переводе больших потоков текстовой инфор­мации.

Современные системы машинного перевода, в особенности использующие базы знаний по определенной предметной облас­ти, относят к классу систем искусственного интеллекта.

Процесс машинного перевода представляет собой последова­тельность преобразований, применяемых к тексту на исходном языке и превращающих его в переведенный текст. При этом переведенный текст должен максимально воссоздавать смысл и, как правило, структуру исходного текста, но уже средствами языка, на который осуществляется перевод.

Полностью автоматизированный высококачественный перевод считается в настоящее время практически недостижимой зада­чей. Архиватор — программа, осуществляющая объединение нескольких файлов в один архив или серию архивов, для удобства переноса или хранения. Многие архиваторы используют сжатие без потерь для уменьшения размера архива. Простейшие архиваторы просто последовательно объединяют содержимое файлов в архив. Кроме него, архив должен также содержать информацию об именах файлов и длине оригиналов для их восстановления. Большинство архиваторов также сохраняют метаданные файлов, предоставляемые операционной системой, такие, как время создания и права доступа. Программа, создавая архив, обрабатывает как текстовые файлы, так и бинарные файлы. Первые всегда сжимаются в несколько раз (в зависимости от архиватора). Электронный словарь — компьютерная база данных, содержащая особым образом закодированные словарные статьи, позволяющие осуществлять быстрый поиск нужных слов, часто с учетом морфологических форм и с возможностью поиска сочетаний слов (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]