Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
технологическиецикл_биб_технологий.doc
Скачиваний:
5
Добавлен:
01.03.2025
Размер:
225.28 Кб
Скачать

Оптическое распознавание текста

Для того чтобы мог быть использован полнотекстовый поиск в некоторых системах применяется оптического распознавание текста.

Кроме того выполняется автоматический структурный анализ, в ходе которого осуществляется аннотирование оглавления, и номера страниц выверяются так, чтобы интерфейс поиска соответствовал бы пагинации оригинальной книги. Это тоже автоматизированный процесс. Программное обеспечение поддерживает очень сложный структурный анализ, однако, на увеличение сложности невозможно без применения интеллектуального контроля после завершения процесса.

По завершении такой обработки создается комплексный объект, содержащий метаданные, соответствующие стандарту кодирования и передачи метаданных, цифровую книгу (графический образ), оптически распознанный текст и данные о структуре. Этот объект помещается в депозитарий долгосрочного хранения цифровых материалов национальной библиотеки.

Одновременно в каталог добавляется паспорт идентификатор книги.

Депозитарий долгосрочного хранения цифровых материалов

1) Организация.

Хранением цифровых материалов должны заниматься организации, которые могут взять на себя долгосрочные обязательства, обеспечить поддержку технологий, подготовку кадров, имеют устойчивое финансирование.

2) Программно-аппаратное обеспечение

В последние годы появились сертифицированные коммерческие системы, называемые «цифровые архивы». Они разработаны с учетом международных стандартов (ISO) и основаны на системах и протоколах OAIS (Open Archive Initiative Systems). R

Метаданные, описывающие сохраняемый документ:

Библиографическое описание

Структурное описание (формат и структура данных)

Описание системы хранения

другие.

В настоящее время разрабатываются стандарт на наборы метаданных.

Что необходимо для цифрового хранения?

4) Обеспечение постоянного доступа к сохраняемым материалам:

Сохраняемые материалы, как правило, разнородны (тексты, графика, аудио, видео материалы)

Необходима поддержка программной среды, позволяющей использовать эти материалы

Стратегии хранения, обеспечивающие постоянный доступ к данным

1. Миграция данных.

Под миграцией понимается конвертирование данных, приспособление их к новой версии программного средства. Однако в ходе конвертирования данных некоторая часть информации теряется, в результате цифровой объект с течением времени несколько меняется

Стратегии хранения, обеспечивающие постоянный доступ к данным

2.Эмуляция

Под эмуляцией понимается имитация оригинальной программной среды в новой программной среде. При этом сохраняемые материалы остаются неизменными.

Управление цифровыми объектами (Digital Object Management - DOM)

Так называемая «идеальная» схема организации обработки, хранения и использования электронных документов (DOM) приводится по публикации Ричарда Мастерса (Британская Библиотека)

Депозитарий долгосрочного хранения цифрового материала – инфраструктура, обеспечивающая долгосрочную сохранность цифровых материалов.

После оцифровки книга вместе с описывающими ее метаданными, готовые для дальнейшей обработки, помещаются во временное хранилище. С этого момента обработка большинства книг, как правило, полностью автоматизирована.

После оптического распознавания и структурного анализа документа, все графические файлы книги подвергаются сжатию с генерацией формата хранения.

В депозитарии обычно предусматривается разделение технологий использования и хранения цифровых материалов. Это позволяет просто осуществлять миграцию данных в технологические системы хранения новых поколений, не оказывая при этом влияния на систему извлечения цифровых данных. Это очень существенно в перспективе на 1000 лет.

Все цифровые материалы хранятся в нескольких экземплярах на не менее чем на двух носителях. Например, одна из трех копий сохраняется на диске, а две другие на магнитной ленте.

Поисковая система.

В целях осуществления поиска в больших массивах данных, может быть использована как традиционная технология базы данных, так и технология поисковой системы Интернет. В последнем случае и полный текст, и метаданные индексируются системой, и поиск осуществляется независимо от типа материала.

Индексирование

Импорт данных каталога в формате OAI производится регулярно. Если в ходе импорта обнаруживается, что запись обновлена и на книгу имеется цифровой паспорт – идентификатор, начинается процесс извлечения метаданных и текста книги из депозитария и индексирование, так чтобы книга стала доступной для поиска в национальной цифровой библиотеке.

Для запуска следующей очереди производственной линии и обеспечения функций цифровой библиотеки, которые должны облегчить поиск и представление книг, потребовалось большое число разработок.

Некоторые примеры:

  • инсталляция и запуск программы оптического распознавания и структурного анализа документа,

  • интеграция этой системы в производственную линию,

  • генерация объектов хранения, соответствующих стандарту кодирования и передачи метаданных (METS),

  • процесс помещения объектов депозитарий долгосрочного хранения,

  • запуск системы обновления каталогов посредством добавления в них цифрового идентификатора паспорта,

  • сбор системой OAI метаданных из каталога,

  • процесс извлечения текстов книг и метаданных из депозитария,

  • индексирование их

  • и, наконец, разработка системы поиска и извлечения книг цифровой библиотеки.

  1. .  Создание или извлечение метаданных, или же содержательная индексация документов с целью упрощения поиска, а также административные или структурные метаданные, необходимые для визуализации документа, хранения и управления массивом.

  2.   Хранение оцифрованных документов и метаданных должно осуществляться в соответствующих условиях. Такие условия в числе прочего подразумевают меры по защите авторских прав. Может быть предусмотрена также коммерческая функция – оценка и реализация продукта.

  3. .  Доступ через браузер

  4. .  Предоставление данных клиенту посредством передачи файла или ссылок (streaming) мультимедийной системы

с