
1.1 Принципы оцифровки
Цифровое изображение – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой/цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.
Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth).
Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.
Документы трансформируются в растровые изображения с помощью сканнера или цифровой камеры. В ходе снятия изображения физические документы читаются или сканируются с заданным разрешением и глубиной. Образовавшиеся файлы, содержащие бинарные значения (биты) для каждого пикселя форматируются и именуются таким образом, чтобы компьютер мог обеспечить их хранение и извлечение. Изображения из этих файлов воспроизводятся на экране и могут быть распечатаны.
Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).
Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.
В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.
Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.
Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.
Graphics Interchange Format (GIF) Основной графический формат в интернете. Передает лишь 256 цветов, зато обеспечивает более высокую контрастность черно-белого изображения, чем JPEG.
Joint Photographic Experts Group (JPEG) Средство сжатия цифровых изображений, широко используемое в гипертекстовых системах. Достоинство – небольшой объем и быстрота доступа, недостатки этого графического формата – некоторое снижение качества изображения
Задачей проектирования системы оцифровки книг является создание получить интегрированной производственной линии, в которая включает все стадии которые книга должна пройти, прежде чем ее цифровая копия будет сохранена в депозитарии длительного хранения и при этом станет доступной имеющим разрешение пользователям.
Процесс создания цифровой книги должен быть максимально автоматизирован в тоже время обеспечить адаптивность технологического цикла, чтобы иметь возможность ввести в него новые операции или новое программное или аппаратное обеспечение.
Оцифровка предусматривает следующие операции
отбор для оцифровки и установка очередности отобранных книг,
извлечение книг из фондов,
транспортировка,
извлечение из каталогов метаданных (библиографических описаний),
оцифровка книги,
оптическое распознавание текста и его структурный анализ,
конвертирование формата,
генерация объектов хранения, ввод их в хранилище для длительного хранения,
ввод в каталог указания о наличии оцифрованной копии,
индексирование распознанного текста и метаданных для поисковой системы.
Описание отдельных операций. Оцифровка должна сделать обеспечение сохранности более эффективным и уменьшить опасность разрушения.
Оцифровка должна быть осуществлена с таким уровнем качества, чтобы после хранения оставалась возможность воссоздать качество оригинала в момент его оцифровки.