Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
6 Рек. по унифик. процесса оцифров. с изм. 2013...rtf
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
733.22 Кб
Скачать

ДЕПАРТАМЕНТ ПО АРХИВАМ И ДЕЛОПРОИЗВОДСТВУ

МИНИСТЕРСТВА ЮСТИЦИИ РЕСПУБЛИКИ БЕЛАРУСЬ

БЕЛОРУССКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР

ЭЛЕКТРОННОЙ ДОКУМЕНТАЦИИ

УТВЕРЖДЕНО

Приказ директора Департамента по архивам и делопроизводству

Министерства юстиции

Республики Беларусь

27.12.2007 № 56

Методические рекомендации

по унификации процесса

оцифровывания архивных

документов и идентификации

их цифровых копий

1. Общие положения

1.1. Одним из актуальных направлений деятельности государственных архивных учреждений Республики Беларусь в области обеспечения сохранности документальных материалов является создание копий страхового фонда и фонда пользования документов Национального архивного фонда (далее – НАФ) Республики Беларусь.

Стремительное развитие современных информационных технологий, постоянное снижение себестоимости единицы хранения информации, появление машинных носителей, обеспечивающих срок хранения информации более 50 лет, кардинально изменили представление о технологии создания фонда пользования архивных документов. Во многих странах мира доступ к архивной информации происходит на расстоянии, посредством коммуникационных сетей и с массовым использованием электронных каталогов и цифровых копий архивных документов.

1.2. Очевидными преимуществами копий фонда пользования архивных документов в цифровом формате являются:

- способность цифровых копий при необходимости заменить оригинал;

- возможность многократного копирования документа без потери качества;

- возможность как частичной, так и полной реставрации внешнего вида оцифрованного документа средствами программного обеспечения;

- обеспечение быстрого доступа к цифровой копии документа с помощью информационно-поисковых систем;

- обеспечение многопользовательского доступа к цифровой копии документа, в том числе через сеть Интернет.

Кроме того, при создании электронного архива документы систематизируются, что способствует стандартизации процессов работы с ними.

1.3. Создание копий уникальных, особо ценных и наиболее используемых документов НАФ путем оцифровывания осуществляется Республиканской технической лабораторией микрофильмирования страхового фонда документации (далее — РТЛМСФД) и некоторыми государственными архивами.

1.4. Анализ созданных цифровых копий архивных документов свидетельствует о необходимости создания методической базы по технологии оцифровывания. В ряде случаев качество оцифрованных изображений проигрывает оригиналу и не соответствует международным стандартам; оцифровыванию подвергаются документы, имеющие качественные страховые микрофотокопии, что неоправданно, так как существуют эффективные технологии оцифровывания микроформ (это замечание не относится к случаям, когда фонд микрофотокопий создавался на технике, не соответствующей современным требованиям).

1.5. Настоящие рекомендации предназначены для обеспечения унификации процесса оцифровывания и описания цифровых копий архивных документов и базируются на анализе и оценке современных технологий оцифровывания архивных документов и состояния процесса оцифровывания в государственных архивных учреждениях Республики Беларусь.

2. Технические аспекты оцифровывания и хранения данных

2.1. Факторы, влияющие на выбор технического решения.

2.1.1. Технологии перевода архивных документов в цифровой формат основаны на применении современных средств компьютерной техники и программного обеспечения, обеспечивающих автоматизацию процессов оцифровывания, обработки, хранения (переноса на сменные машинные носители) цифровых копий.

В состав комплексов технических средств для оцифровывания должны входить:

- оборудование для оцифровывания;

- оборудование для обработки и хранения информации, включающее средства первичного накопления, средства обработки информации и средства хранения информации (переноса на сменные машинные носители).

2.1.2. На выбор аппаратных и программных средств для оцифровывания архивной документации оказывают влияние:

- вид носителя;

- формат;

- физические свойства документа;

- объем документации, подлежащей оцифровыванию.

2.1.3. Архивные документы подразделяются:

- по виду носителя — на бумажном носителе; на микроносителе (микроформах) и других видах носителей (наиболее характерный для научно-технической документации – калька);

- по формату — A3 и меньше; A2–A0;

- по физическим свойствам — документы на хорошо сохранившемся носителе; на физически ослабленном бумажном носителе; с хорошо читаемыми текстами; со слабоконтрастными и угасающими текстами.

2.1.4. Архивные документы на бумажных носителях дополнительно разделяются на:

- несброшюрованные документы;

- сброшюрованные документы, не подлежащие расшивке;

- сброшюрованные документы, расшивка которых допускается;

2.2. Оборудование для оцифровывания документов на бумажном носителе.

2.2.1. Для оцифровывания сброшюрованных и не подлежащих расшивке документов форматов A3 и меньше необходимо использовать только специализированные книжные сканеры, работающие как планетарная камера, что позволяет делать оцифровывание на расстоянии. Наиболее оптимальным решением для указанных целей является книжный сканер, обеспечивающий оцифровывание только в черно-белом режиме (с градациями серого цвета). Описание книжного сканера, в основном удовлетворяющего потребности архивной отрасли, приведено в приложении 1.

2.2.2. Для оцифровывания документов форматов A2–A0 требуется либо цифровая фотокамера с очень высоким разрешением, либо специализированные сканеры. Однако с помощью фотокамеры добиться высокого качества изображения в любом случае довольно сложно, поэтому широкоформатный сканер является предпочтительным решением. Описание широкоформатного сканера TDS400, установленного в Белорусском государственном архиве научно-технической документации (далее – БГАНТД) для оцифровывания и ксерокопирования широкоформатных документов, приведено в приложении 1.

2.2.3. Для оцифровывания расшитых документов применяются протяжные сканеры потокового ввода. Отличительной особенностью таких сканеров является ротационный механизм перемещения документов. Протяжные сканеры позволяют оцифровывать документы различных форматов, обладают высокой производительностью – от 10 до 180 и более страниц в минуту и оснащены ультразвуковыми сенсорами для разделения листов в пачке и принтером штрих-кода для маркировки и инвентаризации оцифрованных документов.

При потоковом вводе документов сканеры обычно предоставляют такие дополнительные функции, как возможность подачи документов разных форматов в одной пачке; использование больших пачек документов.

На рынке широко зарекомендовали себя промышленные сканеры производителей Bell&Howell, Fujitsu и Kodak. При их выборе основными критериями являются производительность, надежность, стоимость, максимальный формат документов, возможность двустороннего оцифровывания, наличие средств, повышающих качество распознавания, наличие средств контроля. Все они, как правило, имеют надежные устройства подачи бумаги; включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.).

Для обеспечения высокого темпа обработки документов на сканерах данного вида необходимо оснащение рабочего места мощным компьютером.

В качестве примера в приложении 1 приведено описание протяжного сканера потокового ввода Kodak i260, установленного в Белорусском научно-исследовательском центре электронной документации (далее – БелНИЦЭД).

2.2.4. Для оцифровывания документов на физически ослабленном носителе можно использовать книжный сканер, или, при небольшом объеме таких документов, применить обычный планшетный сканер подходящего формата, а также цифровую фотокамеру.

Сканирование с помощью цифровой фотокамеры имеет свои особенности, которые требуют отражения на уровне инструкции пользователя.

2.3. Оборудование для оцифровывания микроформ.

2.3.1. Одним из перспективных направлений оцифровывания архивных документов является перевод в электронный (цифровой) вид микрофотокопий страхового фонда и фонда пользования. Для оцифровывания документов на микроформах (микрофильмы, микрофиши) самыми производительным решением являются сканеры микроформ.

Сканеры микроформ предназначены для высокоскоростного оцифровывания значительных объемов различных видов микрографических документов (16/35 мм пленки, микрофиши, джакеты, апертурные карты), имеют возможность работать в автоматическом режиме, в том числе в режиме пакетного сканирования микрофиш, с автоматической покадровой разметкой и масштабированием.

Сканеры микроформ обладают следующими достоинствами:

- готовое техническое решение для оцифровывания микроформ;

- высокая производительность и скорость оцифровывания – от 10 до 100 и выше кадров в минуту, в зависимости от разрешения и формата оригинала;

- возможность оцифровывания 30–100 метровых пленок, а также микрофиш;

- возможность автоматического оцифровывания без участия оператора.

В качестве примера в приложении 1 приведено описание сканера микроформ MINOLTA MS7000, установленного в БелНИЦЭД.

2.3.2. Современные сканеры микроформ рассчитаны на сканирование рулонных пленок стандартных размеров (30–100 метров). При хранении страховых микрофотокопий архивных документов в рулонах от 300 до 400 метров возможным решением является разрезание рулонной пленки до 30 метров или оснащение сканера дополнительным устройством для передачи и приема пленки.

2.4. Оборудование для хранения цифровых копий.

2.4.1. Для первичного накопления и обработки оцифрованной информации используются оперативные накопители, в качестве которых обычно выступают жесткие диски или/и массивы жестких дисков.

Современные технологии сделали жесткий диск («винчестер») практически идеальным хранилищем оперативных данных. Значительный объем (на данный момент в государственных архивах наиболее распространены жесткие диски емкостью в 80-120 Гб, что позволяет разместить десятки тысяч оцифрованных изображений), быстрый доступ к информации и высокий темп ее считывания являются безусловными плюсами жестких дисков. Однако выход из строя жесткого диска ведет к потере всех записанных на нем данных, поэтому на ответственных участках работ необходимо применять дополнительные технические мероприятия, повышающие надежность: дублирование, избыточность, резервирование информации на сменные носители.

Для увеличения надежности и/или производительности жесткие диски объединяют в RAID-массивы (Redundant Arrays of Independent Disks). Данный накопитель обычно устанавливается на компьютере-сервере, объединенном в локальную вычислительную сеть с рабочими станциями. В RAID-массивах оперативная информация записывается одновременно на несколько дисков. При этом информация записывается с избыточностью, достаточной для восстановления информации при выходе из строя одного диска, а в некоторых случаях – и нескольких дисков. Отказавшее устройство можно заменить, и информация на нем будет восстановлена без потерь.

Вместе с тем PAID-массивы несколько уменьшают производительность, замедляют обмен данными между винчестерами. Следует понимать, что при выборе разных уровней RAID-массивов следует выбирать между надёжностью и производительностью.

2.4.2. Для долговременного хранения цифровых копий оптимальны сменные носители, преимуществом которых перед жесткими дисками является то, что выход из строя устройства чтения/записи (привода) не влечет за собой потерю данных, так как они могут быть прочитаны на любом другом устройстве.

Наилучшими показателями по соотношению параметров надежность/емкость/цена характеризуются лазерные компакт-диски (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM) и магнитооптические диски (MO). Недостатком сменных носителей является более медленный доступ к нужной информации по сравнению с жесткими дисками и RAID-массивами.

Для обеспечения автоматического учета и быстрого поиска данных на сменных носителях разработаны специальные устройства – библиотечные накопители. Их конструкция и специализированное программное обеспечение позволяют видеть все множество носителей как единое информационное пространство. Библиотечные накопители являются идеальным средством долговременного хранения электронных документов. Очень удобны библиотеки на компакт-дисках и для тех, кто планирует масштабирование изображений в будущем. Преимуществом библиотек на компакт-дисках является то, что в силу единого типоразмера компакт-дисков CD-ROM, CD-R, CD-RW, DVD-ROM и DVD-RAM (диаметр 120 мм) в одной библиотеке можно смешивать приводы и носители разных форматов. Вместе с тем это решение – сравнительно дорогое.

2.4.3. Безопасное хранение оцифрованной информации обеспечивается путем записи цифровых копий документов на два или более носителя разных видов.

3. Технология оцифровывания архивных документов

3.1. Процесс созданий цифровых копий архивных документов включает следующие этапы:

- подготовка документов для оцифровывания;

- оцифровывание документов;

- сверка изготовленных копий с оригиналом на отсутствие пропусков и сохранение надлежащего качества;

- обработка изображений;

- сохранение цифровых копий документов;

- описание цифровых копий документов (архивное аннотирование);

- организация хранения графических информационных массивов.

3.2. Подготовка документов для оцифровывания включает сортировку по виду, формату и качеству предоставленного материала; формирование пакетов оцифровывания для каждого вида оборудования.

В подготовку документов для оцифровывания должно входить выравнивание документа, разгибание краев, очистка от песка (клеевых крошек), вложенных скрепок, обрывков, выкладывание прошивочных нитей таким образом, чтобы максимально был виден текст или изображение документа.

Сортировка по формату и качеству может потребоваться в случаях, когда сканирующее оборудование требует настройки на определенный набор условий (например, при съемке цифровой фотокамерой со штатива). Как правило, современные книжные сканеры автоматически определяют размер сканируемого объекта и меняют режим сканирования в зависимости от цвета или контрастности оригинала. В таких случаях сортировка по размеру и качеству не требуется.

Некоторые документы сначала необходимо отправлять на реставрацию, и после этого подвергать оцифровыванию. Подготовка документа должна вестись исключительно с учётом основных принципов реставрации, т.е. не допускать никаких доработок, искажающих внешний вид и содержание оригинала.

3.3. Процесс оцифровывания документов заключается в создании их цифровых копий в виде графических файлов.

Технология оцифровывания определяется техническими особенностями применяемых для этого устройств и должна конкретизироваться в инструкциях операторам таких устройств. Вместе с тем нужно учитывать ряд общих требований:

- на копии должны быть видны края листа, тогда при использовании не будет возникать сомнений, не осталась ли часть информации за кадром;

- для возможности воспроизведения цифровых копий в натуральную величину вместе документом в кадр нужно помещать узкую линейку с сантиметровыми делениями;

- при сканировании цветных оригиналов в случаях, когда может потребоваться распечатка полноцветной копии, необходимо также помещать в кадр стандартные калибровочные цветовые шкалы (например, Kodak Со1ог Control Patch и Kodak Gгеу Sса1е, поставляемые вместе со сканером);

- документ может содержать листы, расположенные с нарушением логической последовательности (например, подшитые тетрадным способом). В таких случаях можно снимать документ вместе с полоской текста «Продолжение на листе...» или учитывать это обстоятельство при присвоении файлам идентификационных имен.

3.4. При обработке изображений при необходимости осуществляется выравнивание изгиба страниц, улучшение изображений (регулировка баланса яркости – контрастности, корректировка цветовой гаммы, удаление бликов, теней, других шумовых и фоновых элементов) и контроль качества цифровых копий. Выравнивание и поворот страниц могут производиться как аппаратно, так и программно.

При удалении шумовых и фоновых элементов необходимо учитывать, с какой целью создается копия. Если она должна представлять внешний вид документа в репрезентативных целях, то удаление программными средствами особенностей, различимых на оригинале, является неприемлемым. Это допустимо только для пользовательских копий, в которых важно лишь информационное содержание документа. В таких случаях с изображения могут быть уделены (ослаблены) пятна или текст, проступающий с обратной стороны листа.

3.5. Сохранение цифровых копий документов предусматривает экспорт графических образов документов в различные форматы и присвоение уникальных буквенно-цифровых имен файлам изображений с целью их однозначной идентификации.

3.6. Описание цифровых копий документов (архивное аннотирование) предусматривает создание служебных комментариев (файлов-описаний). Связь графических файлов с файлами-описаниями достигается путем присвоения файлам описаний уникальных буквенно-цифровых имен.

В данном случае речь идет только о первичном описании, отражающем обстоятельства создания копии, но не содержание копируемых документов. В файле описания целесообразно отмечать те особенности документа, которые не всегда отражены в листе-заверителе (литерные листы, ошибки в нумерации, не по порядку подшитые листы и т.п.). Описание должно обязательно фиксировать случаи наличия в деле пустых листов или пропусков в оригинальной нумерации, чтобы у пользователя не возникли сомнения, все ли листы отсканированы. Для поврежденных фрагментов желательно делать пометку «Нечитабельно в оригинале» или т.п.

В дальнейшем (или непосредственно после аннотирования) цифровые копии могут описываться более детально, с применением международных стандартов архивного описания. На копию каждого документа, а в необходимых случаях – на каждый кадр многостраничного документа должна создаваться информационно-поисковая характеристика, призванная обеспечить быстрый поиск нужного файла средствами автоматизированной поисковой системы.

Принципы подробного описания содержательной части документов и их цифровых копий выходят за рамки данных рекомендаций. В каждом архиве они могут быть реализованы по-разному. Следует только отметить, что эта работа, как правило, гораздо более трудоемка, чем собственно оцифровывание. Это обстоятельство нужно учитывать при планировании бюджета времени, предназначенного для работы с цифровыми копиями.

3.7. Организация хранения графических информационных массивов в контексте данных рекомендаций означает запись файлов графических образов и созданных описаний на машинные носители. Вопросы учета и последующего хранения носителей с цифровыми копиями должны определяться правилами работы архивов и здесь не рассматриваются.

3.8. Одновременно с процессом оцифровывания или после накопления определенного массива документов в графическом формате может проводиться процесс оптического распознавания документов, их перевода в текстовый формат.

В настоящее время распознавание документов эффективно только для печатных и машинописных текстов с высоким качеством печати. Для систем компьютерного распознавания текста уровень предельной экономичности составляет 99,95%. При наличии более 4–5 ошибок на 1000 знаков (символов) текста целесообразен его ручной набор.

Текстовый файл с распознанным текстом призван служить только дополнением к цифровой копии в графическом формате, предназначенным для более эффективного использования. Его создание не предполагает замену им собственно цифровой копии.

4. Требования к качеству изображения цифровых

копий документов

4.1. Получение оптимального качества изображения является важнейшей задачей успешного оцифровывания документов.

Цифровая копия архивного документа считается качественной, если при ее отображении на экране монитора или распечатке получается практически идентичная копия бумажного документа или изображения его микрофотокопии на экране диапроектора, точно воспроизводящая все линии, знаки, символы, тональность и цвет. При условии хорошей читаемости цифровой копии допускается незначительное изменение фона.

4.2. Качество оцифровывания зависит от:

- разрешения сканирования, измеряемого в точках на дюйм (dpi);

- режима сканирования, определяемого битовой глубиной (количеством бит на точку) – максимальным числом оттенков (теней) и/или цветов каждой точки цифрового изображения;

- деталей документа (размеров букв, символов, линий, тона и цвета);

- физического состояния документа.

4.3. Применяются следующие режимы сканирования:

черно-белый (двухтоновый)c 1-битовой глубиной, при котором изображение представляет собой сочетание черных и белых точек;

- с градацией серого цвета (полутоновый) с 8-битовой глубиной, при котором изображение может быть полутоновым, с 256 оттенками цветов в диапазоне от черного к белому;

- цветной – с 24-битовой глубиной, при котором изображение может быть цветным с 16,7 млн. различных оттенков.

Двухтоновое оцифровывание требует для получения того же качества более высокого разрешения, поскольку неровные края букв при таком способе неизбежно огрубляются, а слишком тонкие линии могут пропасть совсем.

4.4. Для объективной оценки качества цифровых копий применяется индекс качества (QI). Корнельским университетом разработана формула для QI применительно к оцифровыванию документов. Эта формула основана на переводе метода индекса качества, используемого в стандартах по микрофильмированию.

Формула для оцифровывания текста связывает качество (QI) с размером высоты знака (h) в мм, разрешением (dpi) и режимами сканирования.

Использование этих формул требует измерения высоты букв в документах, которые планируются к оцифровыванию. Для оценки используется высота строчной буквы «e» в печатном материале (которая в рукописях соответствует двойной ширине таких букв, как е, l, f) в миллиметрах.

После применения этих формул для расчета разрешения, необходимо провести пробное оцифровывание, чтобы убедиться в оптимальности полученных результатов. При оценке качества полученной цифровой копии определяющим является комфортное визуальное восприятие.

4.5. Расчет разрешения, с использованием формулы QI, производится по следующим формулам:

-dpi = 3 x QI / h x 0.039 – для двухтонового оцифровывания;

-dpi = 2 x QI / h x 0.039 – для оцифровывания с градацией серого и при цветном оцифровывании.

При этом:

QI — индекс качества, который может принимать следующие значения: 8 – высокое качество, 5 - среднее качество, 3.6 - невысокое качество;

h — высота буквы «e» (в миллиметрах);

0.039 — коэффициент перевода (миллиметры в дюймы).

Пример расчета требуемого разрешения при оцифровывании документа с высоким качеством, содержащим текст с высотой буквы «e» 1 мм:

- для двухтонового оцифровывания:

dpi = 3 x 8 / 1 x 0.039 = 24 /0.039 = 615;

- для оцифровывания с градацией серого и при цветном оцифровывании:

dpi = 2 x 8 / 1 x .039= 16 / 0.039 = 410.

4.6. Учитывая высокие финансовые затраты и трудоемкость работ по оцифровыванию архивных документов, а также способность цифровых копий при необходимости заменить оригинал, не рекомендуется проводить оцифровывание с низким разрешением, пригодное только для ограниченного использования, а также с параметрами меньшими, чем предлагаемые минимальные параметры. Это означает, что при оцифровывании следует ориентироваться на достижение максимального качества воспроизведения их цифровых копий — QI = 8.

Полученные в результате такого оцифровывания цифровые копии получают статус основных (мастер-файлов) и в целях обеспечения сохранности передаются в Фонд цифровых копий.

Из основных файлов, путем редактирования и преобразования, могут быть созданы производные файлы, ориентированные на различные виды использования.

4.7. В зависимости от вида и физических характеристик документов рекомендуется использовать следующие разрешения и режимы оцифровывания:

- чистые, высококонтрастные документы с четко отпечатанным текстом, крупным шрифтом и регулярными интервалами, напечатанные на современном безударном печатающем устройстве (например, с пластмассовой угольной лентой, на струйном или лазерном принтере) – до 600 dpi в режиме двухтонового оцифровывания или до 400 dpi при оцифровывании с градацией серого цвета;

- рукописи; рисунки пером или карандашом; тексты, напечатанные на пишущей машинке с шелковой лентой; цветные иллюстрации и другие рисунки с изменяющимися полутонами серого цвета; черно-белые и цветные фотографии — до 400 dpi при оцифровывании с градацией серого цвета;

- документы, где цвет важен для интерпретации информации или содержания, или желания произвести наиболее точное их представление — до 400 dpi в режиме цветного оцифровывания.

4.8. Для определения иных значений разрешения для оцифровывания документов необходимо использовать формулы для расчета разрешения, приведенные в пункте 4.5.

4.9. В случаях, если предполагается оптическое распознавание текста, следует учитывать, что темп и качество распознавания возрастает при более высоком пространственном разрешении, заданным при оцифровывании, а также при оцифровывании с градацией серого цвета.

4.10. Рекомендации по оцифровыванию наиболее распространенных видов архивных документов приведены в таблице 1.

Таблица 1

№ п/п

Виды и характеристики документов

Режим сканирования

Качество сканирования

Разрешение (dpi)/ размер знака

1

Чистые, высококонтрастные, печатные тексты, чертежи и графики, созданные с помощью современных безударных способов печати (пластиковая угольная лента, струйный или лазерный принтер)

Двухтоновый (черно-белый)

С градацией серого цвета (полутоновый)

Высокое

Высокое

600 / 1,0 мм и выше

400 / 1,5 мм и выше

300 / 2,0 мм и выше (минимум)

400 / 1,0 мм и выше

300 / 1,5 мм и выше (минимум)

2

Рукописи, рисунки карандашом и пером, текст, напечатанный на пишущей машинке с шелковой лентой, цветные иллюстрации и рисунки, другие материалы, где варьируются серые тона; черно-белые и цветные фотоснимки

Документы со слабой четкостью или расплывчатыми знаками (например, сделанные под копирку копии, факсы), рукописные аннотации или пометки, низко контрастные, с пятнами, угасающие, полутоновые иллюстрации или фотографии

С градацией серого цвета (полутоновый)

Высокое

400 / 1,0 мм и выше

300 / 1,5 мм и выше (минимум)

3

Документы, для которых цвет важен для интерпретации информации или содержания, или желания произвести наиболее точное их представление

Цветной

Высокое

400 / 1,0 мм и выше

300 / 1,5 мм и выше (минимум)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]