
Лекция 11. Организация электронных архивов
Понятие электронного архива
В самом общем случае электронный архив можно определить как некий комплекс аппаратно-программных средств и технологий создания архива документов в электронном виде. Основной задачей создания таких архивов является обеспечение оперативного и полноценного доступа ко всем хранящимся и поступающим документам.
С точки зрения современных парадигм программирования электронные архивы являются специфической базой данных коллективного доступа. Данная база данных обычно поддерживает следующие функции:
Полнотекстовый поиск. Функция полнотекстового поиска позволяет пользователям в ручном или автоматизированном режиме индексировать документы и проводить их поиск по запросам. Поиск документов производится по дискретным критериям поиска, либо в порядке степени их соответствия непрерывному критерию.
Управление версиями. Функция управления версиями документа позволяет отслеживать многочисленные изменения, вносимые в документ различными пользователями. Автоматическое управление версиями реализовано таким образом, что при каждом сеансе редактирования документ помечается либо как основной, либо как производный от оригинала. При этом изменения, внесенные в документ одним пользователем, не затираются, когда другой пользователь сохраняет свои изменения в документе. Функция управления версиями должна быть достаточно гибкой, должна присутствовать возможность её модификации в соответствии с потребностями конкретной рабочей группы.
Ссылки на документы. Функции поддержки ссылок, то есть каждый документ может "ссылаться" на другие документы архива.
Репликация. Функция репликации реализует две основные задачи: поддержку территориально-распределенной работы (синхронизация данных и приложений) и поддержку работы мобильных пользователей. Пользователи в разных офисах работают со своей "копией" базы данных, расположенной на локальном сервере, а репликация обеспечивает то, что рабочие группы, расположенные в различных географических точках, работают с актуальными версиями одних и тех же документов и обмениваются информацией.
Важным моментом при построении электронных архивов является необходимость учёта того факта, что, несмотря на развитие «безбумажных» технологий, огромное количество оперативной и справочной информации по-прежнему остается на бумажных носителях и складируется в бумажных хранилищах. Ручная обработка таких бумажных хранилищ становится узким звеном функционирования многих предприятий. Поэтому построение эффективно работающих электронных архивов невозможно без решения двух центральных проблем:
-
ввод массивов уже имеющихся и поступающих бумажных документов;
-
обеспечение возможности оперативного полнотекстового доступа к электронным документам.
Эволюция и классификация систем электронного архивирования
Многообразие имеющихся в настоящее время систем, поддерживающих ведение электронных архивов определяется способом поддержки в них следующих задач:
-
Ввод информации в систему;
-
Индексирование и хранение информации;
-
Поиск и извлечение информации.
В зависимости от подходов к решению перечисленных задач все существующие системы архивирования документов можно разбить на три категории, отражающие и эволюцию таких систем.
Системы первого поколения появились в середине 80-х годов. Технология работы с ними опирается на использование ключевых слов для индексации и поиска документов. Другими словами, после того как документ отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и используются для поиска информации. При этом текстового распознавания документа как правило не происходит.
Индексирование по ключевым словам (или атрибутное индексирование) является наиболее простой технологией. Суть ее заключается в том, что для каждого вводимого или сохраняемого документа заполняются соответствующие поля в индексном файле. Заполнение осуществляется как вручную, так и с помощью программы, выделяющей в документе по какому-либо признаку значения ключей/атрибутов. Эта технология позволяет индексировать как текстовые документы (в ручном и автоматическом режимах), так и изображения (в ручном режиме). В простейшем случае ключевыми словами служат название и/или имя автора документа. В более сложных ситуациях необходимо использовать независимого эксперта для чтения документа и выделения ключевых слов.
Серьезные ограничения при использовании этих систем связаны со следующими обстоятельствами:
- Определение ключевых слов это весьма субъективный процесс; даже при участии самого независимого эксперта трудно избежать односторонности при выборе ключевых слов.
- Определение ключевых слов - достаточно дорогостоящая процедура из-за невозможности автоматической индексации и низкой производительности при определении ключевых слов вручную; временной фактор может сделать в принципе невозможным организацию большого архива.
- Предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, используя предопределенные ключевые слова.
- Поиск по ключевым словам - это четкий поиск, - пользователь точно должен знать, что он ищет. Если сделана ошибка при написании ключевого слова в запросе для поиска, система никогда не найдет нужную информацию.
- Ключевые слова могут со временем меняться (понятия, которые были "ключевыми" вчера, вовсе не обязательно будут столь же важны через 5-10 лет).
В системах второго поколения поиск информации происходит с использованием механизмов полнотекстового поиска, который реализуется с помощью технологии индексирования на основе инвертированной матрицы. Суть подхода заключается в том, что при создании индексного файла (индексированной матрицы) в него вносятся все значимые слова (без союзов, предлогов и т. п.) из всех документов в алфавитном порядке (то есть предполагается обязательное текстовое распознавание документов). Эти слова затем объединяются в пары с указателями на документы, содержащие эти слова.
Хотя современные технологии позволяют достаточно надежно распознавать высококачественные бумажные документы, они не могут гарантировать абсолютной надежности. Поэтому в процесс распознавания текста обычно включена процедура ручной правки, в ходе которой исходный текст сверяется с полученным файлом.
Имеются следующие ограничения при использовании систем электронного архивирования второго поколения:
- Очень медленный и дорогостоящий процесс исправления и очистки текста является серьезным "узким местом" в автоматизации управления электронными документами и приводит к значительным скрытым расходам при использовании систем с четким поиском, особенно если вы вводите старые, не слишком хорошего качества документы.
- Индекс, создаваемый такими системами, обычно составляет от 200 до 400% от объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера.
- Механизм четкого поиска через инвертированную матрицу не позволит вам найти информацию, если были допущены ошибки при распознавании текста или при написании запроса.
Системы третьего поколения ведут свою историю от начала 90-х годов, когда появились технологические разработки, связанные с индексацией и поиском документов и использующие результаты, полученные в области нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.
Главными преимуществами использования систем третьего поколения являются
-
высокая скорость индексации и поиска информации – индексация производится автоматически;
-
возможность эффективного распараллеливания многих нейроподобных алгоритмов;
-
нечёткий поиск - становится допустимой ошибка как во входных данных, так и в терминах запроса;
-
использование меньшего объёма ресурсов – имеется возможность оптимизировать индексацию под конкретные особенности информации.
Главной проблемой при использовании нейронных сетей является нерешённая до сих пор проблема отсеивания шумов.
Технические и алгоритмические аспекты построения электронных архивов
Контекстно-независимое индексирование на базе инвертированной матрицы.
Под данным термином понимается способ создания индексного файла, предназначенного для осуществления поиска документов по словам. Так называемая инвертированная матрица представляет собой в данном случае таблицу, в которой словам или нормализованным словоформам ставятся в соответствие адреса документов. Поиск документа осуществляется при этом по ключевым словам, задаваемым пользователем. Другими словами, в рамках данной методики подразумевается ориентация индексации и организации неструктурированных электронных документов на анализ их содержания и усечение этой информации до набора ключевых слов или других предопределенных категорий. Процесс поиска просто выполняет эту процедуру в обратном порядке, запуская процесс в обратную сторону - от ключевых слов к документам.
Контекстно-независимое бинарное индексирование на базе теории нейронных сетей.
Под бинарным индексированием понимается представление индексов как набора абстрактных двоичных данных. В принципе, данная методология весьма похожа на предыдущую, но ориентирована на так называемый нечёткий поиск, когда наряду с адресом документа система выдаёт и некоторое число, характеризующее «степень похожести» найденного документа на запрашиваемый. Поясним это на примере. Система оперирует информацией на уровне двоичных кодов, т. е. каждое слово для нее - это образ, состоящий из нулей и единиц. Например, слово "пень" для нее представляется двоичным образом 10101111 10100101 10101101 11101100; а слово "печь" имеет двоичный образ 10101111 10100101 11100111 11101100. Сравнивая двоичные образы разных слов, можно сделать вывод, что из 32 позиций каждого двоичного образа не совпадают только комбинации из 3-х элементов, что составляет лишь около 10% от длины двоичного образа. С точки зрения теории нейронных сетей образы этих слов очень близки друг к другу, и в качестве результата поиска вам могут быть предложены документы, содержащие оба слова, а вы укажете, которые из них вы имели в виду при поиске. Нечеткий поиск особенно полезен в ситуациях, когда ввод данных осуществляется с помощью оптического распознавания символов, так как данный процесс не является на 100% точным даже при очень высоком качестве печати. Кроме того, только такая технология и применима для поиска графических, в принципе не текстовых данных.
Устройства хранения данных.
Все данные в системе находятся находиться в двух видах: поисковый образ (индексный файл) и образ собственно документа. Из-за высоких требований к скорости доступа к поисковому образу документа и его целостности, он должен храниться в специальных высокоскоростных отказоустойчивых системах хранения. При этом важными факторами являются относительно высокая изменчивость поискового образа и высокая стабильность образов документов. С учётом этого для хранения образа документов использование магнитных дисковых носителей не представляется целесообразным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть разного рода оптические диски (CD, DVD). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работы собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать несколько разновидностей дисков. Вся информация в системе должна иметь резервные копии. Для образов документов сохранность информации может быть обеспечена созданием дублированных дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах.
Сканеры потокового ввода.
Одним из самых узких звеньев технологии электронного архивирования являются сканеры, обеспечивающие безотказный высокопроизводительный массовый ввод документов на бумажных носителях низкого качества: слипшихся, выцветших, порванных, разных размеров и плотности, плохо пропечатанных, испачканных и т.д. Для решения этой задачи используются специальные промышленные сканеры, ориентированных на потоковый ввод архивных документов. Такие сканеры имеют надежные устройства подачи бумаги, включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.). Здесь следует отметить, что функция микрофильмирования в ряде электронных архивов остается в эксплуатации - электронная копия документа в большинстве стран, в отличие от микрофильма, пока не имеет юридической силы.