1.3. Типология и структура распределенных ир
Документальные АИПС по своим возможностям различаются достаточно существенно. Это связано не столько с решениями тех или иных разработчиков, сколько с многочисленными факторами, в той или иной степени, ограничивающими или даже исключающими некоторые функциональные возможности. Такими факторами являются, например, назначение и область применения, масштабность и интенсивность использования ИР, характер распределения информационных компонент (для сетевых систем), тип информации, источники и режим пополнения, предполагаемый профессиональный уровень потребителей и т.д.
По архитектуре, определяющей физическую доступность ресурсов, информационно-поисковые системы (в том числе и Internet-машины) могут быть разделены на следующие классы:
локальные системы – локализованные данные и их обработка;
частично-распределенные – локальная обработка распределенных данных;
полностью распределенные системы, где реализуются принципы распределенных вычислений и распределенного хранения данных.
Локальные системы обеспечивают доступ удаленных пользователей к ресурсам, сосредоточенным на поисковом сервере. Эти системы в большинстве случаев функционально эквивалентны локальным системам, например, на CD-ROM-носителях.
Ко второму типу относятся системы, использующие данные, находящиеся на Web-серверах в качестве распределенных первичных ИР; вторичные и индексные данные сосредоточены на поисковом сервере, осуществляющем обслуживание пользователей. Это такие системы, как AltraVista, Google, Yandex и пр.
К третьему типу относятся системы, в которых процесс поиска реализуется на совокупности серверов, распределенных по сети, которые при обработке запроса опрашивают друг друга, причем исходные и промежуточные данные поиска также имеют распределенный характер.
По тематическому и видовому спектрам ИР могут быть однородными (иметь четко выраженную тематику и работать с документами определенного типа и состава) и гетерогенными (политематическими и не имеющих требований к составу и форме документов).
По способу формирования ИР подразделяются на те, которые используют предопределенные источники, например публикации издательств, рецензирующих материалы, и те, которые используют все свободно доступные материалы. Примерами здесь, соответственно, являются базы данных научной информации и поисковые машины Internet, индексирующие открытые HTML-страницы.
Если рассматривать информационные ресурсы и системы в этом контексте, то можно заметить, что в качестве компонентов здесь выступают электронные каталоги (библиографические и реферативные базы данных), полнотекстовые массивы (электронные журналы, фактографические базы данных, хранилища электронных копий источников в том или ином виде и т.д.), справочно-нормативные файлы (рубрикаторы, тезаурусы, авторские, предметные, географические и другие указатели), возможно связанные между собой ссылками, указателями хранения или условиями поиска, хотя уже по своей сути эти компоненты всегда были и будут связаны, по крайней мере, на концептуальном уровне. Например, записи электронных каталогов содержат указания местоположения книг, а справочно-нормативные файлы традиционно используются в качестве "точек входа" в библиографические и реферативные базы данных.
С точки зрения характера и формы представления информации (и, соответственно, логики организации поиска) архитектура ИР включает три уровня: уровень собственно документов (полных текстов), уровень поисковых образов и метаинформационный уровень. Характер и логика взаимосвязей информационных элементов отдельных уровней отражен схемой на слайде 13.11, где в скобках даны примеры, характерные для автоматизированных или традиционных информационных систем.
Взаимосвязь между компонентами разных уровней может быть реализована как для компонентов в целом, так и для их элементов. Иллюстрацией служит, например, такая связь, как "библиографическая запись электронного каталога - запись полнотекстовой базы данных" или "библиографическая запись - оцифрованная копия источника (изображение)". К другому типу - на уровне элементов - могут относиться такие связи, как "пристатейная ссылка - библиографическая запись" или "фрагмент библиографической записи - запись нормативной базы данных" и т.д.
Рассматривая эту схему как «технологию» поиска, можно видеть, что ссылки вполне узнаваемы и представляют собой традиционные правила и приемы отыскания информации в условиях “бумажной” библиотеки, когда поиск начинается с классификационной схемы или указателя, далее через библиографические карточки к первоисточнику, где, используя пристатейные ссылки и указатели, снова продолжается с метаинформационного уровня.
С широким внедрением телекоммуникационных сетей и некоторой стандартизации представления данных в Internet задача взаимосвязи становится еще более сложной. Ее решение путем создания статичных связей практически невозможно, даже если бы все компоненты имели свои уникальные идентификаторы и незыблемое место в информационном пространстве (чего зачастую невозможно добиться даже для локальных массивов). Что уж говорить о, скажем, информационных объектах, появляющихся на многочисленных сайтах Internet. Любое изменение местоположения информационного объекта влечет за собой возникновение "ложных" связей в распределенных электронных библиотеках. И число этих связей с течением времени возрастает. Поэтому на смену статичным связям приходят динамические, связи. Их особенностью является то, что они генерируются программно, по предопределенным алгоритмам во время обращения к объекту. Таким образом, можно связать информационные объекты, но при условии достаточной определенности (специфицированности) элементов.
Связи внутри могут быть построены на таких идентификаторах, как давно применяемые ISBN и ISSN или сравнительно недавно возникшие DOI (Digital Object Identifier). В тех случаях, когда такие идентификаторы отсутствуют (а таких случаев большинство), одним из решений может быть генерация динамических связей. В качестве основы для построения идентификаторов здесь могут выступать либо уникальные элементы записи, либо их свертки.
Кроме того, в качестве идентификаторов, используемых для установки активных связей, могут служить части элементов библиографического описания, организованные, например, в виде поисковых индексов. Таким способом можно связывать, скажем, компоненты справочно-нормативных файлов и массивов библиографических записей. Конечно, это возможно лишь при достаточно строгой структуризации компонентов баз данных и применении алгоритмов свертки, допускающих минимальный процент дублирования.
Отметим в заключение, что именно эти различия архитектуры, стратегии комплектования и организации доступа в итоге определяют не только функциональные возможности средств поиска конкретного ИР, но и круг потенциальных пользователей, а так же результативность решаемых ими задач.
