- •5.2. Фактографические аис
- •5 .2. Фактографические аис
- •5.2. Фактографические аис
- •5.2. Фактографические аис
- •5.2. Фактографические аис
- •5.3. Документальные ис
- •5.3. Документальные ис
- •290 Глава 5. Программные оболочки информационных систем
- •294 Глава 5. Программные оболочки информационных систем
- •5.4. Автоматизированные библиотечные информационные системы (абис)
5.3. Документальные ис
Документальные системы (предназначающиеся для обработки, поиска, представления полнотекстовых документов или справочно-реферативной информации) ведут свое происхождение от библиотечно-реферативных служб или информационных центров, выпускающих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы — РЖ).
Происхождение документальных АИС
Когда системы научно-технической информации (СНТИ) начали выпускать указатели, справочно-библиографические издания и др., они первоначально предназначались собственно для
285
н ужд информационных работников, облегчения оперирования большими информационными массивами. По мере осознания полезности данных вторичных документов их стали использовать научно-технические работники, эффективность такого процесса привела к необходимости развития индустриальных методов выпуска указателей, реферативных журналов, каталогов.
Подготовка данных для ввода в фотонаборные машины при выпуске изданий в СНТИ с помощью ЭВМ привела к накоплению массивов вторичных документов на машиночитаемых носителях (МЛ). Следующим естественным шагом развития явилось непосредственное использование таких массивов в АИ ПС.
Реферативный журнал. В перечне традиционных форм информационного обеспечения выделяется реферативный журнал (РЖ) как один из важнейших (по крайней мере, самый массовый) продукт СНТИ. На рис. 5.5 приводится пример РЖ ВИНИТИ (аналогичную структуру имеют и другие реферативные издания).
5.3. Документальные ис
Н авигация при ручном поиске документальной информации.
Рассмотрим деятельность потребителя информации в аспекте поиска и потребления информации. Задачей деятельности является создание массива релевантных (потенциально необходимых) потребителю сообщений; создание такого информационного обеспечения основной деятельности осуществляется с помощью возможностей, создаваемых системой НТИ, а также ее продуктами — каталогами, указателями, РЖ и т. д.
В обобщенном виде поиск осуществляется по принципам навигации, вкратце описанным на рис. 5.6. Проследим одну из
286 Глава 5. Программные оболочки информационных систем
в етвей подобного поиска. Располагая наименованием тематики релевантной информации (например, кибернетика в механико-математических и физических науках, см. рис. 5.5), потребитель по предметному указателю определяет номер и заглавие реферата. По номеру реферата (8.91.560, см. рис. 5.5) пользователь в соответствующем выпуске отыскивает статью, извлекает название издания («Сообщение ОИЯИ», 1990, № Р10-13047, см. рис. 5.5), по библиотечному каталогу определяет шифр хранения, заказывает первоисточник в фонде библиотеки.
Очевидно, данная траектория поиска, как и другие, очень трудоемка, и при продвижении по ней накапливаются ошибки, возможны потери и отказы.
Поэтому возникает необходимость автоматизации информационной деятельности как в рамках СНТИ (подготовка продуктов и услуг), так и потребителя (улучшение условий их использования). С этой целью создаются автоматизированные информационные (АИС) и информационно-поисковые (АИ ПС) системы.
Исследования в области информационного поиска начались уже более тридцати лет назад. За это время из узкоспециализированной тематики информационный поиск превратился в одну из ключевых областей информатики.
АИПС локального и удаленного доступа IRBIS
Система IRBIS разработана в РГГУ (при участии таких организаций как ВИНИТИ, ВНТИЦЕНТР, ИНИОН, осуществлявших тестирование и опытную эксплуатацию промежуточных версий ИПС). Программный комплекс IRBIS ориентирован на работу как в полностью локальном режиме (в том числе для поддержки баз данных, выпускаемых на CD-ROM — Winlrbis, рис. 5.7), так и в сетевых режимах, в том числе в локальной сети, в составе BBS и в составе Web-сервера для доступа по каналам Internet (Weblrbis — см. рис. 5.9—5.12). АИС IRBIS предназначена для многоцелевой обработки больших, в том числе полнотекстовых баз данных разнородных документов неограниченной длины с нерегулярной структурой. Система имеет развитые
Рис. 5.7. Документ БД INIS в АИПС Winlrbis
средства поиска, сортировки и вывода информации, обеспечивая гибкость и эффективность технологий информационного поиска.
Логическая структура данных IRBIS. База данных документальной ИПС IRBIS — это именованная совокупность массива документов и структурированных справочников, обеспечивающих* эффективность поиска. Логическая структура БД документальной ИПС представлена на рис. 5.8 и включает в себя следующие компоненты:
документ базы данных — структурированная форма представления информации, определяется своим уникальным (в массиве документов базы данных) идентификатором исоставом полей;
поле — часть документа, представляющая собой однознач но идентифицируемый в информационном массиве фрагмент, для которого определены тип, имя и характер обработки.
• слово — фрагмент поля, выделяемый по формальным (заданным в схеме представления документа) правилам, является единицей информации в операциях поиска.
Логическая связь именования, физического размещения и наполнения полей, образующих документ, а также стратегия поиска определяется схемой представления документа. Для одной базы данных может быть определено несколько разных схем, причем их количество не ограничено. Все схемы, используемые для работы с конкретной базой данных, в принципе равноправны. Каждая схема имеет свое логическое имя, хранится в библиотеке схем и может быть одновременно использована для определения документов в нескольких базах данных.
Документ определяется в схеме перечислением описаний отдельных полей.
Логически непрерывный массив документов базы данных в общем случае размещается в нескольких физических файлах, данные в которых связаны через указатель логического следования. Справочник базы данных размещается отдельно от массива документов и имеет специализированную структуру (частотный словарь, алфавитный индекс и инвертированные списки). Поисковые справочники являются производными по отношению к массиву документов.
Физическая структура базы данных IRBIS. В ИПС IRJBIS используется следующая иерархия понятий:
база данных — некоторый объем файлового физического пространства для размещения данных, принадлежащих одной логической базе;
файлы БД. Каждая база данных состоит не менее чем из двух типов файлов — файлов данных и файлов инвертированных структур. Отдельный файл может принадлежать только одной базе данных;
экстент — пространство для хранения данных в БД, выделяется блоками {экстентами) по восемь следующих друг за другом страниц размером 8 Кбайт. Экстент является единицей выделения пространства;
страница. Файлы делятся на страницы размером по 8 Кбайт каждая. Логический номер страницы складывается из номера файла и номера страницы в файле (в простейшем случае логический номер равен номеру страницы в файле). В рамках БД файлы нумеруются, начиная с 1, также нумеруются страницы в рамках файла.
Словарные инвертированные структуры БД хранятся в отдельной области и представлены тремя типами страниц:
индексные страницы;
страницы текстового представления словарных структур;
• страницы инвертированных списков. Информационно-поисковый язык документальной ИПС Irbis.
Информационно-поисковый запрос документальной ИПС представляет собой совокупность отдельных предложений запроса, в общем случае синтаксически и семантически не связанных между собой. Однако, само понятие «Запрос» предполагает объединенную общей тематикой последовательность поисковых действий, направленных на получение обобщенного результата, что позволяет разрешать ссылки на результаты отдельных предложений в рамках текущего запроса, объединять поисковые результаты, выделять общее множество релевантных документов и т. п.
Предложение запроса. Структурной единицей «Запроса» в рассматриваемом ИПЯ является Предложение запроса, которое в общем случае состоит из произвольного числа Условий поиска, связанных логическими операциями: и (and, «пробел»), или (or, «,») и не (not, «л»). Внутри предложе-
291