Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
фактограф АИС.docx
Скачиваний:
12
Добавлен:
12.11.2019
Размер:
405.87 Кб
Скачать

5.3. Документальные ис

Документальные системы (предназначающиеся для обработ­ки, поиска, представления полнотекстовых документов или справочно-реферативной информации) ведут свое происхожде­ние от библиотечно-реферативных служб или информационных центров, выпускающих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы — РЖ).

Происхождение документальных АИС

Когда системы научно-технической информации (СНТИ) начали выпускать указатели, справочно-библиографические из­дания и др., они первоначально предназначались собственно для

285

284 Глава 5. Программные оболочки информационных систем

н ужд информационных работников, облегчения оперирования большими информационными массивами. По мере осознания полезности данных вторичных документов их стали использо­вать научно-технические работники, эффективность такого про­цесса привела к необходимости развития индустриальных мето­дов выпуска указателей, реферативных журналов, каталогов.

Подготовка данных для ввода в фотонаборные машины при выпуске изданий в СНТИ с помощью ЭВМ привела к накопле­нию массивов вторичных документов на машиночитаемых носи­телях (МЛ). Следующим естественным шагом развития явилось непосредственное использование таких массивов в АИ ПС.

Реферативный журнал. В перечне традиционных форм ин­формационного обеспечения выделяется реферативный журнал (РЖ) как один из важнейших (по крайней мере, самый массо­вый) продукт СНТИ. На рис. 5.5 приводится пример РЖ ВИНИТИ (аналогичную структуру имеют и другие рефератив­ные издания).

5.3. Документальные ис

Н авигация при ручном поиске документальной информации.

Рассмотрим деятельность потребителя информации в аспекте поиска и потребления информации. Задачей деятельности явля­ется создание массива релевантных (потенциально необходи­мых) потребителю сообщений; создание такого информацион­ного обеспечения основной деятельности осуществляется с по­мощью возможностей, создаваемых системой НТИ, а также ее продуктами — каталогами, указателями, РЖ и т. д.

В обобщенном виде поиск осуществляется по принципам навигации, вкратце описанным на рис. 5.6. Проследим одну из

286 Глава 5. Программные оболочки информационных систем

в етвей подобного поиска. Располагая наименованием тематики релевантной информации (например, кибернетика в ме­ханико-математических и физических науках, см. рис. 5.5), потребитель по предметному указателю определяет номер и заглавие реферата. По номеру реферата (8.91.560, см. рис. 5.5) пользователь в соответствующем выпуске отыскивает статью, извлекает название издания («Сообщение ОИЯИ», 1990, № Р10-13047, см. рис. 5.5), по библиотечному каталогу опреде­ляет шифр хранения, заказывает первоисточник в фонде биб­лиотеки.

Очевидно, данная траектория поиска, как и другие, очень трудоемка, и при продвижении по ней накапливаются ошибки, возможны потери и отказы.

Поэтому возникает необходимость автоматизации инфор­мационной деятельности как в рамках СНТИ (подготовка про­дуктов и услуг), так и потребителя (улучшение условий их ис­пользования). С этой целью создаются автоматизированные ин­формационные (АИС) и информационно-поисковые (АИ ПС) системы.

Исследования в области информационного поиска начались уже более тридцати лет назад. За это время из узкоспециализи­рованной тематики информационный поиск превратился в одну из ключевых областей информатики.

АИПС локального и удаленного доступа IRBIS

Система IRBIS разработана в РГГУ (при участии таких орга­низаций как ВИНИТИ, ВНТИЦЕНТР, ИНИОН, осуществляв­ших тестирование и опытную эксплуатацию промежуточных версий ИПС). Программный комплекс IRBIS ориентирован на работу как в полностью локальном режиме (в том числе для под­держки баз данных, выпускаемых на CD-ROM — Winlrbis, рис. 5.7), так и в сетевых режимах, в том числе в локальной сети, в составе BBS и в составе Web-сервера для доступа по каналам Internet (Weblrbis — см. рис. 5.9—5.12). АИС IRBIS предназначе­на для многоцелевой обработки больших, в том числе полнотек­стовых баз данных разнородных документов неограниченной длины с нерегулярной структурой. Система имеет развитые

Рис. 5.7. Документ БД INIS в АИПС Winlrbis

средства поиска, сортировки и вывода информации, обеспечи­вая гибкость и эффективность технологий информационного поиска.

Логическая структура данных IRBIS. База данных докумен­тальной ИПС IRBIS — это именованная совокупность массива документов и структурированных справочников, обеспечиваю­щих* эффективность поиска. Логическая структура БД докумен­тальной ИПС представлена на рис. 5.8 и включает в себя сле­дующие компоненты:

  • документ базы данных — структурированная форма представления информации, определяется своим уникальным (в массиве документов базы данных) идентификатором исоставом полей;

  • поле — часть документа, представляющая собой однознач­ но идентифицируемый в информационном массиве фрагмент, для которого определены тип, имя и характер обработки.

Рис. 5.8. Логическая структура БД документальной ИПС (Голицына О. Л. Моде­лирование и разработка средств и технологий поиска документальной информа­ции. — 05.25.05 — Информационные системы и процессы, правовые аспекты информатики: Дисс. канд. техн. наук. Научн. рук. доктор технических наук, проф. И. И. Попов. М., 2004)

• слово — фрагмент поля, выделяемый по формальным (за­данным в схеме представления документа) правилам, явля­ется единицей информации в операциях поиска.

Логическая связь именования, физического размещения и наполнения полей, образующих документ, а также стратегия по­иска определяется схемой представления документа. Для од­ной базы данных может быть определено несколько разных схем, причем их количество не ограничено. Все схемы, исполь­зуемые для работы с конкретной базой данных, в принципе рав­ноправны. Каждая схема имеет свое логическое имя, хранится в библиотеке схем и может быть одновременно использована для определения документов в нескольких базах данных.

Документ определяется в схеме перечислением описаний от­дельных полей.

Логически непрерывный массив документов базы данных в общем случае размещается в нескольких физических файлах, данные в которых связаны через указатель логического следова­ния. Справочник базы данных размещается отдельно от массива документов и имеет специализированную структуру (частотный словарь, алфавитный индекс и инвертированные списки). Поис­ковые справочники являются производными по отношению к массиву документов.

Физическая структура базы данных IRBIS. В ИПС IRJBIS ис­пользуется следующая иерархия понятий:

  • база данных — некоторый объем файлового физического пространства для размещения данных, принадлежащих одной логической базе;

  • файлы БД. Каждая база данных состоит не менее чем из двух типов файлов — файлов данных и файлов инвертированных структур. Отдельный файл может принадлежать только одной базе данных;

  • экстент — пространство для хранения данных в БД, выделяется блоками {экстентами) по восемь следующих друг за другом страниц размером 8 Кбайт. Экстент является еди­ницей выделения пространства;

  • страница. Файлы делятся на страницы размером по 8 Кбайт каждая. Логический номер страницы складывается из номера файла и номера страницы в файле (в простейшем случае логический номер равен номеру страницы в файле). В рамках БД файлы нумеруются, начиная с 1, так­же нумеруются страницы в рамках файла.

Словарные инвертированные структуры БД хранятся в от­дельной области и представлены тремя типами страниц:

  • индексные страницы;

  • страницы текстового представления словарных структур;

• страницы инвертированных списков. Информационно-поисковый язык документальной ИПС Irbis.

Информационно-поисковый запрос документальной ИПС представляет собой совокупность отдельных предложений за­проса, в общем случае синтаксически и семантически не свя­занных между собой. Однако, само понятие «Запрос» предпола­гает объединенную общей тематикой последовательность поис­ковых действий, направленных на получение обобщенного результата, что позволяет разрешать ссылки на результаты от­дельных предложений в рамках текущего запроса, объединять поисковые результаты, выделять общее множество релевантных документов и т. п.

Предложение запроса. Структурной единицей «За­проса» в рассматриваемом ИПЯ является Предложение запро­са, которое в общем случае состоит из произвольного числа Ус­ловий поиска, связанных логическими операциями: и (and, «пробел»), или (or, «,») и не (not, «л»). Внутри предложе-

291