
- •Лекция 12.
- •12.2. Организация данных в документальных информационных системах
- •12.3. Организация данных в документальной аипс stairs
- •12.4. Организация данных в документальной аипс irbis
- •12.5. Документо-ориентированная база данных Domino/Notes
- •12.6. Технологии поиска и обработки документальной информации
- •Механизмы отбора документальной информации
- •12.7. Уровневая модель представления информации в полнотекстовых бд
- •Преобразование представлений
- •12.8. Структура полнотекстовой бд
- •12.9. Проектирование документальной ис.
- •Проектирование логической структуры документальной бд
12.4. Организация данных в документальной аипс irbis
Логическая структура
База данных документальной ИПС IRBIS - это именованная совокупность массива документов и структурированных справочников, обеспечивающих эффективность поиска. Логическая структура БД документальной ИПС IRBIS представлена на слайде (слайд 12.6).
Документ базы данных как структурированная форма представления информации в общем случае определяется своим уникальным (в массиве документов БД) идентификатором и составом полей.
Поле как часть документа представляет собой однозначно идентифицируемый в информационном массиве фрагмент, для которого определены тип, имя и характер обработки.
Слово как фрагмент поля, выделяемый по некоторым формальным (заданным в схеме представления документа) правилам, является единицей информации в операциях поиска.
Схема базы данных (документа) определяет логическую связь именования, физического размещения и наполнения полей, образующих документ, а также стратегию поиска (при этом представление всех или отдельных документов БД может быть доопределено контекстно средствами разметки. Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов. Это обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов, хотя и создает проблемы согласованного использования материала из-за возможности различной интерпретации определений). Особенностью этой реализации является логическая независимость схемы. Для одной базы данных может быть определено несколько разных схем, причем они в принципе равноправны, и в то же время одна и та же схема может быть использована для определения документов в нескольких БД.
В схеме документ определяется совокупностью описаний отдельных полей, для каждого из которых задается:
- идентификация материала в базе данных, обеспечивающая пользователю доступ средствами документального поиска;
- представление материала при вводе и выводе (формат и длина поля, размещение и оформление материала при отображении и т. д.);
- спецификация стратегии документального поиска (прямое сканирование записей или использование инвертированных поисковых справочников). Для полей, специфицированных как ключевые, т. е. имеющих поисковые справочники, дополнительно определяются правила формирования дескрипторов (заданием списков символов-разделителей слов и списков стоп-слов).
Логически непрерывный массив документов БД в общем случае размещается в нескольких физических файлах, данные в которых связаны через указатель логического следования.
Справочник базы данных размещается отдельно от массива документов и имеет специализированную структуру (частотный словарь, алфавитный индекс и инвертированные списки). Поисковые справочники являются производным по отношению к массиву документов.
Физическая структура
В ИПС IRBIS используется следующая иерархия понятий, связанных с физической организацией информации (Слайд 12.7).
База данных — некоторый объем файлового физического пространства для размещения данных, принадлежащих одной логической базе.
Файлы БД. Каждая база данных состоит не менее чем из двух типов файлов –файлов данных и файлов инвертированных структур. Отдельный файл может принадлежать только одной базе данных.
Экстент. Пространство для хранения данных в БД выделяется блоками (экстентами) по 8 следующих друг за другом страниц размером 8Кбайт. Экстент является единицей выделения пространства.
Страница. Файлы делятся на страницы размером по 8 Кбайт каждая. Логический номер страницы складывается из номера файла и номера страницы в файле (в простейшем случае логический номер равен номеру страницы в файле). В рамках БД файлы нумеруются, начиная с 1, и так же нумеруются страницы в рамках файла.
Словарные инвертированные структуры БД хранятся в отдельной области и представлены тремя типами страниц:
индексные страницы;
страницы текстового представления словарных структур;
страницы инвертированных списков.
Страницы. На странице всегда хранится однородная информация (Слайд 12.8). Все страницы имеют заголовок, в котором хранится общая информация, используемая ядром ИПС для работы со страницами всех типов:
тип страницы;
идентификатор (номер) страницы;
идентификатор (номер) следующей страницы;
идентификатор (номер) предыдущей страницы;
число вхождений, размещенных на странице;
длина фиксированной части вхождения.
Характер распределения пространства после заголовка зависит от типа страницы (Слайд 12.9).
Индексные страницы. Индексные страницы содержат указатели на страницы текстового представления словарных структур. Каждая индексная страница содержит подзаголовок, хранящий следующую информацию:
число вхождений (указателей), размещенных на странице;
номер первой страницы инвертированных списков для множества страниц текстового представления словарных структур, описываемых индексной страницей.
За подзаголовком следуют указатели фиксированной длины, идентифицирующие отдельные страницы текстового представления словарных структур. В составе указателя следующая информация:
метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);
буква (символ), с которой начинается первое слово на странице;
идентификатор (номер страницы).
Страницы текстового представления словарных структур. После фиксированного заголовка на странице следует подзаголовок, представляющий хранящийся на текущей странице фрагмент общего словаря. В состав подзаголовка входят:
метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);
номер первой страницы инвертированных списков;
количество страниц инвертированных списков (для всех словарных структур, размещенных на текущей странице);
размер свободного пространства;
начало первого слова на странице (первые 4 буквы);
начало последнего слова на странице (первые 4 буквы).
За подзаголовком следует карта размещения словарных структур, где для каждого отдельного вхождения фиксируются:
длина слова (текстового выражения словарной структуры);
количество документов (или длина инвертированного списка для словарной структуры);
идентификатор страницы инвертированных списков, содержащей инвертированный список словарной структуры (по крайней мере, его начало);
смещение начала инвертированного списка от начала списка страницы в целом.
Отдельный элемент карты размещения словарных структур располагается на пространстве страницы параллельно с самим текстовым выражением словарной структуры (длина текстового выражения при этом не должна превышать размера страницы за вычетом заголовочных областей). Размещение текстового выражения осуществляется по правилам лексикографической упорядоченности в рамках помеченного подмножества общего словаря и физически реализуется на странице снизу вверх. Тем самым свободное пространство на странице всегда представляет собой непрерывную область.
Страницы инвертированных списков. После фиксированного заголовка на странице следует подзаголовок, представляющий фрагмент инвертированных списков для некоторого подмножества словарных структур общего словаря. В состав подзаголовка входят:
метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);
номер первой страницы текстового представления словарных структур (для текущей страницы инвертированных списков);
количество страниц текстового представления словарных структур (которым соответствует текущая страница инвертированных списков);
размер свободного пространства.
За подзаголовком размещаются идентификаторы (физические номера) документов инвертированного списка. Под каждый номер отводится область фиксированного размера (этот размер указывается в поле «длина фиксированной части вхождения» общего заголовка страницы).