- •Лекция 12.
- •12.2. Организация данных в документальных информационных системах
- •12.3. Организация данных в документальной аипс stairs
- •12.4. Организация данных в документальной аипс irbis
- •12.5. Документо-ориентированная база данных Domino/Notes
- •12.6. Технологии поиска и обработки документальной информации
- •Механизмы отбора документальной информации
- •12.7. Уровневая модель представления информации в полнотекстовых бд
- •Преобразование представлений
- •12.8. Структура полнотекстовой бд
- •12.9. Проектирование документальной ис.
- •Проектирование логической структуры документальной бд
12.5. Документо-ориентированная база данных Domino/Notes
Основой единицей хранения информации в базе данных Lotus Domino/Notes является отдельный документ.
Структура документа Notes, представленная на слайде (Слайд 12.10), определяется формой, содержащей в себе набор полей различных типов.
Поля данных подразделяются на поля данных документа и поля данных Notes:
Среда Notes изначально проектировалась для работы со слабоструктурированной информацией. Это и предопределило структуру базы данных Notes. Отдельный документ не обязательно имеет все те же поля, что и остальные документы, под поле выделяется столько памяти, сколько это необходимо для хранения конкретных данных, поля в документы могут добавляться динамически по мере возникновения в них необходимости или изменений представления разработчиков и пользователей.
База данных Notes может хранить любые типы данных, начиная от простого текста, чисел, времени и даты, до форматированного текста, графических образов, звука, видео и произвольных данных, которые могут храниться в виде присоединенных объектов в своем «родном» формате.
Типы документов. Документы БД Notes могут иметь отношения друг к другу, как «родительский» и «дочерний» документ (Слайд 12.11). Например, если вы создали приложение для отслеживания внешних контактов, то родительским документом может быть описание организации, дочерними к нему – карточки сотрудников, следующим уровнем дочерних документов – отчеты о встречах с сотрудниками или письма и т. д. (до 32 уровней иерархии)
Полнотекстовый поиск. Lotus Notes поддерживает функцию полнотекстового поиска, которая позволяет пользователям индексировать документы Notes и проводить их поиск по запросам. Notes показывает документы, удовлетворяющие критериям поиска, либо в порядке степени их соответствия критерию, либо в заданном пользователем порядке.
Управление версиями. Lotus Notes содержит функцию управления версиями документа, которая отслеживает многочисленные изменения, вносимые в документ различными пользователями. Автоматическое управление версиями реализовано таким образом, что при каждом сеансе редактирования документ помечается либо как основной, либо как производный от оригинала (ответ). При этом изменения, внесенные в документ Notes одним пользователем, не затираются, когда другой пользователь сохраняет свои изменения в документе. Характер изменений иллюстрируется схемами, представленными на слайде (Слайд 12.12).
Функция управления версиями Notes является достаточно гибкой, ее можно модифицировать в соответствии с потребностями любой рабочей группы. Кроме того, пользователи имеют возможность добавлять дополнительные комментарии к оригиналу документа, работая с ним как с производным, т. е. не сохраняя оригинал повторно.
Ссылки на документы. Notes имеет средства поддержки гипертекста, т. е. каждый документ может содержать «ссылки» на другие документы в любой базе данных Notes или на документы в WWW.
12.6. Технологии поиска и обработки документальной информации
Основные функции документальных ИС – хранение и поиск документов. Но, как отмечалось в л.10, задачи поиска документальной информации принципиально отличаются от поиска фактографии. Если во втором случае система отбирает записи, в которых указанный атрибут имеет указанное значение (величину), то случае документального поиска мы оперируем лингвистическими переменными, значение (смысл) которых может изменяться в зависимости от контекста, а одни и те же документы (данные) для разных пользователей могут иметь разную действенность и даже разный смысл. Кроме того, если при поиске в документальных ресурсах мы не получаем нужную информацию, то это может быть либо в следствие некорректности запроса, либо из-за отсутствия в БД документа, удовлетворяющего нашей потребности. Поэтому функции поиска в ДИС обычно представлены достаточно широким спектром механизмов и интерфейсов поиска, что обеспечивает вариантность представления (выражения) запроса и «вариантность» отбора, когда за счет совместного использования ИПЯ разной различительной силы, а также механизмов поиска с критериями отбора разной жесткости мы имеем возможность расширить пространство поиска построением альтернативных выдач.
Эффективность информационного поиска определяется следующими факторами:
- свойством концентрации-рассеяния информации, предопределяющим априорную неполноту любого отдельного ИР – источника информации практически по любой теме. Любой ресурс всегда ориентирован не только тематически (по отраслям знаний) и на определенный вид информации (НТД, патенты, отчеты НИР и т. д.), но также имеет свои системы представления и средства доступа к информации;
- свойством эмерджентности информации, предполагающим множественность и комбинативность использования любого информационного сообщения;
- свойствами информационно-поисковой деятельности, зависящей как от характера задач ОД, так и от особенностей человека – его возможностей по восприятию и интерпретации найденных документов (информация может быть потенциально полезной, но актуально не воспринятой, например, по причине недостаточности знаний получившего её потребителя);
- свойствами вычислительной среды реализации АИПС, для которой характерна жесткость процедур и предопределенная ограниченность форм представления информации.
В целом процесс информационного поиска может быть представлен как итеративная цепочка операций, выполняемых в совокупной человеко-машинной среде (сознании человека и в вычислительной машине), последовательно снимающей неопределенности, обусловленные перечисленными ранее свойствами информации, и в итоге реализующей своеобразное преобразование информационной потребности в совокупность документов, содержание которых удовлетворяет эту потребность, т. е. информация найденных документов обеспечивает решение задачи ОД.
Укрупненный алгоритм итеративного процесса поиска информации представлен на слайде (Слайд 12.13).
Такой подход позволяет рассматривать процесс поиска как последовательное изменение состояний (этапов) взаимодействующих подсистем (человека и автоматизированной информационно-поисковой системы), направленное на локализацию (снятие) неопределенностей следующих видов:
неопределенности соотношения «известного/неизвестного» в предмете поиска (свойственна реальной ИП);
неопределенности системы характеристических признаков для структуризации предмета поиска (свойственна осознанной ИП);
лексической неопределенности, как фактора степени соответствия информационно-поискового языка естественнонаучному языку предметной области (свойственна выраженной ИП);
неопределенности критериев сравнения поисковых образов (адекватность формальных мер близости, реализованных в конкретных АИПС);
неопределенности интерпретации ПОДов (субъективность и неполнота реконструирования пользователем смысла найденных документов);
неопределенность тематического соответствия и степени полноты представления проблематики в данном ИР.
Причем, первые четыре вида неопределенности имеют информационную природу (преобразование форм представления информации), пятая характеризует поисковый аппарат АИПС, а шестая отражает когнитивные особенности человека – приемника и генератора информации. Последняя существенна в том случае, когда в используемом ресурсе не была найдена информация, полностью обеспечивающая решение задачи ОД, и потребителю необходимо принимать одно из следующих решений:
продолжить поиск в этом ресурсе в надежде на то, что удастся так реформулировать запрос, что он выведет на нужный «пласт» информации;
перейти в другой ресурс (например, когда любая формулировка запроса дает отрицательный результат);
прекратить поиск и заняться непосредственно решением задачи (когда становится понятно, что легче открыть заново, чем найти описание открытия).
Не являясь практически измеримыми величинами, эти параметры, тем не менее, позволяют обозначить характер изменения состояния сторон.
Поскольку разные типы поисковых задач имеют разные типы и степени неопределенности, достаточно очевидно, что «траектория» поиска ( циклы и число итераций) для каждого случая будет различным.
Технологии отбора документов
Технологии формирования выдачи документов по отдельному ПОЗ, объединяют два процесса:
процесс объявления (выражения, обозначения) пользователем информационной потребности;
процесс построения выдачи – множества документов, генерируемых системой в ответ на поисковое требование пользователя.
Технология генерации выдачи полностью определяется рассмотренной во второй главе обобщенной архитектурой АИПС.
В этом смысле выделяются два класса систем: диалоговые и пакетные. В первом случае технология ориентирована на работу в реальном масштабе времени, а условие отбора по одному запросу соотносится со всеми поисковыми образами документов (если БД не имеет инвертированных массивов, являющихся избыточными по отношению к основному). При пакетной обработке запросов, предназначенной для использования в системе избирательного распределения информации, каждый поисковый образ документа (чаще всего при поступлении в систему) соотносится с поисковыми образами всех запросов.
Разнообразие технологий подготовки запроса, таким образом, в основном относится к диалоговым системам, обеспечивая (в той или иной степени) не только эффективность вхождения в базу, но и качество поиска в целом.
В контексте понятия «выражение запроса», как главного (основного) операционного объекта, можно определить три типа не взаимоисключающих технологии его спецификации:
непосредственного набора булевоподобного выражения;
формирования булевоподобного выражения с помощью «конструктора запросов», облегчающего использование словарей, имен полей и операторов структурно-логической связи;
форматно-ориентированных форм генерации «запроса по образцу».
