Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Uchebnoe_posobie_ITU_Provalov.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.09 Mб
Скачать

Документальные информационно-поисковые системы. Информационные языки74

В системе документационного обеспечения управления значительная часть информации представляется в виде документов, не допускающих структурирование или являющихся слабоструктурированными. Сюда относится вся совокупность нормативно-правовых и распорядительных документов, информационно справочной информации, периодические издания… В общем случае эти документы содержат текстовую, графическую, аудио- и мультимедиа информацию. Единицей хранения и обработки таких данных выступает отдельный документ.

Процесс накопления и хранения электронных документов в общем случае не представляет большой сложности. Однако с увеличением количества хранимых документов возникает серьезная проблема поиска требуемой информации в соответствии с запросами пользователя. Потребности в автоматизации процессов хранения и поиска неструктурированной и слабо структурированной информации привели к разработке специализированных документальных баз данных и документальных информационных систем, наилучшим образом приспособленных для хранения и поиска информации, представленной в виде документов. В результате этих работ были разработаны специальные языковые средства формирования запросов на поиск документов по смысловому содержанию в соответствии с потребностями пользователя и соответствующими механизмами их реализации. Такие системы получили название документальных. Учитывая, что основной функцией в документальных ИС является функция поиска документов, исторически сложилось и до настоящего времени используется другое название – информационно-поисковые системы (ИПС).

Задача поиска документов в ИПС решается путем создания для каждого документа жестко связанного с ним дополнительного структурированного информационного объекта – информационного образа документа, с определенной степенью достаточности отражающего его смысловое содержание. В зависимости от особенностей построения информационного образа и, соответственно, механизмов реализации поиска ИПС делятся на две группы:

  • поисковые системы на основе индексирования;

  • семантически-навигационные системы.

В семантически-навигационных системах документы, помещаемые в информационную базу данных, снабжаются информационными смысловыми элементами (ссылками), которые задают смысловые связи между документами. Совокупность ссылок как "ниточками" пронизывает все документы, превращая их в целостную смысловую структуру. Навигация пользователя по такой системе осуществляется путем явного выбора соответствующей ссылки для перехода к следующему документу или разделу текущего документа.

По этому принципу строятся гипертекстовые ИПС. Гипертекст75 представляет собой совокупность документов, рассматриваемых как единая структура, содержащая смысловые связи, оформленные как выделенные ссылки–переходы между образующими его документами или частями этих документов. Гипертекстовый документ в общем случае может содержать наряду с текстовыми данными графические, аудио-, видеоэлементы. Ссылки (гиперссылки), - выделенные определенным способом (цветом, начертанием, специальным шрифтом) элементы документа, привлекающие внимание пользователя. Реализованные в гипертекстовых системах механизмы навигации по ссылкам обеспечивают перемещение (переход) с фрагмента, содержащего ссылку, на тот фрагмент, с которым его связывает выбранная пользователем ссылка. Рассмотренные в разделе 4.4 информационно-правовые системы являются ярким представителем ИПС этого класса.

В ИПС, построенных на основе индексирования, в качестве информационного образа документа выступает самостоятельный структурированный информационный элемент – поисковый индекс документа, или индексные указатели. Процесс построения индексных указателей для входящих в систему документов называется индексированием.

Индексные указатели реализуются в виде информационно-поис­ковых каталогов, тезаурусов и генеральных указателей.

В основе построения информационно–поисковых каталогов лежит процедура классификации документов по тематическому признаку, отражающему смысловое содержание документа. В простейшем случае соответствующая предметная область разбивается на смысловые тематические группы – рубрики, упорядоченные по алфавиту. Каждая рубрика кодируется цифровым или буквенно-цифровым кодом. В процессе индексирования индекс каждого документа строится путем перечисления кодов тех рубрик, которые отражают смысловое содержание индексируемого документа (перечислительная классификация). Для поиска необходимых документов пользователь должен указать интересующие его рубрики, на основе которых система по классификатору выбирает из базы данных те документы, в индексах которых перечислены соответствующие выбранным рубрикам коды.

Впервые такая система индексирования была применена и, нужно сказать, с успехом используется в настоящее время в библиотечном и архивном деле. Примером данной системы классификации являются и действующие системы классификации печатных изданий УДК, ББК, ISBN.

При построении информационно-поисковых каталогов используются различные системы классификации: простое перечисление рубрик, иерархическая, фасетная и дескрипторная классификации.

Иерархическая классификация предполагает построение иерархического рубрикатора в виде перевернутого дерева. На первом уровне предметная область ИПС разбивается на ряд непересекающихся рубрик. Каждая из рубрик, в свою очередь, разбивается на подрубрики второго уровня и так далее. Такая многоуровневая система классификации позволяет емко отражать смысловое содержание документа и обеспечивает более эффективные способы поиска документов и формирования запросов.

Более глубокий уровень учета смысловых связей обеспечивает фасетная система классификации. В этой системе предметная область разбивается на ряд исходных рубрик по организационно-технологичес­кому или семантическому принципу, отражающему специфику предметной области. Внутри фасет используется иерархическая система классификации. Были такие предложения универсальных фасетных классификаций76: "Индивидуальность", "Материя", "Энергия", "Пространство", "Время"; "Предмет в целом", "Вид", "Часть", "Материал", "Свойство", "Процессы", "Операции", "Факторы".

Идея информационно-поисковых тезаурусов основывается на повышении эффективности индексирования за счет добавления в систему классификации ключевых слов – дескрипторов. Тезаурус представляет собой специализированный словарь–справочник ключевых слов и словосочетаний, построенный по следующему алгоритму77:

  1. на первом этапе для данной предметной области отбирается совокупность описывающих ее ключевых слов и словосочетаний;

  2. из выбранной совокупности исключаются все слова- синонимы78, кроме одного, наиболее употребительного;

  3. создается словарь дескрипторов;

  4. между дескрипторами устанавливаются синонимические, родовидовые, ассоциативные и другие связи.

В поисковых системах на основе тезаурусов информационный образ документа включает совокупность ключевых слов–дескрипторов.

Генеральный указатель представляет собой глобальный словарь системы, содержащий перечень всех входящих в базу документов слов с указанием местонахождения каждого слова. Элементы глобального словаря выступают в качестве дескрипторов. Системы, в которых механизмы поиска документов реализуются на основе генерального указателя, получили название полнотекстовых информационно–поисковых систем. Механизмы поиска документов в полнотекстовых ИПС основываются на указании тех ключевых слов, набор которых наиболее полно отражает информационные запросы пользователя.

Для осуществления поиска документов в состав документальных ИПС включаются специальные подсистемы формирования запросов, позволяющие пользователю на формальном языке сформулировать требования, которым должны удовлетворять искомые документы. Формальные языки, позволяющие выражать смысловое содержание документов, получили название информационно–поисковых языков (ИПЯ), или языков запросов. Структура ИПЯ зависит от системы кодирования, используемой для построения индексных указателей. Выделяют дескрипторные и семантические79 языки запросов.

В дескрипторных языках запрос на поиск документов формируется перечислением совокупности ключевых слов–дескрипторов, которые могут связываться между собой логическими операциями отношений "И", "ИЛИ", "НЕ". Таким образом, пользователь создает информационный образ искомых документов. На основе информационного образа с помощью словаря дескрипторов или генерального указателя поисковая система осуществляет поиск удовлетворяющих запросу документов и предоставляет их пользователю.

В семантических языках запрос формулируется на основе специальных грамматических и семантических конструкций, предназначенных для выражения смыслового содержания.

Возрастание роли информационно–поисковых языков и интенсификация их развития и совершенствования обусловлены бурным развитием Internet. Информационно-поисковые машины в Internet используют аналогичные механизмы индексации информационного пространства. Соответственно, и запросы в информационно–поисковых машинах Internet строятся по аналогии с рассмотренными выше. Однако до настоящего времени не сложилось единого подхода к построению ИПЯ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]