Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМП-БД.doc
Скачиваний:
17
Добавлен:
05.12.2018
Размер:
1.26 Mб
Скачать
  1. Документальные аис основные понятия дескриптор

ЯОД – язык описания документа ПОД – поисковый образ документа

ЯОЗ – язык описания запроса ПОЗ – поисковый образ запроса

Релевантность, точность, полнота

Словарь дескрипторов, тезаурус

Основная задача – поиск документов по их содержанию.

Если язык запросов (как и язык самих документов) является обычным (неформализованным) языком (естественным), возможно с профессиональным уклоном, то полное решение задачи поиска требует понимания системой смысла запросов. Эта задача связана с проблемой создания искусственного интеллекта.

Поэтому на практике применяются упрощенные способы поиска. Простейший – использование дескрипторов.

Дескриптор – слово или совокупность слов (в том числе специальный профессиональный термин), которое в наибольшей степени характеризует содержание документа.

В АИС создается фиксированный словарь дескрипторов. Система просматривает текст запроса (на естественном языке) и фиксирует все встречающиеся дескрипторы. Затем просматривает полные тексты всех документов и отбирает те из них, которые содержат все дескрипторы из запроса. Необходимо честь, что и в запросе, и в тексте дескрипторы могут изменяться по падежам, по родам и так далее. Поэтому идентификация дескрипторов должна проводиться с точностью до окончаний (или даже до суффиксов).

Просмотр полных текстов документов требует много времени. Вместо этого просматривают поисковые образы.

Поисковый образ документа – совокупность дескрипторов, описывающая содержание и смысл документа.

Поисковый образ запроса – совокупность дескрипторов из запроса.

Поисковый образ составляется заранее либо вручную, либо автоматически в результате просмотра текстов специальной программой. Поисковые образы хранятся отдельно от текстов самих документов и имеют в своем составе ссылку на адрес соответствующего документа. В процессе поиска сравниваются поисковые образы запроса и документа на основе критерия смыслового соответствия. Этот критерий либо фиксирован для системы, либо указывается в запросе. Если условие сравнения выполняется, документ считается релевантным запросу. В качестве критерия смыслового соответствия может выступать условие совпадения множества дескрипторов поисковых образов, включение множеств друг в друга, пересечение множеств и др.

Наиболее дешевый способ хранения информации – микрофильмы и микрофиши. Их используют для хранения полных текстов документов. Поисковые образы хранятся во внешней памяти ЭВМ. Поисковые образы запросов обычно хранятся в ОП. После поиска и определения адреса документа осуществляется обращение к микрофильму или микрофиши. Можно получить твердую копию на бумаге.

Так как время обращения к хранилищу микрокопий велико, используется промежуточный этап.

Если найдено большое количество релевантных документов, в диалоге уточняется, что выдавать. Могут быть показаны заголовки документов, их полные наборы дескрипторов. В некоторых АИС на внешних ЗУ хранятся краткие рефераты документов, текст которых выдается пользователю на экран. Если пользователь подтвердит необходимость документа, выдается твердая копия.

Документальная АИС с простыми дескрипторными поисковыми образами может рассматриваться как фактографическая с булевыми атрибутами (да-нет), число которых равно полному числу используемых дескрипторов. Но такое представление, вообще говоря, не экономично, если число дескрипторов в словаре велико.

Описать содержание документа простой системой дескрипторов очень сложно, т. к. в естественном языке имеется неоднозначность, выражение смысла различными средствами, синонимичность и так далее.

Поэтому при поиске по дескрипторам могут быть извлечены нерелевантные документы, то есть не имеющие отношения к рассматриваемому запросу, а некоторые релевантные могут быть не найдены.

В первом случае говорят о неточности (информационный шум) АИС, во втором о её неполноте.

Для системы применительно к каждому запросу определяются (экспертным путем) два коэффициента.

Коэффициент полноты – отношение числа выданных по запросу релевантных документов к их общему числу в поисковом массиве.

Коэффициент точности – отношение релевантных (в данной задаче) документов к общему числу выданных (релевантных и нерелевантных документов).

Система характеризуется средним значением этих коэффициентов или минимальными их величинами.

Множество простых дескрипторов дополняется служебными словами (например, предлоги) и строится специальная грамматика (формализованная). Это множество превращается в некоторый формальный язык, что улучшает информационные характеристики системы. Но это усложняет поиск, удорожает систему. Вводится статистика и постоянные запросы.