Документальные аис основные понятия дескриптор

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

УМП-БД.doc

Скачиваний:

Добавлен:

05.12.2018

Размер:

1.26 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 414 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Документальные аис основные понятия дескриптор

ЯОД – язык описания документа ПОД – поисковый образ документа

ЯОЗ – язык описания запроса ПОЗ – поисковый образ запроса

Релевантность, точность, полнота

Словарь дескрипторов, тезаурус

Основная задача – поиск документов по их содержанию.

Если язык запросов (как и язык самих документов) является обычным (неформализованным) языком (естественным), возможно с профессиональным уклоном, то полное решение задачи поиска требует понимания системой смысла запросов. Эта задача связана с проблемой создания искусственного интеллекта.

Поэтому на практике применяются упрощенные способы поиска. Простейший – использование дескрипторов.

Дескриптор – слово или совокупность слов (в том числе специальный профессиональный термин), которое в наибольшей степени характеризует содержание документа.

В АИС создается фиксированный словарь дескрипторов. Система просматривает текст запроса (на естественном языке) и фиксирует все встречающиеся дескрипторы. Затем просматривает полные тексты всех документов и отбирает те из них, которые содержат все дескрипторы из запроса. Необходимо честь, что и в запросе, и в тексте дескрипторы могут изменяться по падежам, по родам и так далее. Поэтому идентификация дескрипторов должна проводиться с точностью до окончаний (или даже до суффиксов).

Просмотр полных текстов документов требует много времени. Вместо этого просматривают поисковые образы.

Поисковый образ документа – совокупность дескрипторов, описывающая содержание и смысл документа.

Поисковый образ запроса – совокупность дескрипторов из запроса.

Поисковый образ составляется заранее либо вручную, либо автоматически в результате просмотра текстов специальной программой. Поисковые образы хранятся отдельно от текстов самих документов и имеют в своем составе ссылку на адрес соответствующего документа. В процессе поиска сравниваются поисковые образы запроса и документа на основе критерия смыслового соответствия. Этот критерий либо фиксирован для системы, либо указывается в запросе. Если условие сравнения выполняется, документ считается релевантным запросу. В качестве критерия смыслового соответствия может выступать условие совпадения множества дескрипторов поисковых образов, включение множеств друг в друга, пересечение множеств и др.

Наиболее дешевый способ хранения информации – микрофильмы и микрофиши. Их используют для хранения полных текстов документов. Поисковые образы хранятся во внешней памяти ЭВМ. Поисковые образы запросов обычно хранятся в ОП. После поиска и определения адреса документа осуществляется обращение к микрофильму или микрофиши. Можно получить твердую копию на бумаге.

Так как время обращения к хранилищу микрокопий велико, используется промежуточный этап.

Если найдено большое количество релевантных документов, в диалоге уточняется, что выдавать. Могут быть показаны заголовки документов, их полные наборы дескрипторов. В некоторых АИС на внешних ЗУ хранятся краткие рефераты документов, текст которых выдается пользователю на экран. Если пользователь подтвердит необходимость документа, выдается твердая копия.

Документальная АИС с простыми дескрипторными поисковыми образами может рассматриваться как фактографическая с булевыми атрибутами (да-нет), число которых равно полному числу используемых дескрипторов. Но такое представление, вообще говоря, не экономично, если число дескрипторов в словаре велико.

Описать содержание документа простой системой дескрипторов очень сложно, т. к. в естественном языке имеется неоднозначность, выражение смысла различными средствами, синонимичность и так далее.

Поэтому при поиске по дескрипторам могут быть извлечены нерелевантные документы, то есть не имеющие отношения к рассматриваемому запросу, а некоторые релевантные могут быть не найдены.

В первом случае говорят о неточности (информационный шум) АИС, во втором о её неполноте.

Для системы применительно к каждому запросу определяются (экспертным путем) два коэффициента.

Коэффициент полноты – отношение числа выданных по запросу релевантных документов к их общему числу в поисковом массиве.

Коэффициент точности – отношение релевантных (в данной задаче) документов к общему числу выданных (релевантных и нерелевантных документов).

Система характеризуется средним значением этих коэффициентов или минимальными их величинами.

Множество простых дескрипторов дополняется служебными словами (например, предлоги) и строится специальная грамматика (формализованная). Это множество превращается в некоторый формальный язык, что улучшает информационные характеристики системы. Но это усложняет поиск, удорожает систему. Вводится статистика и постоянные запросы.

<<< < Предыдущая 1 2 34 / 414 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.20254.7 Mб2УМП Прямая и плоскость в пространстве (cт).doc
#
01.05.20251.68 Mб3УМП Технология 13.03.13 (1).doc
#
17.07.20193.27 Mб11УМП Тригонометрия ( часть 2).doc
#
17.07.20197 Mб56УМП Тригонометрия (часть 1).doc
#
01.05.2025636.42 Кб0УМП Элементы векторной алгебры.doc
#
05.12.20181.26 Mб18УМП-БД.doc
#
01.05.202560.42 Кб2УМП.docx
#
01.07.2025709.63 Кб0УМП_Статистика_ФГОС_2013.doc
#
01.05.2025181.76 Кб0УМР для СРС по СД.doc
#
01.05.20251.9 Mб0Умрихин А.В. Учебно-методическое пособие.Истор...doc
#
12.11.2019406.02 Кб0УМУ МФП 2011 (оч.юр) (1).doc