Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
фактограф АИС.docx
Скачиваний:
30
Добавлен:
12.11.2019
Размер:
405.87 Кб
Скачать

290 Глава 5. Программные оболочки информационных систем

н ия допускается использование скобок, задающих дополнитель­ные приоритеты выполнения условий поиска.

Условие поиска. Условие поиска устанавливает критерии соответствия поисковых дескрипторов запроса некоторой облас­ти поиска, представляющей собой совокупность структурных единиц документа — полей.

Условие_поиска имеет разновидности:

Область поиска Оператор критерия Выражение условия; Результат поиска.

Область поиска внутри документа задается именем отдельно­го поля или логическим выражением, объединяющим имена не­скольких полей.

Выражение условия — набор терминов (поисковых дескрип­торов), объединенных с помощью булевых или контекстных операторов в логическое выражение.

Оператор критерия задает условие включения или сравнения дескрипторов запроса и терминов, содержащихся в указанных полях документов.

В простейшем случае предложение запроса состоит из имени поля, оператора вхождения и одного дескриптора, например:

KW

РОССИЯ.

Область поиска задается именами структурных единиц документа — полей. Разновидности области_поиска:

Имя_поля;

Область_поиска Логическая__операция Область__поиска.

Из нотации видно, что допускается использование логиче­ских операций при формировании области поиска. Например:

(АВ OR TI): (РОССИЯ NOT СССР)

означает, что в результат поиска включаются все документы, в которых хотя бы в одном из заданных полей (реферат, заголовок или в обоих) встречается дескриптор РОССИЯ, но не встречается дескриптор СССР. ,■

Отличительная особенность ИПЯ IRB1S — возможность формирования логического выражения как в правой, так и в ле­вой части условия поиска.

Оператор критерия. Для связи области поиска с тер­минами запроса используются следующие операторы критерия (вхождения, сравнения):

«:» (условие вхождения) — позволяет найти документы, ко­торые содержат в указанной области поиска результат вычисле­ния выражения условия;

«=» (условие «равно», или EQ) — позволяет найти докумен­ты, для которых указанная область поиска равна результату вы­числения выражения условия;

«О» (условие «не равно», или NE) — позволяет найти доку­менты, которые не содержат в указанной области поиска резуль­тат вычисления выражения условия;

«>» (условие «строго больше», или GT) — позволяет найти документы, которые содержат в указанной области поиска зна­чения, большие, чем результат вычисления выражения условия;

«>=» (условие «больше или равно», или GE) — позволяет найти документы, которые содержат в указанной области поиска значения, большие или равные результату вычисления выраже­ния условия;

«<» (условие «строго меньше», или LT) — позволяет найти документы, которые содержат в указанной области поиска зна­чения, меньшие, чем результат вычисления выражения условия; «<=» (условие «меньше или равно», или LE) — позволяет найти документы, которые содержат в указанной области поиска значения, меньшие или равные результату вычисления выраже­ния условия.

Выражение условия. Синтаксис выражения условия в

ИПЯ следующий:

Выражение_условия:

  • Дескриптор;

  • Выражение_условия Операция Выражение_условия,

где Операция — Логическая операция ИЛИ Контекстный_оператор, причем

Логическая_операция — это, как и ранее:

И (AND, «пробел»), ИЛИ (OR, «,»)hHE(NOT, «л»),

Контекстный оператор — это

СТХ, СТХ[N], +, NEAR, NEAR[N] , SENT, CON[N].

При использовании в запросе нескольких дескрипторов они должны быть связаны контекстными или логическими операто­рами и помещены в круглые скобки.

Синтаксис и семантика использования дескрипторов. Для по­иска информации в БД поисковые дескрипторы могут быть за­даны одним из перечисленных способов:

  • выбор из частотного словаря;

  • ввод с клавиатуры;

  • отметка ключевых слов в тексте документа;

  • выбор терминов из специализированных словарных, рубрикационных или тезаурусных структур.

При задании поисковых дескрипторов допускается исполь­зование операторов (символов) маскирования, алгоритма норма­лизации и ссылок на ранее полученные результаты поиска.

Маскирование. ИПЯ разрешает употребление символов маскирования двух видов:

  • маскирование (или замена) произвольного числа рядом стоящих символов дескриптора (символы «*» или «$»);

  • маскирование одного (непустого) символа дескриптора (символ «%»)

Символы маскирования могут использоваться вместо любого символа дескриптора, и их количество внутри дескриптора неог­раниченно.

Параметризированные символы маскирования произвольно­го количества символов (например, «* (N) »), означают, что в де­скрипторе на месте символа маскирования может стоять произ­вольная последовательность длиной не более чем N символов (где Nот 0 до 255).

Нормализация. Для расширения возможностей дескрипторного языка на этапе сопоставления поискового об­раза документа (ПОД) и поискового образа за­проса (ПОЗ) может быть использован аппарат нормализации дескрипторов.

Правила нормализации дескриптора ПОЗ следующие:

  • три первые буквы дескриптора остаются без изменения;

  • все следующие гласные буквы заменяются символом маскирования произвольного числа рядом стоящих букв;

  • конечные буквы в, г, м, х в дескрипторе заменяются симво­ лом маскирования произвольного числа рядом стоящих букв;

в конце дескриптора проставляется символ маскирования произвольного числа рядом стоящих букв (если после всех преобразований конечный символ дескриптора не является символом маскирования).

Нормализованный таким образом дескриптор ПОЗа позво­ляет обеспечить более полный дескрипторный поиск с исполь­зованием только лишь частотного словаря БД.

Рассмотрим, например, запрос, который на естественном языке представляет собой предложение: «Частотный анализ тер­минов словаря». Такой запрос в системе (с применением правил нормализации) автоматически преобразуется в следующий ПОЗ:

част$тн$ AND анал$з$ AND терм$н$ AND слов$р$

Нормализованный таким образом ПОЗ обеспечивает поиск по логическому выражению с разрешением символов маскиро­вания:

част$тн$ = частотность, частотности, частотный, частотные,

частотных, частотного, частотной;

анал$з$ = анализ, анализа, анализе, анализу, анализируется,

анализируются;

терм$н$ = термин, термина, термину, термином, термины, терминов, терминах, терминология, терминологии, терминоло­гию, терминологические, терминологическим, терминологиче­ских, терминологической, терминологический, терминосистем, терминологичности;

слов$р$ = словарь, словаря, словаре, словарем, словарей, словарные, словарными, словарных, словарного, словоформа, словоформе, словоформы, словоформ, словарные, словар-но-грамматический, словоупотреблений.

Использование ранее полученных результатов поиска. В каче­стве операнда Условия_поиск.а в Предложении_запроса может использоваться ранее полученный Результат_поиска.

Для включения в Предложение^запроса результатов ранее проведенного поиска используются ссылки на номер предложе­ния в текущем запросе.

Например, запрос может иметь вид:

#2 and ((KW or AB) : Россия)

где #2 — ссылка на результат второго предложения запроса.