Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Основы научных и инженерных исследований

..pdf
Скачиваний:
22
Добавлен:
15.11.2022
Размер:
2.35 Mб
Скачать

слов, введенных в запрос пользователем (добавляются ли автоматически в запрос дополнительные термины), и по каким правилам это делается;

правила отбора документов по выполняемому запросу: при каком соответствии запросу документы из БД будут включены в выдачу;

правила формирования (сортировки) списка из отобранных документов.

При составлении запроса следует учитывать, что:

запрос для проведения поиска в соответствующую область вводится с клавиатуры или путем вставки через буфер обмена;

для текстового запроса слова вводятся в область ввода без указания области поиска (перед терминами запроса не ставятся никакие идентификаторы);

при вводе запроса в область ввода библиографического поля обозначение поля не делается;

при вводе библиографических данных в область ввода текстового запроса задается название библиографического поля и знак « = »;

термины в запрос могут вводиться без учета регистра (все буквы прописные);

запрос редактируется обычным для Word образом;

система не имеет словарей для ввода терминов в область ввода.

Режим поиска Concept (по смыслу) – основной ре-

жим поиска, позволяющий находить документы, содержащие заданные в запросе слова и/или слова, связанные с ними семантически (синонимы, антонимы и т.п.).

Ввод запроса. В режиме Concept (по смыслу) запрос

вводится на естественном русском или английском языках без использования булевых операторов.

Обработка запроса системой. В режиме Concept (по смыслу) система автоматически расширяет семантику всех слов запроса в соответствии с установленным уровнем расширения. Уровень расширения определяет, какой тип связи (т.е. слова какого типа: синонимы, антонимы, связан-

71

ные слова и т.д.) должен быть использован системой для расширения запроса [12].

Расширение запроса заключается в том, что для каждого слова запроса из словарей системы отбираются слова определенного типа (например, синонимы) и добавляются

взапрос, а поиск производится по запросу, содержащему слова, введенные пользователем, и их семантические расширения, определенные системой.

Выдача. При поиске в режиме Concept (по смыслу)

ввыдачу включаются документы, содержащие хотя бы одно из слов запроса или его расширение, например синоним.

Список найденных документов. При поиске в режиме

Concept (по смыслу) найденные документы располагаются

всписке в порядке убывания их релевантности запросу (ранжируются). Для этого системой:

• определяется ранг каждого документа – число (от 1 до 100), характеризующее степень релевантности запросу, которое вычисляется в зависимости от многих факторов, в том числе от наличия всех или части слов из запроса в документе и/или их семантических расширений;

• в выводимом списке документы располагаются в порядке убывания их ранга.

При таком ранжировании в начале списка располагаются документы, содержащие наибольшее количество общих с запросом признаков.

Примечание: в данной реализации системы присутствуют только общие русский и английский тезаурусы, поэтому многие технические термины не будут расширены при использовании режима поиска Concept (по cмыслу).

Режим поиска Pattern (по шаблону) – основной ре-

жим поиска, позволяющий находить документы, содержащие заданные в запросе слова и слова, имеющие сходное написание (например, отличающиеся от заданных правописанием).

Поиск позволяет находить слова с трудным написанием или слова, введенные в БД, или запрос с орфографическими ошибками.

72

Ввод запроса. В режиме Pattern (по шаблону) запрос вводится на естественном языке без использования булевых операторов.

Обработка запроса системой. В режиме Pattern (по шаблону) система автоматически расширяет слова запроса вариантами его написания, имеющимися в БД, до заданного числа расширений. Число расширений определяет, какое количество слов из БД добавляется в запрос. Расширение запроса заключается в том, что для каждого слова запроса система находит слова в БД со сходным написанием (количество найденных слов задается числом расширений), эти слова добавляются в запрос и поиск проводится по запросу, содержащему слова, введенные пользователем, и их расширения, добавленные системой.

Выдача. В режиме Pattern (по шаблону) в выдачу включаются документы, содержащие хотя бы одно из слов запроса или его расширение.

Список найденных документов. Найденные документы располагаются в списке в порядке убывания их релевантности (соответствия) запросу. Ранжирование документов аналогично ранжированию в режиме Concept (по смыслу).

Режим поиска Boolean (логический) – основной ре-

жим поиска, позволяющий находить документы, содержащие слова, заданные в запросе и связанные между собой отношениями, определяемыми операторами запроса.

Ввод запроса. В режиме поиска Boolean (логический) запрос структурируется как логическое выражение с использованием традиционных булевых операторов AND, OR, NOT и операторов контекстной близости WITHIN

и ADJ (табл. 3.4).

Обработка запроса системой. В режиме поиска

Boolean (логический) система автоматического расширения слов запроса не производит.

Выдача. В режиме поиска Boolean (логический) в выдачу включаются документы, содержащие все слова запроса с учетом условий, налагаемых операторами.

73

 

 

 

 

 

 

 

 

Таблица 3.4

 

Операторы логического поиска и их описание

 

 

 

 

 

 

 

 

 

 

 

 

 

Буле-

 

 

 

 

 

 

 

 

Поря-

вы

 

Оператор

Синтаксис

 

 

Описание

док

 

опера-

 

 

 

вы-

 

торы

 

 

 

 

 

 

 

 

полн.

 

Not, ^

 

Not

^ Колонна

 

Слова

«колонна»

3

 

 

 

колонна

 

 

не

должно

быть

 

 

 

 

 

 

 

в документе

 

 

 

And,

 

But

Колонна and

Слова

«колонна»

4

 

&

 

 

ректификации

и «ректификации»

 

 

 

 

 

колонна

&

должны быть в до-

 

 

 

 

 

ректификации

кументе.

(Если

 

 

 

 

 

колонна but

между словами нет

 

 

 

 

 

ректификации

оператора,

то по

 

 

 

 

 

колонна

 

умолчанию

опера-

 

 

 

 

 

 

 

тор and)

 

 

 

Or , |

 

Колонна

Колонна | рек-

Или

слово

«ко-

6

 

 

 

or ректи-

тификации

 

лонна», или слово

 

 

 

 

фикации

 

 

«ректификации»

 

 

 

 

 

 

 

должно быть най-

 

 

 

 

 

 

 

дено в документе

 

 

Within

Колонна

Within N

 

Слово

«колонна»

5

 

 

 

ректифи-

 

 

должно находить-

 

 

 

 

кации

 

 

ся от слова «рек-

 

 

 

 

 

 

 

тификации»

на

 

 

 

 

 

 

 

расстоянии

N по-

 

 

 

 

 

 

 

зиций

 

 

 

 

Adj

 

Колонна

Adj N

 

Слово

«колонна»

5

 

 

 

ректифи-

 

 

должно находить-

 

 

 

 

кации

 

 

ся

перед словом

 

 

 

 

 

 

 

«ректификации»

 

 

 

 

 

 

 

на

 

расстоянии

 

 

 

 

 

 

 

N позиций

 

 

 

 

 

 

74

 

 

 

 

 

 

 

Список найденных документов. В режиме поиска

Boolean (логический) найденные документы не ранжируются. В списке документы располагаются в хронологическом порядке, определяемом датой ввода документа в БД.

Поиск с использованием специальных операторов.

В инструкции рассматриваются следующие специальные операторы системы:

операторы подстановок (?, *, [искомое выражение]);

двойные кавычки «...»;

скобки (…).

Операторы подстановок (?, *, [искомое выражение]) используются для замены частей слов (чисел), когда надо найти несколько похожих слов (чисел) (табл. 3.5).

Таблица 3.5

Специальные операторы

Опера-

Синтаксис

Описание

В выдачу

Режим

тор

может быть

поиска

 

 

 

включено

 

?

Ст?л?

Заменяет

Стула, сту-

Boolean

 

 

один сим-

лу,

стуле,

Concept

 

 

вол стиля

сталь, столе

 

*

Стул*

Заменяет

Стул, стула,

Boolean

 

 

любое чис-

стулу,

сту-

Concept

 

 

ло симво-

лом,

стуле,

 

 

 

лов

стульев,

 

 

 

 

стульям,

 

 

 

 

стульями

 

[иско-

В2[1–4]В1/00

Заменяет

В21В1/00

Boolean

мое вы-

 

одиночный

В22В1/00

Concept

раже-

 

символ зна-

В23В1/00

 

ние]

 

чениями из

В24В1/00

 

 

 

заданного

 

 

 

 

 

интервала

 

 

 

 

 

75

 

 

 

Окончание табл. 3.5

Опера-

Синтаксис

Описание

В выдачу

Режим

тор

может быть

поиска

 

 

 

включено

 

[иско-

В2[1,4][В,С]1/00

Заменяет

В21В1/00

Boolean

мое вы-

 

единичный

В24В1/00

Concept

раже-

 

символ за-

В21С1/00

 

ние]

 

данными

В24С1/00

 

 

 

значениями

 

 

Двойные кавычки «...» – оператор, обеспечивающий поиск точной фразы: точно такого же набора слов, расположенных в той же последовательности, что и заключенные в кавычки.

Слова в двойных кавычках не расширяются при режимах поиска Concept (по смыслу) или Pattern (по шаблону). В кавычки может быть заключено любое число слов (в том числе и одно) (табл. 3.6).

Скобки (…) – оператор, обеспечивающий поиск группы слов.

 

 

 

 

 

Таблица 3.6

Специальные операторы (двойные кавычки)

 

 

 

 

 

 

Оператор

Синтаксис

Описание

 

Режим поиска

«…»

«Чистовая

Слово «чисто-

Слова с другим по-

 

обработка»

вая» должно на-

рядком

(обработка

 

 

ходиться непо-

чистовая) и/или до-

 

 

средственно

пе-

полнительными

 

 

ред словом «об-

терминами

между

 

 

работка»

 

ними

в

выдачу

 

 

 

 

не включаются

Boolean

Pattern

(…)

 

(Чистовая OR от-

Concept

 

 

 

делочная)

обра-

 

 

 

 

ботка

 

 

 

 

76

 

 

 

 

Врежиме поиска Concept (по смыслу) или Pattern (по шаблону) слова внутри круглых скобок расширяются и согласовываются, а при ранжировании оцениваются как группа, а не отдельные слова (т.е. документы, включающие

всебя слова группы, получают более высокий ранг, чем документы, включающие в себя такое же количество отдельных слов запроса).

Врежиме поиска Boolean (логический) заключенные

вскобки операторы имеют преимущество в последовательности выполнения перед другими операторами запроса (табл. 3.7). Заключенный в скобки оператор имеет преимущество в порядке выполнения перед другими операторами запроса. Должны быть найдены: «чистовая обработка» и/или «отделочная обработка» Boolean (…) (чистовая обработка) материалов. Документы, содержащие пару «чистовая обработка» будут ранжироваться выше, чем документы с парами «чистовая, материалов» и «обработка материалов»

Pattern Concept.

 

 

 

 

 

 

 

Таблица 3.7

 

 

Использование операторов в системе

 

 

 

 

 

 

 

 

Режим

?

 

*

[.]

"…"

(…)

Примечания

поиска

 

 

 

 

 

 

 

Concept

+

 

+

+

+

+

Для терминов с операторами ?,

 

 

 

 

 

 

 

*, [.], "." не производится рас-

 

 

 

 

 

 

 

ширение, соответствующее ре-

 

 

 

 

 

 

 

жиму поиска

Pattern

 

+

+

Для терминов в «…» не произ-

 

 

 

 

 

 

 

водится расширение, соответ-

 

 

 

 

 

 

 

ствующее режиму поиска

Boolean

+

 

+

+

+

+

 

Ввод запроса. Ввод запроса определяется выбранным режимом поиска. Примеры ввода слов с операторами приведены в табл. 3.5, 3.6, там же указано, для каких режимов поиска могут быть использованы операторы.

77

Обработка запросов системой. Обработка запросов проводится по правилам, определенным выбранным режимом поиска и условиями, налагаемыми используемым оператором. Примеры расширения слов запросов со специальными операторами приведены в табл. 3.5.

Выдача и список найденных документов формируются по правилам, определенным выбранным режимом поиска.

В табл. 3.7 показано, при каких режимах поиска

(Concept, Pattern, Boolean) могут быть использованы специ-

альные операторы.

Экспертный режим поиска (Expert) – режим поиска,

который может использоваться вместе с любым основным типом запроса для увеличения его точности путем выбора расширяющих терминов из списков, предлагаемых системой.

Ввод запроса. При поиске в режиме Expert (экспертный) запрос вводится в соответствии с правилами ввода запроса для выбранного основного режима поиска (Concept, Pattern, Boolean).

Обработка запроса системой. При поиске в режиме

Expert (экспертный) система только формирует списки расширений слов запроса в соответствии с выбранным ос-

новным режимом поиска (Concept, Pattern, Boolean), а вы-

бирает из этих списков интересующие его расширения сам пользователь. Кроме того, пользователь может задать вес (оценку) слов запроса. Вес влияет на величину ранга документа и используется для придания отдельным словам запроса большей важности (документы, содержащие слова с большим весом, будут выводиться в начало ранжированного списка).

Выдача и список документов. При поиске в режиме

Expert (экспертный) выдача и список формируются по правилам, определяемым основным режимом поиска (Concept, Pattern, Boolean).

Поиск по библиографическим полям – тип запроса,

который может выполняться отдельно или вместе с полнотекстовым поиском при любом режиме поиска (Concept, Pattern, Boolean).

78

Ввод запроса. При поиске по полям запрос может вводиться двумя способами:

в области ввода соответствующего поля запрос вводится в соответствии с правилами ввода для режима Boolean (логический) без указания названия поля;

в область ввода текстового запроса запрос к каждому полю вводится после указания названия поля и знака равенства (F511=b23h1/00), текстовый запрос вводится без указания идентификаторов поля.

Обработка запроса системой. При поиске по полям обработка запроса производится:

в соответствии с выбранным режимом поиска

(Concept, Pattern, Boolean) – для части запроса, введенной

вобласть ввода текстового запроса;

в соответствии с режимом Boolean (логический) – для части запроса, введенной в области ввода полей.

Выдача. При поиске по полям в выдачу включаются:

при вводе запроса только в область ввода текстового запроса – документы, отвечающие условиям их включения

ввыдачу для выбранного режима поиска (Concept, Pattern, Boolean) – см. пример 1;

при вводе запроса только в области ввода полей – документы, обязательно содержащие поля с искомой информацией;

при вводе запроса в области ввода текстовой части

ибиблиографических полей – документы, обязательно содержащие поля с искомой информацией и при этом отвечающие условиям их включения в выдачу для выбранного режима поиска (Concept, Pattern, Boolean) – см. пример 2.

Пример 1.

Запрос: тангенциальная составляющая силы деформирования F511=В24В39/00 все в области ввода текстового запроса. В выдачу будут включены:

– при поиске Concept (по смыслу) – документы, каждый из которых содержит хотя бы одно из четырех слов запроса (или их синонимов), или рубрику МПК, или любую комбинацию из этих слов;

79

при поиске Pattern (по шаблону) – документы, каждый из которых содержит хотя бы одно из четырех слов запроса (или их расширений), или рубрику МПК, или любую комбинацию из слов и расширений;

при поиске Boolean (логический) – документы, каждый из которых содержит все эти слова и рубрику МПК.

Пример 2.

Запрос: тангенциальная составляющая силы деформирования – в области ввода текстового запроса В24В39/00 –

вполе МПК. В выдачу будут включены:

при поиске Concept (по смыслу) – документы, каждый из которых обязательно содержит рубрику В24В39/00 и хотя бы одно из четырех слов запроса или их синонимов;

при поиске Pattern (по шаблону) – документы, каждый из которых обязательно содержит рубрику В24В39/00 и хотя бы одно из четырех слов запроса или их расширений;

при поиске Boolean (логический) – документы, обязательно включающие все термины запроса (так как по умолчанию между словами оператор AND).

Список найденных документов. Список формируется:

при задании хотя бы части запроса в области ввода текстового запроса – по правилам, установленным для выбранного режима поиска (Concept (по смыслу), Pattern (по шаблону), Boolean (логический));

при задании запроса только в областях ввода полей –

всоответствии с режимом Boolean (логический).

Итеративный поиск (Refine) – поиск любого типа,

выполняемый в массиве документов, найденных по предыдущему запросу.

Ввод запроса, обработка запроса системой, выдача и сортировка найденных документов проводятся в соответствии с выбранным режимом поиска: Concept (по смыслу), Pattern (по шаблону), Boolean (логический). Переход в режим Refine (уточнить) задается в закладке Results (результаты) после получения списка найденных по предыдущему запросу документов. Для этого:

80