Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1187
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.5. Методика координатного индексирования

Индексированием называется процесс перевода содержания документа и/или смысла информационного запроса с естественного языка на информационно-поисковый язык.

Иными словами, индексирование – это процесс составления поискового образа документа или поискового образа запроса.

Индексирование документов с применением тезауруса требует использования комплекса рекомендаций и правил индексаторами, которые можно назвать методикой индексирования документов.

Методика индексирования документов, подразумевающая перечень методов и рекомендаций, помогает полно и точно отразить содержание поступающих в информационно-поисковую систему документов с помощью терминов ИПЯ. Использование методики составления поисковых образов документов состоит в нахождении оптимальных с точки зрения эффективности работы ИПС способов перевода содержания документов на информационно-поисковый язык.

Процесс индексирования включает следующие этапы (ГОСТ 7.66–92):

  • анализ и определение содержание документа;

  • выбор понятий, характеризующих создание документа;

  • выбор терминов индексирования для обозначения понятий;

  • формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены при осуществлении технологических процессов и с условием их выполнения. С учетом вышесказанного первые три этапа удобнее объединить, так как они осуществляются одновременно. Таким образом, на первом этапе выявляется основная информация, содержащаяся в документе, и выражается ключевыми словами. Второй этап заключается в формировании поискового образа документа путем замены ключевых слов соответствующими дескрипторами тезауруса с использованием имеющихся в нем связей между ними.

9.5.1. Анализ содержания документов и выявление ключевых слов

Анализ содержания документов в процессе индексирования ведется в определенной последовательности по определенной схеме. Наличие единой схемы анализа содержания обеспечивает единый подход различных индексаторов к процессу формирования поисковых образов документов, что способствует качеству и постоянству индексирования и, следовательно, повышению эффективности работы ИПС.

Анализ содержания документов, согласно принятой схеме, проводится по следующим смысловым аспектам:

  1. Предмет или тема исследования.

  2. Сторона, с которой анализируется (исследуется, описывается) предмет или его свойства, признаки и закономерности (природные, физические, биологические, химические и др.) предмета.

  3. Область применения или использования предмета.

  4. Вид исследования свойств предмета.

  5. Конкретный метод исследования.

  6. Методика проведения исследования и специальное оборудование, используемое для изучения предмета и исследования его свойств.

  7. Условия, в которых проведены исследования свойств предмета.

В качестве предмета исследования могут выступать любые материальные объекты либо общие и частные понятия. Например: изделия, устройства, образцы техники, виды и системы чего-либо и т. д. Как правило, сторонами исследования предмета могут быть производство, эксплуатация, применение, технические требования и т. д.

Смысл заключается в том, с какой точки зрения предмет представляет интерес в процессе исследования. Областью применения предмета исследования могут быть отрасли хозяйства, другой предмет или предметная область и т. п. Видами исследования могут быть теоретические расчеты, лабораторные исследования, различные испытания и т. д. Математические, сравнительно-исторические методы, методы моделирования и другие могут применяться в качестве методов исследования предметов. Условиями, характеризующими процесс исследования, могут быть место и время (в воздухе, под водой; зима, лето, день, ночь,), географические условия и условия местности (пустыня, Арктика), физические условия (низкая температура, радиация), другие условия (химические, биологические и т. д.).

Перечисленные смысловые аспекты представляют формализованную модель свернутого содержания документа (поисковый образ).) В процессе анализа содержания документа, используя такую модель, производится выбор ключевых слов. Предмет исследования можно отразить, используя первые три смысловых аспекта поискового образа. С помощью остальных аспектов в поисковом образе документа можно характеризовать сам процесс исследования. Количество используемых в процессе индексирования смысловых аспектов определяется спецификой содержания каждого конкретного документа. Обработка многотематических документов проводится раздельно по каждому предмету исследования, а затем результаты объединяются в один поисковый образ.

Источником информации в процессе индексирования служит заголовок и текст документа.

При выборе ключевых слов, необходимо учитывать следующие правила:

  • Ключевыми словами отражается только та информация, которая имеется в документе и ясно выражена.

  • Составление списка ключевых слов не связывается с вероятным наличием или отсутствием каких-либо дескрипторов в тезаурусе или с предположениями о характере возможных запросов

  • Как правило, в качестве ключевых слов, выраженных отдельными словами естественного языка, используются только имена существительные. Если необходимо использовать и другие слова, то их надо объединять в словосочетания с соответствующими существительными. Например: «цифровые оптические диски». Такой метод выделения ключевых слов соответствует синтаксической структуре построения лексических единиц тезауруса. Это правило используется в том случае, если в тезаурусе отсутствует дескриптор, который бы соответствовал по смыслу выделенному словосочетанию.

  • Словосочетания естественного языка, используемые в качестве ключевых слов, выписываются в такой же последовательности, что и в документе. Например: «оптические читающие автоматы». Прямой порядок слов в словосочетании соответствует структурному построению тезауруса.

  • Словосочетания, отражающие принятые технические термины, выписываются как одно ключевое слово. Например: «системы двухосной ориентации» и т. д.

9.5.2. Формирование поискового образа документа с помощью тезауруса

Второй этап индексирования документов заключается в формировании поискового образа документа. Формирование поискового образа документа состоит в замене ключевых слов, отобранных в процессе смыслового анализа документа, дескрипторами тезауруса и составлении списка дескрипторов.

Первый этап перевода содержания документа на информационно-поисковый язык заключался в полном и точном отражении основных семантических аспектов документа с помощью ключевых слов. На втором этапе необходимо произвести процесс замены ключевых слов дескрипторами тезауруса, наиболее точно отразив понятия, выраженные ключевыми словами. Это позволит достичь наименьшего искажения содержащейся в документе информации при трансформировании документа в ПОД. От этого зависит эффективность информационно-поисковой системы, а также уменьшение потерь и шумов в процессе поиска.

Существует два этапа замены ключевых слов дескрипторами тезауруса: этап тождественных замен и этап нетождественных замен. На этапе тождественных замен осуществляется:

  • поиск дескриптора, тождественного данному ключевому слову по смысловому значению и по форме;

  • поиск дескриптора, тождественного по смысловому значению, но отличающегося по форме.

Эти операции позволяют с помощью дескрипторов точно отразить основную информацию, содержащуюся в документе.

На этапе нетождественных замен осуществляется поиск дескриптора среди всех имеющихся в тезаурусе, наиболее близкого по смысловому значению ключевому слову. Этому этапу характерно искажение смысловой информации, передаваемой ключевым словом.

Этап тождественных замен заключается в нахождении в лексико-семантической части тезауруса дескриптора, который бы точно совпал по названию и содержанию с соответствующим ему ключевым словом. Найденный дескриптор используется в поисковом образе документа. Такую замену можно считать тождественной.

Но не всегда ключевое слово может быть заменено соответствующим дескриптором, так как при полном совпадении наименований ключевого слова и дескриптора их содержание (смысл) может быть различно. В этом случае для выражения смысловой функции таких дескрипторов используются специальные примечания. Например:

НОРМЫ ПИТАНИЯ 0708

(Физиологически обоснованные нормы потребления раз­

личных пищевых веществ. В отношении нормирования

потребления пищевых продуктов использовать

ВОЕННЫЕ ПАЙКИ)

Ключевое слово «нормы питания» не может быть заменено одноименным дескриптором, если речь идет о нормировании распределения продуктов питания среди военнослужащих, так как этот дескриптор употреблен в тезаурусе в смысле определения норм потребления пищевых продуктов, необходимых для поддержания нормальной жизнедеятельности организма.

Эти примечания следуют за наименованием дескриптора.

Иногда смысловая функция дескриптора в тезаурусе определяется следующим образом:

ОПЕРА ТОРЫ (ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА) 0905

ОПЕРАТОРЫ (ЛИЧНЫЙ СОСТАВ) 0802

Если в тезаурусе отсутствуют ссылки или специальные пометы, которые поясняют область применения дескриптора, можно заменить им ключевое слово, определив смысловой состав дескрипторов, приведенных в его словарной статье. Например:

НАПРЯЖЕНИЯ 2908

ИВ Механические напряжения

ВД Допускаемые напряжения

Касательные напряжения

Механическая релаксация

Мгновенные напряжения

Нормальные напряжения

Радиальные напряжения

АД Нагрузки

Силы

Для замены ключевого слова «напряжение», которое употребляется в документе в значении «электрический потенциал», нельзя использовать дескриптор НАПРЯЖЕНИЕ (2908), так как его смысловая функция может быть установлена по составу дескрипторов в его словарной статье, даже если на нее нет ссылки или пометы.

Суть проведения тождественной по форме замены пары «ключевое слово – дескриптор» заключается в выявлении тождественности их смысловых значений. Кроме того, дополнительным критерием определения смысловой функции дескриптора тезауруса можно считать наименование дескрипторной группы, к которой отнесен этот дескриптор.

Иногда ключевому слову соответствует термин тезауруса, не являющийся дескриптором. Это объясняется тем, что данный термин эквивалентен какому-либо дескриптору, т. е. по значению они близки. В этом случае на помощь можно привлечь ссылку ИСП (использовать).

Эта ссылка расположена после этого термина и поясняет, какой дескриптор можно использовать вместо него. Такая ссылка может указывать на два и более дескриптора, которыми можно заменить данное ключевое слово. Например:

Выпуски

ИСП Периодические издания

и Продолжающиеся издания

Таким образом, при несовпадении смысловых значений ключевого слова и дескриптора, можно использовать один из описанных способов замены.

Кроме того, нужно иметь в виду, что отсутствие в тезаурусе дескрипторов, совпадающих с ключевыми словами по форме, не означает, что тезаурус не содержит термины, тождественные ключевым словам по смыслу. Русский язык позволяет отразить одно и тоже понятие разными языковыми формами. Множество дескрипторов в тезаурусе представлено словосочетаниями русского языка. Сложность заключается в том, что индексатор должен суметь отыскать дескрипторы, тождественные по смыслу ключевым словам документа, но выраженные другой словарной формой. Алгоритм замены ключевого слова заключается в следующем: сначала определяется синоним ключевого слова, похожий по своему лексическому составу, затем он должен быть заменен дескриптором, тождественным по наименованию. Например:

Ключевое слово Дескриптор

Двигатели для танков Танковые двигатели

Проведение такой замены осуществляется с помощью пермутационного указателя тезауруса. Если в ключевом слове и в терминах пермутационного указателя отсутствуют общие элементы, использовать указатель для разыскания нужного дескриптора практически невозможно. Чтобы осуществить такую операцию, индексатор должен быть специалистом в предметной области индексируемого документа.

Допустима и нетождественная замена ключевых слов дескрипторами, так как невозможно максимально точно отразить содержание абсолютно всех документов.

Проведение нетождественной замены сопровождается искажением информации, содержащейся в документе, поэтому необходимо соблюдать выработанные рекомендации, способствующие уменьшению искажения смысла этой информации.

1. При замене ключевого слова дескриптором по систематическому указателю тезауруса определяют дескрипторную область. Затем выделяют дескрипторную группу. В группе разыскивают дескриптор, наиболее близкий по смыслу данному ключевому слову.

Выбранный дескриптор используется в поисковом образе документа. Например, ключевое слово «высшие учебные заведения». В систематическом указателе нужно найти дескрипторную область, соответствующую предметной области данного ключевого слова: СОЦИАЛЬНЫЕ И СМЕЖНЫЕ НАУКИ. Затем внутри области найти дескрипторную группу ОБЩЕСТВЕННЫЕ НАУКИ,

КУЛЬТУРА И ИСКУССТВО. В этой группе – дескриптор УНИВЕРСИТЕТЫ. В результате получаем:

Ключевое слово Дескриптор

Высшие учебные заведения Университеты

Точность этого способа замены зависит не только от возможностей тезауруса, но и от объема знаний индексатором предметной области.

Дополнительным входом в тезаурус на этом этапе может служить пермутационный указатель.

2. При замене ключевого слова, выраженного словосочетанием, его раскладывают на синтаксические элементы, которые отражают содержание этого словосочетания.

Замена каждого элемента осуществляется, как правило, вышеописанным способом.

3. Если ключевое слово невозможно заменить описанными способами, т. е. не получается более-менее адекватно отразить понятие, используют дескриптор, который выражает более широкое (родовое) понятие.

Для поиска такого дескриптора могут привлекаться и систематический, и пермутационный указатели. Если вести поиск по систематическому указателю, надо начинать с определения дескрипторной области, а затем – группы. Например, ключевое слово «маскиро­вочные халаты» заменяется дескриптором МАСКИРОВОЧНАЯ ОДЕЖДА, так как в тезаурусе нет дескрипторов, близких по значению всему словосочетанию.

Результаты выполнения смысловых преобразований, как правило, оформляются в виде специального «перечня замен» (алфавитного списка терминов естественного языка с отсылкой к более близким им по значению дескрипторам тезауруса). Этот перечень поможет индексировать понятия, не вошедшие в тезаурус, но имеющие важное поисковое значение. Помимо этого, выполнение замен помогает расширить поисковый образ документа с помощью родовых связей дескрипторов тезауруса, так как в поисковый образ вместе с основным дескриптором, установленным в результате замены ключевого слова, выписываются все родовые дескрипторы, вошедшие в его словарную статью в лексико-семантической части тезауруса.