Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1203
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.3. Методика разработки информационно-поискового тезауруса

Разработка информационно-поискового тезауруса включает несколько этапов:

  • построение словаря (словника) ключевых слов;

  • дескрипторизация ключевых слов;

  • установление парадигматических отношений между дескрипторами;

  • оформление тезауруса.

Разработка тезауруса требует исследования системы и логики знаний тех областей, которые найдут отражение в нем. Терминология, которая будет использована в тезаурусе, должна быть полной, однородной и охватывать все основные тематические группы. В свою очередь, тематические группы могут быть расширены в целях охвата смежных проблем. При отборе массива документов необходимо соблюдать:

  • точное соответствие документов тематической направленности работы;

  • полный охват каждой области знаний, а также равномерное распределение их по отдельным тематическим областям как по характеру документов, так и по их количеству;

  • терминологическую насыщенность информационных документов и степень важности содержащейся в них информации;

  • освещение тематики с учетом различных аспектов (материалов исследований, сведений об устройстве, применении и т. д.).

Критериями количественных и качественных параметров представительного массива документов и словника являются:

  • скорость роста массива документов и словника;

  • дифференцированность и устойчивость частотных характеристик элементов;

  • процентное содержание в словнике специальных, общих и смежных терминов;

  • вероятность использования элементов словника при индексировании и поиске документов.

Процесс создания тезауруса включает научную разработку классификационных схем понятий и выявление терминологического фонда из представительного фонда информационных документов. Кроме того, предполагается дополнение его терминами, которые позаимствованы из вспомогательных источников:

  • тезаурусов по родственной тематике;

  • терминологических и толковых словарей;

  • энциклопедических словарей;

  • научно-технических словарей и справочников;

  • таблиц универсальной десятичной (децимальной) классификации (УДК);

  • тематических рубрикаторов;

  • библиотечно-библиографической классификации (ББК);

  • государственных стандартов и других источников

9.3.1 Составление словаря ключевых слов

Составление словаря ключевых слов происходит путем отбора из заглавий, аннотаций, рефератов и текстов документов слов естественного языка, которые могут использоваться в поисковых образах документов (ПОД) и поисковых предписаниях (ПП). Важ­нейшим требованием к словарю ключевых слов является полнота охвата терминологии, так как в тезаурус включают терминологию, фигурирующую в документах, вводимых в ИПС. Таким образом, в тезаурусе могут отсутствовать термины, требующиеся для описания содержательных или формальных аспектов вводимых в ИПС текстов. Такой тезаурус может оказаться недостаточно полным. Существует прямая зависимость работоспособности тезауруса от методики индексирования документов. Процесс индексирования заключается в следующем:

  • составление мысленной аннотации, в которой отражаются основные и второстепенные темы документа, представляющие интерес для пользователей ИПС;

  • выбор из этой аннотации ключевых слов.

Составление поисковых аннотаций считается творческим процессом, поэтому результат этого процесса в той или иной мере зависит от субъективных качеств индексатора. Результат обработки одного и того же документа разными индексаторами может быть различным. Для того чтобы предотвратить расхождения в индексировании, необходимо стандартизировать построение поисковых образов. Для того чтобы отделить ключевые слова от «неключевых» (не подлежащих вводу в тезаурус), индексаторы используют общие методические указания:

  • служебные слова (предлоги, союзы, частицы и т. д.) следует считать неключевыми;

  • в качестве ключевых слов могут выступать существительные, прилагательные, числительные, причастия и их сочетания, наречия, деепричастия и местоимения в состав ключевых слов не входят, глаголы – очень редко;

  • не следует включать в словарь ключевых слов термины, которые очень редко встречаются в данном документном массиве, их можно учесть в отдельном списке в роли ключевых слов-кандидатов;

  • часто встречающиеся, но общие термины («метод», «система», «описание», «устройство» и т. п.) надо либо исключить, либо использовать в сочетании с другими словами, которые сузили бы их значение;

  • не имеет смысла включать в словарь термины, не относящиеся к данной терминологической области;

  • полисемичные термины могут быть включены только в тех значениях, в которых они употребляются в данной тематической области, с соответствующими пояснениями.

После того как произведен отбор ключевых слов из текстов, необходимо решить вопрос об их формулировке.

Существует два подхода к этой проблеме:

  • ориентироваться на ключевые слова – развернутые словосочетания. Например: «коммерческие информационные службы»;

  • ориентироваться на ключевые слова – унитермы (отдельные лексические единицы). Например: «оформление», «механика», «логика».

В зависимости от того, какой подход будет использован при формулировке ключевых слов, результат будет разным, т. е. будут получены различные словари ключевых слов, а значит и различные дескрипторные языки. «Унитермная» ориентировка через свободную манипуляцию элементами поисковых образов обеспечит глубокое и детальное индексирование и увеличит количество точек доступа к разыскиваемым документам. Но разделение устойчивых словосочетаний, которые соответствуют определенным научно- техническим понятиям, грозит потерей информации при поиске. Суть заключается в том, что определенные понятия не всегда могут быть выражены единичным термином. Иными словами, ключевые слова, включаемые в словарь, принимают с учетом точки зрения интересов поиска информации для каждого ключевого слова отдельно и с учетом их лексикографической обработки.

Решение о разделении или сохранении словосочетаний или сложных слов принимают с учетом лингвистических и прагматических критериев. В лингвистике словосочетания делятся на свободные и устойчивые (лексиколизованные) словосочетания. Свободные словосочетания характерны устной речи. Устойчивые словосочетания являются цельными лексическими единицами языка и по своим функциям эквивалентны отдельным словам. Для координатного индексирования рекомендуется вводить в качестве ключевых слов устойчивые словосочетания. При формировании словника ключевых слов руководствуются лингвистическими критериями. Словосочетание является устойчивым, если:

  • при его образовании одно из слов изменяет свое значение – происходит переосмысление одного из компонентов словосочетания. Например: «легкая музыка», «легкая промышленность» (переосмысливается прилагательное «легкий»);

  • употребляется в единственном или во множественном числе. Например: «немецкий язык», «европейские языки»;

  • имеет один или несколько синонимов. Например: «перспективы» = «будущее» = «перспективы развития» = «тенденции».

— при замене составляющих его слов, изменении порядка слов в нем или при преобразовании прилагательного в существительное с предлогом потеряется его смысл. Например: «железная дорога».

К устойчивым словосочетаниям относят имена собственные или словосочетания, включающие имена собственные. Например: «Латинская Америка», «Таблица Менделеева».

Если словосочетания соответствуют этим критериям, они считаются устойчивыми.

На решение о сохранении словосочетаний влияют и прагматические соображения:

— рекомендуется сохранять часто встречающиеся словосочетания;

— рекомендуется сохранять словосочетания, если их компоненты не могут использоваться по отдельности;

— рекомендуется сохранять словосочетания как способ устранения информационного шума.

Таким образом, разработчикам тезауруса следует ориентироваться на единичные ключевые слова, сохраняя устойчивые словосочетания, удовлетворяющие выше приведенным лингвистическим и прагматическим критериям.