Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
636
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

политематическими и удаляются из поисковых образов документов и запросов.

Словарь стоп-слов может использоваться как при построении частотных словарей, так и при разборе выражения информационной потребности на ИПЯ. Запрещенные термины не заносятся в словарь. Таким образом, неинформативные термины автоматически исключаются из поискового процесса.

4.2. Иерархические терминологические структуры

Иерархическая организация терминов или понятий, подобная схеме библиотечной классификации, позволяет для данного входа словаря найти более широкое понятие, перемещаясь вверх по схеме, или более узкое, перемещаясь вниз по схеме. Иерархические терминологические структуры отражают отношения «род-вид» или «часть-целое».

Указатель иерархических отношений терминов может быть создан только после решения проблемы классификации понятий. Он разрабатывается на основе классификационных схем понятий, поскольку фактически в иерархическом указателе находят отражение иерархические цепочки подчинения понятий, зафиксированные в классификационных схемах. В качестве основных входов этого указателя выбираются те заглавные термины, которые не имеют родовых дескрипторов (т. е. стоят на верхней ступени иерархического дерева) [1].

Иерархические классификационные структуры. К таким структурам относятся различные рубрикаторы и классификаторы, фиксирующие подчинение терминов в определенной предметной области (например, рассмотренный ранее рубрикатор ГРНТИ, рубрикатор ВИНИТИ и др.)

На рис. 4.2 приведен фрагмент Рубрикатора ВИНИТИ для заглавной рубрики «201 Информатика». Рубрикатор ВИНИТИ является локальным (отраслевым) по отношению к Государственному рубрикатору НТИ и отличается большей детализацией рубрик с развитием на глубину до восьмого уровня.

131

201.01Общие вопросы информатики

201.01.04Информатизация общества. Информационная политика

201.01.07Теория и методология информатики

201.01.07.03Предмет и об'екты исследования информатики

201.01.07.03.03Информация как знание

201.01.07.03.07Научная коммуникация

201.01.07.03.11Информационная деятельность

201.01.07.06Методы информатики

201.01.07.06.03Наукометрический анализ

201.01.07.06.05Семиотический подход

201.01.07.06.07Кластерный анализ

201.01.07.06.09Теория информации

201.01.07.06.11Эвристические методы

201.01.07.06.13Системный подход

201.01.07.06.15Моделирование

201.01.07.06.99Другие методы

201.01.07.08Проблемы информатики

201.01.07.08.03Взаимосвязи данных,

информации и знания 201.01.07.08.05 Представление знаний 201.01.07.08.07 Разработка классификаций

Рис. 4.2. Фрагмент Рубрикатора ВИНИТИ

Словарь синонимов. Словарь синонимов, который для каждого входа словаря определяет одну или более синонимичных категорий, также с точки зрения своей структуры может быть отнесен к иерархической организации терминов. Такие словари широко используются при индексировании, а также позволяют искать не только по запрошенному слову, но и по его синонимам.

Ниже приведен фрагмент словаря синонимов для области «Информатика».

ЭФФЕКТИВНОСТЬ ПОИСКА информационная эффективность техническая эффективность эффективность информационного поиска ЮНИСИСТ

132

Всемирная система научной и технической информации ЮРИДИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ юридическая практика ЮРИСПРУДЕНЦИЯ право правоведение

юридические аспекты ЯДЕРНАЯ ФИЗИКА ядерная энергия ЯЗЫКИ подъязыки языковые системы

ЯЗЫКИ МАНИПУЛИРОВАНИЯ ДАННЫМИ ЯМД процедурные языки манипулирования данными

ЯЗЫКИ ОПИСАНИЯ ДАННЫХ ЯОД ЯЗЫКИ-ПОСРЕДНИКИ ЯП

ЯЗЫКИ ПРОГРАММИРОВАНИЯ машинно-зависимые языки машинно-независимые языки машинно-ориентированные языки машинные языки проблемно-ориентированные языки процедурно-ориентированные языки

Иерархическая организация терминов. В основу построе-

ния тематических словников двухуровневой иерархической структуры, которые в дальнейшем могут рассматриваться как исходные для формирования проблемно-ориентированных мини-тезаурусов, положено ранжирование терминов. При использовании таких структур происходит существенное сокращение необходимого терминологического пространства без ущерба для полноты тематического охвата.

При формировании мини-тезаурусов используется лексика представительной подборки документов из рассматриваемой предметной области. Для выбора терминов первого уровня (заглавных) используются формальные оценки, позволяющие вы-

133

явить так называемые «ядерные» для темы термины. Второй (и при необходимости – последующие) уровень составляют термины, присоединенные к заглавным терминам по принципу включения лексических единиц заглавного термина.

Приведем фрагмент иерархического словника для предметной области «Информационно-поисковые языки»:

АВТОМАТИЗАЦИЯ АВТОМАТИЗАЦИЯ ВЕДЕНИЯ

АВТОМАТИЗАЦИЯ ПОДГОТОВКИ АВТОМАТИЗИРОВАННОЕ ВЕДЕНИЕ АВТОМАТИЗИРОВАННЫЕ БИБЛИОТЕЧНЫЕ СИСТЕМЫ АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ АВТОМАТИЗИРОВАННЫЕ ИПС АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ДОКУМЕНТОВ

АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ АВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ

ПОЛУАВТОМАТИЧЕСКОЕ ПОСТРОЕНИЕ АВТОМАТИЧЕСКОЕ СОСТАВЛЕНИЕ АКТУАЛИЗАЦИЯ АЛГОРИТМЫ АНАЛИЗ

АНАЛИЗ ДАННЫХ АНАЛИЗ ДОМЕНОВ АНАЛИЗ СОДЕРЖАНИЯ АНАЛИЗ ТЕКСТА

ИСКРИМИНАЦИОННЫЙ АНАЛИЗ ДИСПЕРСИОННЫЙ АНАЛИЗ ИНФОРМАЦИОННЫЙ АНАЛИЗ КАТЕГОРИАЛЬНЫЙ АНАЛИЗ КЛАСТЕРНЫЙ АНАЛИЗ ОЦЕНКА И АНАЛИЗ ХАРАКТЕРИСТИК ПРОБЛЕМЫ АНАЛИЗА

СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ СЕМАНТИЧЕСКИЙ АНАЛИЗ СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР СИСТЕМНЫЙ АНАЛИЗ СРАВНИТЕЛЬНЫЙ АНАЛИЗ СТАТИСТИЧЕСКИЙ АНАЛИЗ

134

ТАКСОНОМЕТРИЧЕСКИЙ АНАЛИЗ ФАСЕТНЫЙ АНАЛИЗ ЧИСЛЕННЫЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫЙ АНАЛИЗ

4.3. Терминологические структуры с сетевой организацией

Наиболее употребительными формами информационного представления знаний в сетевой структуре являются тезаурусы и онтологии.

Тезаурусы

Основными представителями сетевых терминологических структур являются тезаурусы.

Весь окружающий мир можно рассматривать как множество, состоящее из двух элементов: предметов и их отношений. Этот реально существующий мир отражается в сознании человека в форме взаимосвязанных понятий, т. е. в такой форме мышления, при которой в сознании фиксируются только существенные связи и признаки предмета.

Все понятия естественного языка, служащие для описания окружающего мира, входят во всеобщий тезаурус, отражающий весь универсум знаний. Такой тезаурус представляет собой список понятий, выраженных на естественном языке, с обозначением отношения между ними.

Всеобщий тезаурус можно подразделить на частные тезаурусы путем выделения совокупности однородных понятий по их иерархическому уровню или путем выделения понятий, которыми можно описать какую-либо специфическую часть мира. Таким образом, на основе всеобщего тезауруса можно составить бесконечное множество тезаурусов по различным областям знаний, по отдельным проблемам и задачам.

Термин тезаурус достаточно древнего происхождения. Впервые его применил в значении, близком сегодняшнему, еще в тринадцатом столетии Брутто Латини в заголовке своего труда – систематизированной энциклопедии «Книга о сокровище». Особенно большую известность получил тезаурус, составленный в

135

1852 г. англичанином Роджетом «для облегчения выражения мыслей и помощи при написании сочинений» [3].

Тезаурус может быть представлен как семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род-вид, целоечасть), ассоциативными, а также отношениями эквивалентности. При этом отдельное понятие определенной области знаний в тезаурусе представлено словом или словосочетанием, соотносящимся с другими словами и словосочетаниями и образующим вместе с ними замкнутую систему [3].

Иерархические отношения в тезаурусе представляют собой классификацию, основанную на словах естественного языка, а не на абстрактных категориях, поэтому нарушается правильная структура дерева – один и тот же термин может иметь несколько «родителей» – вышестоящих терминов на предыдущем уровне.

Например, в Тезаурусе по информатике [11] словосочетание

Автоматизированная обработка информации имеет два вышестоящих родителя: Автоматизированная обработка и Обработка информации, а слово Буквы – целых три родителя: алфавиты, символы, буквенно-цифровая информация.

Тезаурус, отображая возможные семантические связи терминов, представленных в БД, является идеальным лексическим инструментом информационно-поисковых систем, с помощью которого можно найти необходимую лексику для составления запросов или их модификации с целью достижения наилучших показателей эффективности поиска.

Информационно-поисковые тезаурусы. Информационно-

поисковые тезаурусы позволяют решить проблему соотнесения:

-авторской терминологии (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);

-терминологии системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);

-терминологии потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

136

Таким образом, тезаурус выступает как средство уменьшения семантического расстояния между выражением тематики документа и поисковым запросом.

Как сказано выше, являясь лексическим инструментом ин- формационно-поисковых систем, тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь исчерпывающим образом покрывает некоторую специфическую область знаний и представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Кроме этого между лексическими единицами заданы смысловые отношения как иерархического (родо-видового), так и неиерархического типа (ассоциативного).

Лексическая единица (ЛЕ) информационно-поискового тезауруса – выбранное для использования в тезаурусе слово, словосочетание или лексически значимый компонент сложного слова естественного языка.

Дескриптор – лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов.

Аскриптор (недескриптор) – лексическая единица, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Соответственно, информационно-поисковые тезаурусы подразделяют на два типа:

1)тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

2)тезаурусы, все лексические единицы которых являются дескрипторами.

Тезаурус по атомной науке и технике. Рассмотрим основ-

ные определения и виды связей, обозначаемых в тезаурусах, на примере информационно-поискового «Тезауруса по атомной науке и технике» в САРИ.

Лексические единицы тезауруса поделены на дескрипторы (графически выделенные написанием прописными буквами) и ключевые слова – недескрипторы (написание строчными буквами).

Ключевые слова – термины естественного языка (слова или словосочетания), служащие для точного обозначения понятий оп-

137

ределенной предметной области (предметов, явлений, свойств, отношений, процессов и т.д.). Термины, являющиеся абсолютными или условными синонимами (в рамках данной предметной области), объединяются в классы условной эквивалентности.

Один из терминов класса условной эквивалентности выбирается в качестве дескриптора. Он обозначает данный класс и выражает основное значение всех слов и словосочетаний, входящих в него.

Дескрипторы – нормализованные термины естественного языка. Каждое ключевое слово, не являющееся дескриптором, но входящее в тот или иной класс условной эквивалентности, имеет отсылку к соответствующему дескриптору.

ЛЕ нормализованы следующим образом:

-имена существительные, обозначающие исчисляемые предметы, представлены в форме именительного падежа множественного числа;

-существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственного числа;

-для всех словосочетаний-дескрипторов, включая словосочетания с именем собственным, используется естественный (прямой) порядок слов.

Тезаурус содержит более 65 000 лексических единиц. Каждый дескриптор снабжен словарной статьей, отражающей его парадигматические отношения.

Втезаурусе приняты три вида парадигматических отноше-

ний:

-тождество (синонимия);

-подчинение (иерархические родо-видовые отношения);

-сходство (ассоциативные отношения).

Под родо-видовыми отношениями понимаются иерархические отношения между понятиями, обозначающими классы предметов, такие, что родовое понятие отражает существенные признаки всех видовых понятий, а видовое понятие содержит все признаки родового понятия, а также отражает конкретные свойства предмета или явления, выраженного этим видовым понятием.

138

Ассоциативные отношения – смысловые отношения дескрипторов типа часть-целое, причина-следствие, производительобъект и т.п.

Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрипторов и ключевых слов, связанных с заглавным дескриптором парадигматическими отношениями. В словарных статьях используются перекрестные ссылки, т.е. термины, содержащиеся в словарной статье дескриптора, должны иметь этот дескриптор в своих словарных статьях.

В дескрипторной статье лексические единицы располагаются в следующем порядке:

-заглавный дескриптор;

-ключевые слова, условно синонимичные заглавному дескриптору;

-вышестоящие дескрипторы (иерархически подчиняющие

понятия);

-нижестоящие дескрипторы (иерархически подчиненные

понятия);

-дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений.

При записи дескрипторной статьи применяются условные обозначения.

Ключевое слово, не используемое в качестве дескриптора, снабжается символом «-» (знак минус).

Отсылка от ключевого слова к дескриптору обозначается сокращением «исп.» (англоязычный вариант – USE), например:

температура абсолютного нуля

USE температура абсолютного нуля

Обозначение «см.» отсылает от ключевого слова к одному из перечисленных за ним дескрипторов (англоязычный вариант –

SEE):

теория биденхарна-роуза

SEE угловая корреляция SEE угловое распределение

Если в дескрипторной статье необходимо задать ключевое слово, вместо которого должен использоваться заглавный дескрип-

139

тор, применяется условное обозначение «исп. вместо» (англоязычный вариант – UF). Отсылка «см. вместо» (англоязычный вариант

SF) задает ключевое слово, вместо которого может использоваться заглавный дескриптор, например:

ТЕМПЕРАТУРА АБСОЛЮТНОГО НУЛЯ

UF температура абсолютного нуля RT диапазон температуры

RT криогенная техника

ЯДЕРНОЕ ОРУЖИЕ

UF атомное оружие

UF атомные бомбы

UF термоядерное оружие

UF ядерное нападение SF проект тамблер

RT гражданская оборона

RT договор паротонга

RT договор тлателолко

RT испытательный полигон шт. невада RT локальные выпадения

RT манхэттенский проект RT нагасаки

RT национальная оборона

RT политика нераспространения ядерного оружия RT проект кастл

RT проект пламббоб

RT проект редвинг

RT проект типот

RT противоракетная оборона

RT радиоактивные выпадения RT снаряды

RT убежища

RT хиросима RT ядерная зима

RT ядерное разоружение RT ядерные взрывы

Дескриптор, являющийся в иерархическом отношении вышестоящим (родовым) по отношению к заглавному дескриптору, снабжается в словарной статье условным обозначением «РТ» (англоязычный вариант – ВТ). Если дескриптор является родовым для

140

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]