Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1228
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.2. Информационно-поисковый тезаурус (ипт)

9.2.1. Структура ипт

Международное сотрудничество в области обмена информацией предполагает использование системы тезаурусов, построенных по единым принципам, единой методике их построения и правил пользования ими.

Правила разработки, структура, состав и форма представления ИПТ зафиксированы в ГОСТ 7.25–80 «Тезаурус информационно- поисковый одноязычный. Правила разработки, структура, состав и форма представления». Этот стандарт – часть Системы стандартов по информации, библиотечному и издательскому делу (СИБИД).

При разработке ГОСТа учитывались рекомендации международной организации по стандартизации (ИСО).

Обязательная составная часть ИПТ – введение. Применительно к первому изданию оно должно содержать следующие сведения: цель создания, область применения ИПТ, правила пользования им, количественную характеристику тезауруса (число дескрипторов, ключевых слов и т. д.), перечень публикаций, связанных с данным ИПТ, методические указания и другие фактические данные.

Во введение ко второму и последующим изданиям должно быть: обоснование необходимости переиздания и указания на изменения, внесенные в данный тезаурус.

Словарная часть тезауруса обязательно должна включать алфавитный перечень (указатель) всех дескрипторов (сопровождаемых дескрипторными статьями) и ключевых слов, входящих в тезаурус.

В качестве дополнительных элементов словарной части могут быть: систематический, указатель иерархических отношений, пермутационный и другие указатели (входы). Может быть включен перечень (перечни) идентификаторов.

Алфавитный указатель – это алфавитный перечень дескрипторов с их статьями и недескрипторов (ключевых слов, аскрипторов, нондескрипторов) с указанием парадигматических отношений между ними.

Дескриптор – лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов.

Аскриптор, недескриптор, нондескриптор – лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним и несколькими заменяющими ее дескрипторами.

Тезаурусная статья (дескрипторная статья) – элемент лексико-семантического указателя ИПТ, состоящий из дескриптора или нондескриптора и всей информации, относящейся к нему.

Дескрипторная статья раскрывает содержание и парадигматические (внеконтекстные) отношения данного дескриптора.

Алфавитный указатель (лексико-семантическое собрание терминов) – основной раздел тезауруса. В нем отражены значение и связи каждого термина.

Чтобы избежать рассеивания однородной информации и облегчить поиск терминов, связанных определенными отношениями, их объединяют в классы условной эквивалентности (по смыслу). Ими могут быть:

  • отношение равнозначности, при котором объемы понятий, выраженных данными терминами, полностью совпадают – абсолютные синонимы (методы – способы);

  • отношение перекрещивания, при котором часть объема одного понятия входит в объем другого понятия и часть объема второго понятия входит в объем первого понятия (сопротивление воздуха – лобовое сопротивление);

  • отношение подчинения, при котором объем одного понятия составляет часть объема другого понятия (термины – дескрипторы).

Из терминов класса условной эквивалентности выбирается один в качестве дескриптора для обозначения этого класса. Дескриптор служит способом выражения основного значения всех слов и словосочетаний, которые входят в этот класс.

Остальные члены класса условной эквивалентности считаются условными синонимами этого дескриптора и связываются с ним с помощью отсылочных помет ИСП (использовать) и ИВ (использовать вместо).

Словарные статьи алфавитного указателя содержат следующие ссылки:

  • с. (синоним) – обозначение ключевого слова – аскриптора, синонимичного дескриптору;

  • см. (смотри) – ссылка от ключевого слова – аскриптора к соответствующему дескриптору;

  • в. (выше) – ссылка на родовые дескрипторы (стоящие иерархически выше по отношению «род – вид»);

  • н. (ниже) – ссылка на видовые дескрипторы;

  • а. (ассоциация) – ссылка на ассоциативные дескрипторы, т.е. такие, которые находятся с основным в одном из видов ассоциативных отношений;

  • ик. (использовать комбинацию) – ссылка на два или более дескриптора, которые следует использовать вместо данного;

  • отд. (отдельно имеется в словаре) – ссылка на отдельно введенные в ИПТ целостные словосочетания, включающие данное слово.

Перечень ссылок, используемых при разработке различных ИПТ, может быть шире. Этот перечень, как правило, постоянная составляющая часть словарных статей алфавитного указателя.

ГОСТ 18383–73 предусматривает следующий порядок расположения элементов дескрипторной статьи:

  • заглавный дескриптор (выделяется при помощи шрифта, например, заглавными буквами);

  • ключевые слова, которые следуют за индексом «с» (синоним);

  • дескрипторы, подчиняющие заглавный, следуют за индексом «в» (выше);

  • дескрипторы, подчиненные заглавному, следуют за индексом «н» (ниже);

  • дескрипторы, ассоциированные с заглавным, следуют за индексом «а» (ассоциация).

Внутри каждой группы термины располагаются по алфавиту. Например:

Юридические аспекты

см. ЮРИСПРУДЕНЦИЯ

ЮРИСПРУДЕНЦИЯ

с право

правоведение

юридические аспекты

в ОБЩЕСТВЕННЫЕ НАУКИ

н АВТОРСКОЕ ПРАВО

ПАТЕНТНОЕ ПРАВО

а ЗАКОНОДАТЕЛЬСТВО

ПРАВОВЫЕ ВОПРОСЫ СТРАХОВАНИЕ

ЮРИДИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ

Чтобы определить границы дескрипторной статьи, заглавный дескриптор располагают со сдвигом влево.

При многозначности или омонимии дескрипторов делают пометы с указанием предметной области, к которой относится данный термин. Пояснения приводятся в скобках рядом с дескриптором, они являются его частью. Например:

Кошки (механизмы)

Кошки (животные)

Если пояснение не может адекватно передать подразумеваемое значение, дескриптор сопровождается более пространным пояснением, которое располагается под дескриптором и не является его частью, а только указывает, каким образом следует применять данный дескриптор.

Например:

ПЛАВАЮЩИЕ ТЕЛА 2907

(Обычные тела, плавающие на поверхности жидкости.

Исключение составляет специальное оборудование,

например плавучести, поплавки, понтоны,

корпуса летающих лодок, спасательные плоты и др.)

Словарная статья аскриптора должна включать знак «см.» на соответствующий дескриптор и при необходимости ссылку «отд.», которая может служить причиной введения элементов пермутационного словаря.

Лексические единицы в алфавитном указателе располагаются в строгом алфавитном порядке – без пробелов, дефисов, скобок и других символов. Рекомендуется побуквенный («буква за буквой») порядок расположения терминов, который не учитывает пробелы между словами.

Алфавитная часть тезауруса – обязательна, так как обеспечивает перевод с естественного языка на дескрипторный. В алфавитном указателе совмещается несколько планов организации ИПТ:

  • русско-дескрипторный словарь, задающий переводы ключевых слов на ИПЯ;

  • дескрипторно-русский, задающий переводы с ИПЯ на русский язык;

  • указатель парадигматических отношений между дескрипторами.

Алфавитный указатель считается основным входом в тезаурус; остальные – дополнительными. Важнейшее поисковое значение среди дополнительных указателей имеет систематический указатель дескрипторов.

Перечень (перечни) идентификаторов помещают после алфавитного лексического перечня дескрипторов и ключевых слов. Идентификатор – имя собственное, используемое как дескриптор (ГОСТ 7.74–96). Оно может быть, например, именем проекта, лица или группы, фирменным наименованием, географическим названием, аббревиатурой или сиглой. Например:

Дескриптор: Идентификаторы:

АВТОМОБИЛЬ «Волга»

«Жигули»

«Москвич»

Систематический, пермутационный и другие указатели (входы) располагаются после перечня (перечней) идентификаторов.

Систематический указатель. Среди дополнительных указателей важнейшее поисковое значение имеет систематический указатель дескрипторов. Он предназначен для облегчения поиска нужных терминов при составлении поисковых образов документов и запросов.

Систематический указатель ИПТ: вспомогательная часть информационно-поискового тезауруса, в которой перечень лексических единиц построен согласно принятой классификации понятий соответствующей отрасли знания (ГОСТ 7.74–96).

Систематический указатель определяет тематический профиль тезауруса. В нем отражаются те отрасли науки и техники, по которым можно вести поиск информации с определенной глубиной и точностью. Систематический указатель составляется в целях распределения терминов по отраслям знания, в которых они применяются. Систематический указатель дескрипторов имеет трехступенчатую структуру: дескрипторные области, дескрипторные группы, дескрипторы. Он состоит из следующих частей:

Пронумерованный алфавитный список дескрипторных областей. Например:

01 Авиация

02 Автобронетанковая техника. Наземные средства передвижения и транспортировки

03 Артиллерия

04 Безопасность и аварии

05 Биология

и т. д.

Пронумерованный алфавитный список дескрипторных областей с входящими в них дескрипторными группами. Например:

01 Авиация

0101 Авиационные конструкции

0102 Авиация

0103 Аэродинамика и динамика полета

0104 Аэродинамические формы

0105 Базирование авиации, оборудование аэродромов

106 Оборудование летательных аппаратов и т. д.

Пронумерованный список дескрипторных областей с входящими в них дескрипторными группами и дескрипторами, относящимися к каждой группе. Например:

0102 Авиация

Авиация

Автономный полет

Бафтинг

Бреющий полет

Вертикальный взлет и т. д.

Дескрипторные области – это широкие тематические классы, которые охватывают все основные отрасли науки и техники. В свою очередь, дескрипторные области разделяются на более узкие предметные подклассы – дескрипторные группы.

Дескрипторные группы состоят из алфавитного перечня дескрипторных областей, в которых под названием каждой области приведен список входящих в него дескрипторных групп. Дескрипторные группы в каждой области расположены также в алфавитном порядке. Каждой группе присвоен номер, первые цифры которого указывают номер дескрипторной области, а последние – порядковый номер дескрипторной группы внутри данной области.

В дескрипторную область входит от двух до двадцати и более дескрипторных групп.

Дескрипторные области и группы расположены так, что под названием каждой группы приведен список дескрипторов, входящих в эту группу. Внутри группы дескрипторы расположены по алфавиту. Объединение дескрипторов в предметный класс в систематическом указателе производится в основном по одному наиболее существенному признаку – на основе общих отношений между предметами, невзирая на принадлежность их к одной классификационной схеме, отражающей родовидовые отношения. В связи с этим каждый дескриптор входит только в одну дескрипторную группу и область. Но для того чтобы облегчить выбор дескрипторов, точно соответствующих смысловому содержанию документов или информационному запросу, некоторые дескрипторы могут быть включены более чем в одну дескрипторную группу. Например, все металлы входят в две группы: «1306 Металлы» и «3003 Химические элементы».

Указатель иерархических (родовидовых) отношений. Данный указатель используется в том случае, когда нужно найти все родовые или видовые дескрипторы определенного дескриптора, для которого известен общий родовой дескриптор. Кроме того, указатель иерархических отношений дает точное представление о структуре парадигматических отношений, принятых в ИПТ между дескрипторами. Основные входы указателя выражены дескрипторами, стоящими на верхней ступени иерархического дерева и имеющими не менее двух уровней нижестоящих дескрипторов. Остальные дескрипторы «находят» подчиненные термины в алфавитной части тезауруса. Уровень подчинения в иерархическом дереве обозначают точками. Точки ставят перед подчиненными дескрипторами. Иерархические деревья представлены в указателе алфавитом дескрипторов – вершинами иерархии. Каждый следующий уровень представлен алфавитным порядком следования дескрипторов. Например:

Алкалоиды

. Алкалоиды белладонны

.. Антиспазматические средства

... Атропин

.. Скополамин

. Алкалоиды кураре

. Алкалоиды опия

.. Морфин

. Алкалоиды хинной коры

. Индоловые алкалоиды

.. Алкалоиды раувольфии

.. Алкачоиды спорыньи

... Резерпин

. Морфин

. Мускарин

Семейства дескрипторов расположены по алфавиту своих заглавных дескрипторов. Внутри иерархического дерева порядок расположения дескрипторов, стоящих на одном уровне, также алфавитный.

Указатель иерархических отношений дескрипторов может быть использован в основном при создании более детальных частных тезаурусов по различным направлениям для дальнейшего развития и дополнения конкретного тезауруса в процессе работы информационно-поисковой системы, а также в отдельных наиболее трудных случаях индексирования информационных запросов.

Пермутационный указатель. Если ИПТ содержит большое количество словосочетаний, рекомендуется создать пермутационный указатель. В словаре, содержащем мало словосочетаний, вместо пермутационного указателя достаточно ввести ссылки «отд.». Пермутационный указатель (от слова «пермутация» – перестановка) – разновидность предметного указателя, в котором каждый компонент записи (заглавия документа, предметной рубрики, словосочетания) выносится поочередно на первое место в алфавитном ряду, сохраняя в то же время связь с контекстом записи. За каждым словом перечисляются те дескрипторы (ключевые слова), частью которых является это слово. Условные синонимы обозначаются с помощью поставленной перед ними точки. Например:

Аварии

. Аварии автотранспорта

Аварии воздушных летательных аппаратов

Аварии реакторов

. Аварии самолетов

Авиационные аварии

Морские аварии

В ГОСТ 7.74–96 зафиксировано следующее определение пермутационного указателя: «Указатель, в котором в алфавитном порядке перечислены все отдельные слова – компоненты словосочетаний, обозначающих дескрипторы, и для каждого из них указаны все дескрипторы, в состав которых входят эти слова».

Пермутационный словарь используется для того, чтобы найти ту словарную форму, в которой ключевое словосочетание встречается в лексико-семантическом указателе. С помощью пермутационного указателя можно разыскать более общие или родственные КС для ключевых словосочетаний, не имеющихся в ИПТ.

Современные АИС (АИБС) реализуют возможность поиска по любым словам текста путем построения перечней (индексных файлов), в которые автоматически включаются все словоформы ключевых слов (слов и словосочетаний) из библиографических, фактографических и других записей, включаемых в базу данных. В большинстве систем возможен поиск по произвольным сочетаниям этих словоформ и их частей.

Информационно-поисковым тезаурусам присваиваются обозначения, состоящие из регистрационного номера и двух последних цифр года издания. В нашей стране регистрацию тезаурусов осуществляет Всероссийский институт научной и технической информации (ВИНИТИ).

Содержание, объем и форма тезауруса постоянно должны корректироваться в соответствии с изменениями, происходящими в обслуживаемой им области науки, техники, производства. В связи с этим существует специальный технологический процесс, называемый ведением словаря. Он состоит в сборе и обобщении данных об использовании дескрипторов ИПТ, а также в выработке предложений по вводу и изъятию терминов, корректировке парадигматических отношений и т. п.