Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
39
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

Устранение синонимии.

В целях устранения синонимии в списках, отобранных для ИПЯ ключевых слов, осуществляется группировка этих ключевых слов по смысловому признаку. Таким образом формируются классы, называемые семантическими рядами. В каждом классе выделяют один доминантный термин и его именем называют класс. Все слова, входящие в этот класс будут определяться как синонимы доминанта.

При такой обработке состав каждого класса различен, так как в языке абсолютной эквивалентности не существует  не существует понятия абсолютных синонимов  при построении дескрипторов языка используют принцип условной эквивалентности (близкие по значению термины).

Каждый класс – класс условной эквивалентности, доминанта такого класса отражает главное значение всех слов и словосочетаний класса, называется дескриптором  дескриптор предназначен для координатного индексирования документов и запросов. Нормативные ключевые слова отобраны из основного словарного состава ИПЯ, у которого искусственно устранены все проявления многозначности.

Дескрипторный язык – язык, словарный состав которого состоит из дескрипторов, а грамматика – способ построения ПОДов и ПОЗов путём координации дескрипторов (степень координации может быть различной). Перечень лексических единиц дескрипторного языка задаётся словарём лексических единиц. В состав ИПЯ входит правило применения ИПЯ (грамматика), определяющая процедуру индексирования (используемые единицы для описания документа и запроса), а также правило построения и ведения языка, при помощи которого вносят изменения и усовершенствования в язык.

В общем случае, в словарь лексических единиц могут входить как дескрипторы (узаконенные единицы), так и ключевые слова (полнозначное слово или словосочетание, выражающее определённый аспект документа или запроса), хотя они и не имеют права присутствовать в поисковом образе, их помещают в словарь.

Словари лексических единиц.

1. Тезаурус.

Это самый полный и совершенный вид лексического словаря. Это нормативный словарь-справочник, который содержит дескрипторы и ключевые слова в алфавитном порядке, предназначенные для координатного индексирования документов и запросов.

Характерные особенности: учтены парадигматические отношения (так как тезаурус состоит из дескрипторов), устранена синонимия.

Тезаурусы разнообразны:

  1. по назначению и по составу (тематическая направленность)

  2. включающие только дескрипторы или ещё и ключевые слова (аскрипторы)

  3. по составу справочно-поискового материала.

К каждому тезаурусу разрабатывается ряд дополнительных входов – множество лексических единиц.

Общая характеристика: Упорядоченные по алфавиту дескрипторы (и ключевые слова), каждый дескриптор представлен словарной статьёй дескриптора. Каждая словарная статья дескриптора строится по строго определённому алфавитно-структурному типу. Каждую статью определяет заглавный дескриптор, в неё входят 4 множества лексических единиц.

Di=<Mi1 Mi2 Mi3 Mi4>, где

М1 – множество упорядоченных по алфавиту условных синонимов дескрипторов

М2 – множество упорядоченных по алфавиту дескрипторов, каждый из которых связан с заглавным отношениями род-вид

М3 – то же, но вид-род

М4 – множество упорядоченных по алфавиту дескрипторов, каждый из которых связан с заглавным по крайней мере одним прочным парадигматическим отношением (ассоциативная связь, часть-целое и т.д.).

Если включаются ключевые слова, то у ключевого слова нет статьи, но каждое ключевое слово снабжено ссылкой, позволяющей перейти к дескриптору, наиболее близкому по смыслу к ней. Назначение ключевых слов – увеличение числа входов и они также позволяют перейти к дескриптору.

В состав тезауруса также входит ряд справочных элементов. К ним чаще всего относят следующие.

1. Систематический указатель дескрипторов – совокупность алфавитных списков дескрипторов, причем каждый относится к некоторой рубрике в иерархической классификации для определённой научной области. В них сначала по алфавиту перечислены темы, а потом – дескрипторы. Таким образом возможно вычислить всю лексику по определённой теме. В таком указателе дескрипторы могут входить в несколько разделов. Данный указатель обычно рекомендуют тем, кто детально не знаком с тематикой. Поиск меньше – эффективность – больше.

2. Указатель иерархических отношений содержит свод классификационных иерархических деревьев, построенных на основе аналогичных связей между дескрипторами. Чаще всего он содержит граф или список с точками. Эти указатели удобны как средство контроля при ведении тезауруса, его пополнения, так как легко выявить противоречивые связи между терминами. Он удобен для тех, кто ориентируется в предметной области только на основе общих терминов предметной области, так как есть возможность уточнения термина. Его легко построить на компьютере.

3. Пермутационный указатель - особый вид алфавитного указателя, который предназначен для обеспечения удобного доступа к любой компоненте лексической единицы (КВИК и КВОК). Он может быть построен автоматически путём обработки заглавных дескрипторов.