Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лысый 19-26.doc
Скачиваний:
1
Добавлен:
18.04.2019
Размер:
75.26 Кб
Скачать

21.Метод координатного индексирования и поиска.

Индексирование документа состоит из следующих этапов: определение главной его темы или предмета; выражение главной темы или пердмета на ИПЯ системы, т.е. формирование ПОД. В качестве ПОД могут выступать предметные заголовки, индексы любой классификации (УДК, например) или ключевые слова (дискрипторы).

При координатном индексировании в ПОД может включаться любое количество ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске.

Два метода координатного индексирования:

1. С контролем лексики входных документов по словарю (тезаурусу).

Выписанные из текста ключевые слова сравниваются с тезаурусом и заменяются на дескрипторы. Если в словаре отсутствуют синонимы ключевых слов, возможна потеря некоторой части информации. Иногда в ПОД включаются лексические единицы используемого ИПЯ, отсутствующие в тексте, но добавляемые на основании знаний, опыта или использования тезауруса.

2. Свободное индексирование, без контроля лексики.

ПОД формируется из ключевых слов и словосочетаний, извлеченных из текста документа с сохранением авторской терминологии. Приобретают все большее значение из-за удобства использования и доступности.

22.Дескрипторные ипя, их состав и структура.

Начали разрабатываться в начале 50-х гг в США (от англ. to describe - описывать). В основе - алфавитный перечень слов или словосочетаний. Содержание запросов и документов выражается в виде некоторого множества слов и словосочетаний естественного языка.

Лексические единицы - значимые информативные слова, выбираемые из индексируемых текстов (их называют ключевые слова и словосочетания - КС).

В простейшем ИПЯ словарь задан алфавитным перечнем КС без учета синонимии и различных отношений между словами.

Одной из первых ИПС, в которой использовался та­кой ИПЯ, была система «Унитерм», разработанная в 1952 г. известным американским логиком и документали­стом Мортимером Таубе. В этой системе реализован предложенный им принцип координатного индексирова­ния.

В системе «Унитерм» в качестве индексов, описываю­щих содержание документов и запросов и координируе­мых при поиске, использовались ключевые слова, выб­ранные из их текстов, названные унитермами. Ключевы­ми словами предлагалось считать отдельные слова и простые словосочетания. Слово «унитерм» (uniterm) оз­начает в переводе «единичный термин». Выбранные из текста унитермы располагались в алфавитном порядке в специальной картотеке.

Однако унитермные ИПЯ не устраняли основные; не­достатки естественных языков (неоднозначность слов и неформализованность связей), и в связи с этим возникла необходимость применения лексикографического контро­ля за используемыми ключевыми словами (унитермами). Этот контроль заключается в приведении всех исполь­зуемых для индексирования ключевых слов к нормаль­ному виду (единое написание, единая морфологическая форма), в полном устранении синонимии, полисемии и омонимии ключевых слов.

Лексикографический контроль осуществляется при помощи специального нормативного словаря, в котором перечислены все ключевые слова и словосочетания, встречающиеся в индексируемых текстах. Из нескольких ключевых слов, которые в пределах данного дескрип­торного ИПЯ считаются синонимами, выбирается одно, наиболее часто употребляемое и стилистически нейтральное. Это ключевое слово становится дескриптором, т.е. лексической единицей данного дескрипторного ИПЯ, и остальные ключевые слова — его синонимами и не яв­ляются лексическими единицами дескрипторного ИПЯ.

Совокупность дескриптора и ключевых слов, близких по смыслу, представляет собой некоторый класс, назван­ный классом условной эквивалентности.

Дескриптор — это нормализованное слово или слово­сочетание, выбранное из группы синонимичных или близких по значению, ключевых слов (класса условной эквивалентности) и предназначенное для индексирова­ния документов и запросов.

Полисемия и омонимия ключевых слов устраняется при помощи специальных ограничительных или поясни­тельных помет, приводимых в нормативном словаре клю­чевых слов и дескрипторов. Например: лук (растение), лук (оружие).