Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
готовые шпоры по госам.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
1.27 Mб
Скачать

8. Інфармацыйна-пошукавыя тэзаўрусы як адзін са сродкаў лінгвістычнага забеспячэння абіс

ИПТ – словарь лексических единиц информационно-поискового языка, в котором заданы парадигматические (базисные) смысловые отношения между этими единицами. Информационно-поисковые тезаурусы строятся для описания лексики дескрипторных ИПЯ, лексическими единицами которых являются дескрипторы. Лексическая единица информационно-поискового языка (ЛЕ) – Обозначение отдельного понятия, принятое в информационно-поисковом языке и неделимое в этой функции. Примечание – лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка, например коды классов классификационной системы. Дескриптор – это ключевое слово, выбранное из группы условно эквивалентных ключевых слов и представляющее данную группу при индексировании и поиске информации. Дескриптор также описывается как смысловая доминанта, или основное понятие с относящимся к нему словом, подобно заголовочному слову в толковом словаре. В роли дескрипторов выступают термины, обозначающие отдельные понятия некоторой предметной области и удовлетворяющие принципам общеупотребительности, распространенности, краткости и терминологической точности. Ключевое слово (КС) – отдельное слово или словосочетание естественного языка, выделяемое из текста информационного документа и отражающее его основное содержание при индексировании. Группа условно эквивалентных КС объединяет не только те слова и словосочетания, которые признаются синонимами в естественном языке, но и такие, которые можно считать условно равнозначными с точки зрения информационного поиска, т. е. в рамках данного ИПЯ. Парадигматические (базисные, аналитические, ассоциативные) отношения выражают постоянные семантические (смысловые) связи между ЛЕ ИПЯ, не зависящие от текста. Таковыми признаются отношения «род – вид», «целое – часть» и т. п. Они являются стабильными для каждой предметной области и могут быть зафиксированы в словаре.

Парадигматические (базисные, аналитические, ассоциативные) отношения выражают постоянные семантические (смысловые) связи между ЛЕ ИПЯ, не зависящие от текста. Таковыми признаются отношения «род – вид», «целое – часть» и т. п. Они являются стабильными для каждой предметной области и могут быть зафиксированы в словаре. Например, судак, лещ, сибас, форель относятся к семантической категории «Рыбы», т.е. отношение «род-вид» между дескрипторами рыбы – судак являются контекстуально не зависимыми. Это парадигматическое отношение.

Синтагматические отношения — это отношения, в которые вступают единицы одного уровня, соединяясь друг с другом в процессе речи или в составе единиц более высокого уровня. Имеется в виду, во-первых, самый факт сочетаемости Во-вторых, имеются в виду смысловые отношения между единицами, совместно присутствующими в речевой цепи (например, в старый ворон слово старый служит определением к ворон), воздействие единиц друг на друга.

Разработка информационно-поискового тезауруса включает несколько этапов:

— построение словаря (словника) ключевых слов;

— дескрипторизация ключевых слов;

— установление парадигматических отношений между дескрипторами;

— оформление тезауруса.

Разработка тезауруса требует исследования системы и логики знаний тех областей, которые найдут отражение в нем. Терминология, которая будет использована в тезаурусе, должна быть полной, однородной и охватывать все основные тематические группы. В свою очередь, тематические группы могут быть расширены в целях охвата смежных проблем. При отборе массива документов необходимо соблюдать:

— точное соответствие документов тематической направленности работы;

— полный охват каждой области знаний, а также равномерное распределение их по отдельным тематическим областям как по характеру документов, так и по их количеству;

— терминологическую насыщенность информационных документов и степень важности содержащейся в них информации;

— освещение тематики с учетом различных аспектов (материалов исследований, сведений об устройстве, применении и т. д.).

Критериями количественных и качественных параметров представительного массива документов и словника являются:

— скорость роста массива документов и словника;

— дифференцированность и устойчивость частотных характеристик элементов;

— процентное содержание в словнике специальных, общих и смежных терминов;

— вероятность использования элементов словника при индексировании и поиске документов.

Процесс создания тезауруса включает научную разработку классификационных схем понятий и выявление терминологического фонда из представительного фонда информационных документов. Кроме того, предполагается дополнение его терминами, которые позаимствованы из вспомогательных источников:

— тезаурусов по родственной тематике;

— терминологических и толковых словарей;

— энциклопедических словарей;

— научно-технических словарей и справочников;

— таблиц универсальной десятичной (децимальной) классификации (УДК);

— тематических рубрикаторов;

— библиотечно-библиографической классификации (ББК);

— государственных стандартов и других источников