Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
57
Добавлен:
16.03.2016
Размер:
356.82 Кб
Скачать

Тема 6. ДОКУМЕНТАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

6.1. Основные элементы документальных информационно-поисковых систем

Одновременно с появлением первых библиотек и архивов возникли и проблемы разработки методов поиска и хранения документальной информации. Основная идея этих методов состояла в том, что центральная тема произведения выражалась в виде краткого текста. В простейшем случае функцию такого краткого текста выполняло заглавие произведения или первая фраза текста. Это освобождало пользователя от необходимости просматривать весь текст документа, что значительно повышало скорость поиска.

В современных документальных информационно-поисковых системах в основе поиска информации лежит аналогичный принцип. Поиск документа происходит по краткому формализованному описанию его содержания — так называемому поисковому образу документа

(ПОД).

Важнейшей структурной составляющей является информационно-поисковый язык.

Информационно-поисковый язык (ИПЯ) — искусственный язык для выражения содержания документов или запросов с целью последующего поиска.

Основное назначение ИПЯ — установить принадлежность того или иного документа к определенной группе понятий.

Перевод текстов документов и запросов на ИПЯ называется индексированием.

В результате индексирования содержание документа отображается в поисковом образе документа ПОД, а содержание запроса — в поисковое предписание (ПП). Индексирование может быть ручным (когда его производит человек) или автоматическим.

К настоящему времени разработан ряд ИПЯ, носящих как общеотраслевой, так и специальный характер. Например — Универсальная десятичная классификация (УДК); классификаторы документов, отраслевые дескрипторные языки. Однако разработка ИПС для управленческих документов, как правило, требует разработки собственного ИПЯ, адекватного данной предметной области.

6.2. Основные уровни и элементы ИПЯ

Язык — это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функции в процессе человеческой деятельности.

Естественный язык есть особого рода преобразователь заданных смыслов в тексты и наоборот. Информационный язык — формальная семантическая система, включающая алфавит, правила образования конструкций, их преобразования и интерпретации и предназначенная для описания,

обработки, —логической переработки и поиска информации.

Информационно-поисковый язык — специализированный искусственный язык, предназначенный для описания основного содержания документов и их формальных характеристик.

В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Синонимы — слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).

Омонимы — слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — телеграфный, поисковый, к замку, к шкафу и т.д.).

Полисемия — наличие у одного и того же слова нескольких разных, но связанных между

1

собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).

Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.

Естественные и искусственные языки предназначены для описания языковых объектов и, следовательно, в той или иной мере обладает смысловыразительной способностью, которая зависит от того, на каких уровнях представляются языковые объекты средствами данного языка.

Различают следующие уровни представления языковых объектов.

1.Семантика — основные закономерности строения внутренней (смысловой) стороны языковых объектов. Семантический уровень представления языковых объектов позволяет отобразить их смысловое содержание, выразить связь смысла отдельных знаков со смыслом текста (связь смысла языковых объектов между собой и со смыслом образуемого ими более сложного языкового объекта).

2.Синтаксис — основные закономерности, определяющие отношения между единицами языка в пределах конкретного текста. Синтаксический уровень представления языковых объектов позволяет выразить их структуру, отношения знаков в тексте, закономерности построения текстов.

3.Морфология — основные закономерности построения слов языка, т. е. система грамматических категорий и способов их выражения.

4.Правописание — система правил, устанавливающая единообразные способы передачи речи на письме.

5.Фонетика — основные закономерности поведения речевого аппарата и способы его использования.

Указанные уровни представления языковых объектов позволяют описать преобразование: звук

фонема — морфема — слово — текст — смысл.

ИПЯ представляют языковые объекты на 1-м, 2-м, 3-м и 4-м уровнях. Однако арсенал средств ИПЯ для представления языковых объектов на семантическом уровне менее развит по сравнению с естественным языком.

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кириллица; цифры; пунктуационные знаки.

Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица — слово или семантически неделимое словосочетание, выражающее какое-либо понятие.

Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.

Построение выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них

— выбор слов (лексических единиц) из множества лексических единиц ИПЯ, требуемых для построения выражений. Здесь решается вопрос, какие использовать слова по принципу "или-или" (или то слово — или иное слово). Выбор слов определяется их смысловыми значениями, обусловленными отношениями между предметами и явлениями, которые они определяют. Слова любого языка в процессе отображения предметов реального мира вступают между собой в

2

определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Парадигматические отношения — логические отношения, существующие между лексическими единицами

Наиболее важны следующие парадигматические отношения:

"вид-род", например, "шкаф-мебель". В данном случае понятие "шкаф" является видовым по отношению к понятию "мебель"; понятие "мебель" является родовым по отношению к понятию "шкаф". Родовое понятие всегда включает видовое понятие;

"часть-целое": "лезвие-нож". Лезвие является частью ножа;

"причина-следствие": "молния-гром", "лампа-свет";

"функциональное сходство": "лопата-экскаватор", "телега-автомобиль".

Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина «акция», для увеличения полноты поиска возможно указание термина «ценная бумага».

Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний), поскольку в каждый данный момент может быть использовано только одно слово (словосочетание), лексические единицы могут следовать одна за другой, но не одновременно. Отношения, устанавливаемые при соединении слов в словосочетания и фразы, носят название синтагматических отношений

Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы.

Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения смысла документа или запроса, помимо, ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

Парадигматика и синтагматика — это два различных аспекта ИПЯ, первый связан с его лексикой, а второй — с грамматикой. Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ.

Семантическая сила ИПЯ характеризует смысловые выразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений г между словами.

Можно указать следующие требования, которым должен удовлетворять семантически развитый ИПЯ:

располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

отображать только объективные характеристики предметов и отношений между

ними;

быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).

3

Как правило, чем больше семантическая сила ИПЯ, тем труднее с ним работать. Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий.

По способу организации понятий ИПЯ делятся на:

предкоординируемые (классификационные) ИПЯ;

посткоординируемые (дескрипторные) ИПЯ.

Предкоординированные ИПЯ — это ИПЯ, словарный состав которых жестко соединен грамматическими средствами в единую структуру. Лексика и грамматика такого языка, а также синтаксис, морфология, все парадигматические и синтагматические отношения самостоятельно не существуют, а образуют единую жесткую структуру. Индексирование текстов (перевод текстов на ИПЯ) выполняется только с использованием элементов такой жесткой структуры. Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа. По сути дела, каждый ИПЯ этого типа представляет собой некоторую систему классификации.

Сложные понятия предкоординируемых языков задаются заранее, до начала процедуры записи сообщений с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки и носят название предкоординируемых

Посткоординированные ИПЯ. Другой тип языков составляют посткоординированные ИПЯ, в которых ЛЕ заранее не связаны никакими текстуальными отношениям. Сложные синтаксические конструкции - предложения или фразы - создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых поскольку координация между словами предложения возникает во времяего записи.

Посткоординированные ИПЯ — ИПЯ, словарный состав которых не связан грамматиком заранее, и такая связь осуществляется в процессе индексирования и/или поиска. Выделяют три типа ИПЯ: дескрипторные ИПЯ; семантические коды (RX-коды, семантический код Перри-Кента) и синтагматические ИПЯ (например, СИНТОЛ). В посткоординируемых ИПЯ лексические единицы объединяются в потоковом образе лишь по время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.

6.3. Классификационные (предкоординированные) информационно-поисковые языки

Классификация — это результат упорядоченного распределения объектов заданного множества по признакам.

Например, тематическая классификация представляет собой группировку по тематическим признакам, алфавитная — по алфавиту и т. д.

Кклассификационным языкам относят:

информационно-поисковый язык иерархического типа;

информационно-поисковый язык фасетного типа;

алфавитно-предметную классификации.

4

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

Информационно-поисковый язык иерархического типа

Информационно-поисковый язык иерархического типа основан на перечислительной классификации (т.е. все возможные классы заранее перечислены), в которой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих понятий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования.

В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все возможные классы должны быть заранее перечислены, поэтому иерархическую классификацию и называют перечислительной.

Процедура построения ИПЯ иерархического типа включает следующие этапы.

1.Анализ предметной области, определение оснований деления», (признаков классификации).

Вкачестве признаков классификации выбирают такие, по которым имеет смысл производить поиск документов в данной предметной области.

2.Установление соподчиненности признаков. Соподчиненность может быть естественной или установленной.

3.Формирование классов документов на основе выбранных признаков классификации. Получение иерархического дерева классов.

4.Формирование индексов каждого класса.

5.Составление классификационных таблиц и алфавитного указателя. В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе — по алфавиту.

Примерами иерархических классификаций являются: Десятичная классификация Дьюи, Классификация Библиотеки Конгресса США, Универсальная десятичная классификация.

Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса.

Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в организации, имеющей стабильную структуру.

Информационно-поисковый язык фасетного типа

Информационно-поисковый язык фасетного типа основан на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов — фасетов. По сути дела, фасетная классификация есть набор нескольких иерархических классификаций, каждая относится к одному аспекту рассмотрения объекта.

В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фасетной формуле составляется индекс.

Процедура разработки ИПЯ фасетного типа состоит из следующих этапов.

1. Анализ предметной области. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д. Все возможные простые классы группируются по фасетам.

5

Каждый простой класс фасета называется фокусом.

2.Обозначение соответствующими шифрами фасетов и фокусов.

3.Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).

4.Составление алфавитного указателя фасет и фокусов.

Например, подмножество терминов, обозначающих процессы, образует фасет "Процессы". На этих подмножествах и строятся в дальнейшем иерархические классификации. Наиболее часто рассматривают фасеты: "Вещества", "Материалы", "Процессы", "Состояния", "Свойства", "Реакции", "Действия

Преимущество ИПЯ фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации.

На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК — универсальная десятичная классификация.

Алфавитно-предметная классификация

Алфавитно-предметная классификация основана на перечислительной классификации (т.е. все возможные классы заранее перечислены), в которой каждый из классов соответствует определенной теме пли одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.

Основной словарный состав (лексика) ИПЯ состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз ЕЯ.

Алфавитно-предметная классификация содержит:

предметный заголовок — слово, словосочетание или фраза ВЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки,

предметный словник (лексический состав языка) — упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификаций;

предметную рубрику — совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.

Порядок составления алфавитно-предметной классификации:

Анализ предметной области и выбор тем классификации.

Устранение синонимии слов, словосочетаний и фраз, используемых в качестве предметного заголовка.

Вслучае синонимии можно использовать систему ссылок.

Выделение основных, ведущих слов в словосочетаниях и фразах, используемых в качестве предметных заголовков.

Обозначение парадигматических связей между названиями предметов и тем. Эти связи обозначаются с помощью ссылок.

Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к каталогам документов.

6

6.4. Дескрипторные (посткоординированные) информационно-поисковые языки

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т. е. списком наиболее существенных для понимания текста назывных полнозначных слов. Полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Не-полнозначные слова — предлоги, союзы, связки, частицы.

Внешне координатное индексирование напоминает алфавитно-предметную классификацию. В обоих случаях классы обозначаются словами и словосочетаниями ЕЯ. Однако это сходство чисто внешнее. При отыскании документов при координатном индексировании производятся определенные логические операции над классами, обозначенными этими ключевыми словами. Для алфавитно-предметного индексирования тоже может быть применено несколько предметных заголовков. Но при информационном поиске каждый предметный заголовок выступает самостоятельно без какой-либо связи с другими заголовками, т.е. можно пользоваться только заранее описанными классами. При координатном индексировании классы формируются в процессе индексирования.

При координатном индексировании поисковое предписание формулируется в виде логических сумм (или), произведений (и) или дополнений (не) классов, соответствующих ключевым словам поискового предписания (чаще всего это произведение). Для отыскания документов, отвечающих на запрос, необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами ПОД.

В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в ПОД одновременно содержатся все ключевые слова поискового предписания.

Основными элементами дескрипторного ИПЯ являются:

1. Словарь лексических. единиц, обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц.

2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний — морфология; фраз, текстов в целом — синтаксис) с естественного языка на ИПЯ.

3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т. е. его словаря и правил применения.

Словари лексических единиц делятся на две группы: морфологические словари,

обеспечивающие морфологический анализ и нормализацию слов, и основные лексические словари, составляющие лексику ИПЯ.

6.4.2. Морфологические словари.

Основное назначение морфологических словарей состоит в отождествлении различных форм одного и того же слова и выявлении соответствующей грамматической информации, которую несет данное слово независимо от его окружения в тексте. Отождествление различных форм одного и того же слова проводится в целях нормализации, т. е. приведения слова к единому написанию и морфологической форме (нормальному виду). Именно в таком виде слова после соответствующего кодирования используются при индексировании и поиске документов. Нормализация слов является необходимым процессом индексирования. Грамматическая

7

информация к слову необходима для его восстановления (декодирования) по его коду, представленному в терминах ИПЯ.

Наиболее широкое распространение получили следующие морфологические словари:

словари основ слов;

словари окончаний слов;

словари суффиксов, префиксов, приставок, предлогов;

словари словоформ (словоформа — это последовательность букв между двумя соседними пробелами).

Процедура нормализации слов и выявления соответствующей им грамматической информации может выполняться как с использованием морфологического анализа и синтеза, так и без них. В любом случае используются морфологические словари. В последнем случае необходимо иметь большое количество словарей, включающих все формы возможных словоупотреблений. Применение методов морфологического анализа позволяет сократить число используемых словарей, но за счет усложнения процедуры нормализации и выявления грамматической информации. Чем менее сложен алгоритм морфологического анализа, тем более сложны используемые алгоритмом морфологические словари. Следует отметить, что нормализацию слов можно осуществить с помощью морфологических словарей минимальной сложности или вообще без них. Однако плата за такую простоту — невозможность получить грамматическую информацию или ее бедность.

В качестве единиц основных лексических словарей используются ключевые слова, словосочетания и дескрипторы. Соответствующие им словари носят названия: "Словарь ключевых слов", "Словарь словосочетаний" и "Словарь дескрипторов".

Под ключевым словом (КС) понимается полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС.

Словосочетание — последовательность нескольких слов (обычно 2-5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь КС включает и отдельные слова, и словосочетания. Однако число словосочетаний в словаре КС мало по сравнению с числом отдельных слов. И наоборот, словарь словосочетаний в основном состоит из словосочетаний. '

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т. е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Для удобства пользования основные лексические словари представляют различными способами. Каждая форма представления словарей порождает соответствующий вид словаря, ориентированный на определенные задачи его использования. Наиболее распространенными видами основных лексических словарей являются:

Алфавитный словарь — словарь дескрипторов или ключевых слов, упорядоченный по алфавиту.

Кодовый словарь — перечень лексических единиц, систематизированный по убыванию или возрастанию их кодов.

Частотный словарь — словарь лексических единиц, упорядоченный по убыванию или возрастанию частоты их употребления в поисковом массиве.

Пермутационный словарь — словарь словосочетаний, упорядоченный по алфавиту каждого слова словосочетания. Каждое словосочетание встречается в таком словаре столько раз, сколько слов оно включает.

Словарь отрицаний — перечень лексических единиц, не рекомендуемый для индексирования

8

и поиска.

Гнездовой словарь — совокупность классов (гнезд) семантически связанных между собой дескрипторов или ключевых слов, упорядоченная по алфавиту дескрипторов, отображающих вершины классов.

Иерархический словарь — совокупность имен классов условной эквивалентности лексических единиц, упорядоченная в соответствии с заданным на ней отношением порядка(родвид, часть-целое и т. д.).

Тезаурусом называется словарь дескрипторов с заданными парадигматическими отношениями между его элементами.

Тезаурус является основным типом словарей современных ИПС. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

Информационно-поисковый тезаурус (ИПТ) по сути представляет собой нормативный словарь-справочник, в котором зафиксирована часть знаний человечества, относящихся к данной предметной области. ИПТ можно представить как мультиграф, узлы которого соответствуют понятиям предметной области, а дуги -существующим парадигматическим отношениям между ними.

Наиболее важными парадигматическими отношениями ИПТ являются:

соподчинение;

вид-род (род-вид);

часть-целое (целое-часть);

причина-следствие (следствие-причина);

функциональное сходство.

Данные отношения выражаются в ИПТ четырьмя способами:

лексикографически, т. е. с помощью указательных помет, ссылок;

с помощью таблиц связи слов;

аналитически, т. е. с помощью шифров и кодов;

графически (с помощью деревьев, графов).

Обобщенная структура ИПТ включает как минимум три составляющие: словарную часть, семантическую карту, руководство по использованию.

Словарная часть — включает алфавитный перечень дескрипторных статей. Дескрипторная статья может иметь следующую структуру:

заглавный дескриптор;

ключевые слова из класса эквивалентности;

дескрипторы, подчиняющие заглавный;

дескрипторы, подчиненные заглавному;

дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов:

причина — следствие;

сырье — продукт;

процесс — объект;

процесс — субъект;

свойство — носитель свойства,

функциональное сходство и др.

Семантическая карта или систематический указатель — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Систематический указатель служит для раскрытия, учета и контроля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть найдены соответствующие родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии,

9

определяющие число уровней иерархии. Определение степени отображения парадигматических отношений зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновременно происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.

6.4.5. Анализ информации и построение словарей

Построение словарей состоит в следующем: по заданному классу текстов необходимо выбрать попарно различимые лексические единицы (словоформы, основы слов, КС, дескрипторы и т. д.), определить их морфологические, синтаксические и семантические характеристики и расположить в заранее обусловленном порядке.

Существуют три способа построения словарей: априорный, апостериорный, динамический. Априорный способ — лексические единицы выделяются из различных терминологических источников (справочников, энциклопедий, словарей, классификаторов и т. д.) по заданной

тематике. После отбора лексики проводят ее семантическую обработку и строят словари. Апостериорный способ — лексика формируется из представительной выборки будущего

фонда документов. Далее проводят ее -, семантическую обработку и строят словари. Динамический способ — процессы накопления лексики, ее семантическая обработка и

построение словарей совмещены с процессом эксплуатации ИПС.

Первый способ принципиально невозможно автоматизировать. Он требует больших интеллектуальных затрат. Второй поддается автоматизации, однако требует много затрат на сбор представительной выборки документов. Третий способ является наиболее перспективным. Одно из его главных достоинств состоит в том, что все процессы построения словарей можно организовать в режиме диалоговой обратной связи с пользователями системы, повышая тем самым качество словарей.

В настоящее время отсутствуют методы построения оптимальных словарей. Наука и практика располагают лишь определенными принципами построения более или менее хороших словарей. Эти принципы базируются на свойствах слов и текстов естественного языка, таких, как:

информативность слов, омонимия, синонимия и полисемия слов и фраз; синтаксическая эквивалентность фраз;

отношения между словами; изменение со временем значений слов;

ненормализованность слов и т. д.

При построении словарей приходится решать три основные проблемы: Какие слова включать в словарь? Какие учесть типы отношений? Какова должна быть детальность словаря?

Решение первой проблемы в основном базируется на учете синонимии, омонимии, полисемии, а также информативности слов, косвенным показателем которой является частота их встречаемости в текстах. Лингвистические исследования показывают, что распределение слов по их частоте вхождения в текст для достаточно больших текстов заданного тематического профиля подчиняется закону, близкому к гиперболическому. Высокочастотной части этого распределения соответствуют общие слова, не несущие существенной смысловой нагрузки в текстах данной совокупности. Низкочастотной части распределения соответствуют новые специфические термины, не нашедшие распространения в текстах совокупности.

10

Соседние файлы в папке Информационные системы