Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

5.4.2. Семантическая сила дескрипторных ИПЯ

Приведенные примеры показывают, что для существенного повышения качества информационного поиска, основанного на применении координатного индексирования, необходимо:

1)устранение синонимии, полисемии и омонимии ключевых слов, используемых в качестве лексических единиц ИПЯ;

2)построение специальных словарей, таблиц или схем, в которых бы эксплицитно были выражены наиболее существенные парадигматические связи между ключевыми словами;

3)разработка для дескрипторного ИПЯ такого синтаксиса, который бы позволял использовать при построении поисковых образов документов и поисковых предписаний не только простую координацию дескрипторов, но и более сильные синтагматические связи.

Первая задача относится к области семантики, т. е. к аспекту отношений слов к предметам и явлениям, которые они обозначают, а вторая задача — к области отношений между предметами и явлениями, обозначаемыми словами. Совокупность методов и средств, применяемых для решения этих двух задач, называется контролем за словарным составом ИПЯ. Благодаря введению такого контроля обеспечивается использование одинаковых ключевых слов для координатного индексирования одинаковых по смысловому содержанию документов и информационных запросов.

Контроль за ключевыми словами, которые используются для координатного индексирования документов и информационных запросов, может иметь разные степени. При нулевом или минимальном контроле для координатного индексирования документа или информационного запроса ключевые слова выбираются непосредственно из текста документа без учета того, какие ключевые слова уже использовались ранее для индексирования таких же или близких по смыслу документов и информационных запросов. В этом случае не устраняется синонимия, полисемия и омонимия ключевых слов, а их грамматические формы даже не приводятся к нормальному виду. Такой подход применяется в реальных ИПС при координатном индексировании документов. Индексирование информационных запросов в этом случае должно проводиться весьма тщательно и с избыточностью, необходимой для нейтрализации отрицательных явлений, которые порождаются отсутствием словарного контроля при индексировании документов.

При полном контроле за словарным составом ИПЯ разрешено использовать для координатного индексирования документов и информационных запросов лишь дескрипторы, т. е. такие ключевые слова, которые содержатся в некотором нормативном списке (например, в тезаурусе). В таком списке или словаре полностью устранены

180

синонимия, полисемия и омонимия ключевых слов, а также обозначены определенные парадигматические связи между ними.

На самом деле, на разных этапах работы ИПС - при вводе документов в систему (т. е. при индексировании документов) или при формулировании поисковых предписаний – требуется свой словарный контроль. Еще Г. П. Лун высказывался за минимальный словарный контроль при вводе документов в ИПС. Он писал: «Чрезмерное редактирование явно увеличивает вероятность влияния сегодняшних интересов, опыта и точек зрения. Вследствие этого полезность системы уменьшится, если изменятся задачи и интересы. Поэтому кажется очевидным, что чем меньше информация систематизируется и сокращается при вводе, тем больше она будет поддаваться динамической интерпретации при ее выводе» [Luhn1957].

Вцелях дальнейшего рассмотрения основных методов и средств, применяемых для контроля за словарным составом дескрипторного языка, а также для выражения синтагматических отношений между дескрипторами в поисковых образах документов и в поисковых предписаниях, уточним термины «дескриптор» и «дескрипторный язык».

Дескрипторы — это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно (при помощи соответствующих отсылок и помет) устранены синонимия, полисемия и омонимия.

Дескрипторным языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, а грамматика — по крайней мере, из способа построения поисковых образов документов и поисковых предписаний путем координации соответствующих дескрипторов.

В[Михайлов1968] приводится история возникновения идеи координатного индексирования. В сообщении, сделанном на конференции по проблемам применения классификаций для информационного поиска (Великобритания, 1957 г.), Б. Виккери отмечал, что координатное индексирование (с инвертированной организацией картотеки), по-видимому, применялось еще в Шумере около трех тыс. лет назад, о чем свидетельствуют найденные глиняные таблички, каждая из которых отведена для какого-либо симптома болезни. На табличке перечислялись названия всех болезней, для которых характерен этот симптом. Очевидно, что если по обнаруженным у больного симптомам подобрать соответствующие таблички, а затем определить, название какой болезни содержится на каждой из них, то это и будет вероятное заболевание, которым страдает данный больной. Эти таблички можно считать прообразом современных диагностических машин.

181

Принцип координатного индексирования, по-видимому, был известен и американскому орнитологу Г. Тейлору, который в 1915 г. получил патент на суперпозиционные (просветные) перфокарты. В геологии этот принцип (в сочетании с суперпозиционными перфокартами) применяется с 1920 г. в системах для идентификации минералов. В 1923 г. француз А. Либё предложил использовать координатное индексирование (также в сочетании с суперпозиционными перфокартами) для поиска в картотеке персонала лиц, обладающих заданным сочетанием характеристик.

Первым (или, по крайней мере, одним из первых), кто применил метод координатного индексирования для информационного поиска, был У. Баттен, когда в 1939 г. создавал для английского концерна «Империал кемикл индастриз, лтд» поисковую систему для патентов. Эта система была реализована на суперпозиционных перфокартах. У. Баттен пишет, что идея координатного индексирования у него возникла тогда, «когда он тщательно изучал два списка патентов, один из которых относился к предмету А, а другой — к предмету В, с целью выбрать из них патенты, относящиеся к сочетанию предметов А и В».

В 1947 г. американский математик К. Муэрс разработал и запатентовал систему механизированного поиска документов, основанную на использовании идеи координатного индексирования. Созданную им ИПС К. Муэрс назвал Системой зато-кодирования (по имени организованной и возглавляемой им консультативной фирмы «Затор ко.»). Для реализации этой ИПС были созданы особые карты с вырезками вдоль краев, названные «зато-картами», а также специальный селектор. Запись характеристик на таких картах проводилась по суперпозиционному коду (с использованием случайных чисел), который был разработан К. Муэрсом и назван «зато-кодированием».

Необходимо отметить, что именно К. Муэрс в 1950 г. ввел для обозначения лексических единиц ИПЯ, применяемого в его поисковой системе, термин «дескриптор». Им были введены также термины «информационный поиск» (information retrieval), «информационно-

поисковая система» (information retrieval system), «информационно-

поисковый язык» (retrieval language), «дескрипторный словарь»

(descriptor dictionary), «поисковый образ» (tally) и другие термины,

которые в настоящее время широко используются в области информационного поиска.

Исключительно большой вклад в теоретическое обоснование, развитие и пропаганду идей координатного индексирования внес американский логик М. Таубе, который в 1951 г. разработал так называемую систему унитермов, получившую широкое практическое применение. Основное отличие системы унитермов М. Таубе от системы зато-кодирования К. Мауэрса заключается в том, что в первой мы имеем дело со словами, выражающими понятия, а во второй — с понятиями,

182

выраженными словами. Обе эти системы послужили основой для разработки современных дескрипторных языков.

Унитерм (uniterm) М. Таубе — это ключевое слово (как правило, простое), которое может быть снабжено соответствующей отсылкой или пояснительной пометой, устраняющей его синонимию, полисемию и омонимию. Унитермы не имеют никаких помет, которые бы обозначали парадигматические связи между ними. В качестве унитермов могут использоваться имена собственные, географические и фирменные названия и т. д.

Для сравнительной оценки семантической силы разных ИПЯ рассмотрим особенности словарного состава (лексики) таких языков.

Существуют ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия (т. е. состоящие из двух и более простых понятий), заданы в словаре наряду со словами, выражающими простые понятия. Это означает, что в таких словосочетаниях или фразах образующие их слова связаны координатной (соподчинительной) или какой-либо иной связью до процесса индексирования. ИПЯ такого типа называются предкоординированными (pre-coordinate). Словарный состав предкоординированных языков в какой-то мере напоминает двуязычные разговорники, в которых заранее составлены наиболее употребительные, с точки зрения составителей, фразы. К предкоординированным языкам относятся, например, как перечислительные, так и аналитикосинтетические классификации.

Когда применяется предкоординированный язык, то для обозначения основного смыслового содержания документов можно использовать только отдельные, никак не связываемые между собой слова, словосочетания и фразы, взятые из словарного состава данного языка. Таким образом, проводится классификация документов, т. е. их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила предкоординированного языка определяется главным образом тем, насколько тщательно и исчерпывающе разработана его лексика. При составлении словаря для такого языка, которое проводится до его использования, недостаточно учесть лишь специфику информационных запросов прошлого и настоящего. Необходимо также предвидеть изменения информационных потребностей в будущем. Это очень трудная задача, удовлетворительное решение которой едва ли возможно. Таким образом, предкоординированным языкам органически присуща недостаточность словарного состава, а, следовательно, и небольшая семантическая сила.

Другой тип ИПЯ — это такие, в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов или даже в процессе их поиска. Такие ИПЯ называются посткоординируемыми (post-coordinate). До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями. Можно

183

провести определенную аналогию между посткоординируемыми языками и алфавитом любого естественного языка. В естественном языке соединение букв в слова производится лишь в процессе письма, а до этого буквы никак не связаны одна с другой. Точно так же из сравнительно небольшого числа лексических единиц посткоординируемого языка можно построить «предложение» (поисковый образ), выражающее практически любой смысл. Очевидно, что такие языки будут семантически более сильными, чем предкоординируемые. На рис. 5.6 приведена типология ИПЯ с точки зрения их семантической силы.

 

 

 

 

 

ИПЯ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Предкоординируе

Посткоординируе

 

 

 

мые

мые

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Перечислительн

 

Аналитико-

Языки

ые

 

синтетические

дескрипторного

классификации

 

 

кл.

типа

Рис. 5.6. типология ИПЯ с точки зрения семантической силы

Еще раз отметим, что главная особенность классификаций состоит в том, что их словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При переводе текста, выражающего основное смысловое содержание документа или информационного запроса с естественного языка на предкоординируемый язык можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение новых лексических единиц строго ограничено; оно возможно лишь до индексирования документов, т. е. при создании языка. Поэтому классификации не обладают такой «семантической силой», которая необходима для эффективного информационного поиска по запросам любого типа.

Соответственно, основные трудности информационного поиска возникают вследствие того, что процессы индексирования документов и их поиска разделены во времени, причем иногда весьма значительно. Если бы можно было заранее предвидеть все варианты информационных запросов, которые могут возникнуть у потребителей информации, то документы можно было бы адекватно заиндексировать, по-видимому, средствами любого ИПЯ, хотя для этого, возможно, пришлось бы в необходимой степени расширить основной словарный состав классификации. Но такое условие не выполнимо в принципе, т.к. специфика информационных запросов зависит от развития науки и техники, от изменяющихся научных интересов потребителей

184

информации, их индивидуальных особенностей и т. д. и определяется факторами, которые фактически не поддаются учету и предвидению.

185

5.5.Терминологическиеструктуры

Вбольшинстве информационных систем помимо ИПЯ на этапах индексирования и поиска документов применяются различные средства, имеющие лингвистическую природу, например, тематические рубрикаторы, тезаурусы, словари как информативных, так и неинформативных лексических единиц, словари синонимов, словари словосочетаний и т.п.

Организационная типология терминологических структур, приведенная на рис. 5.1, тесно связана с типологией по семантическому признаку. С точки зрения семантики словоупотребления терминологические структуры могут быть разделены на семантически упорядоченные и семантически неупорядоченные. При этом семантически неупорядоченные терминологические структуры всегда имеют линейную организацию, а семантически упорядоченные – иерархическую или сетевую организацию.

Терминологические

структуры

 

 

 

 

Семантически

 

 

 

 

 

Семантически

 

 

 

 

 

 

упорядоченные

 

 

 

 

 

неупорядоченные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С

 

 

С

Положительные

Отрицательные

парадигматически

 

 

синтагматическим

 

словари

 

словари

ми связями

 

 

и связями

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отноше

 

 

Ассоциа

Отноше

Классификационн

Морфол

 

Словосо

Частотн

Стоп-

ния

 

 

тив-ные

ния

ые таблицы

огическ

 

четаний

ые

словарь

иерархи

 

 

отноше

эквивал

 

 

ие

 

 

 

 

 

 

 

и

 

 

ния

ентност

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рубрика

 

 

Тезауру

Словарь

 

 

 

 

 

 

 

 

 

 

 

тор

 

 

с

синонимов

 

 

 

 

 

 

 

 

 

Рис. 5.7. Типология терминологических структур по семантическому признаку

Семантически упорядоченные терминологические структуры отражают оба типа связей, которые могут существовать между отдельными терминами – парадигматические и синтагматические. Парадигматические связи характеризуют различные виды отношений – отношения иерархии, ассоциативные отношения и отношения

186