
11.4. Информационно-поисковые языки
Рассмотрим типологию ИПЯ по способности к выражению смыслового содержания документов, как структурных единиц информационной базы ИС. Опираясь на лексику, грамматику и синтаксис и в соответствии с типологией методов описания содержания документов, выделим два основных типа ИПЯ (Слайд 14):
языки классификационного типа;
языки дескрипторного типа.
Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах. Основная цель классификации – приписать каждый документ классу, или, иначе – приписать каждому документу имя класса, формируя тем самым множества сообщений для обработки и поиска.
Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания содержания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текста документа, и обозначающих основные понятия этого документа.
Классификации
Классификация в том виде, в каком она используется в формальной логике, близка к процессу описания предмета, его спецификации. Под спецификацией в данном случае понимается точное, однозначное и непротиворечивое обозначение предмета без указания его относительного положения в классификационной схеме.
Рассмотрим далее содержательный аспект классификации как семантической системы, предназначенной для смысловой идентификации и поиска документов.
В основе любой иерархической классификации лежит представление о том, что вся совокупность накопленных человечеством знаний может быть разделена на взаимоисключающие классы и подклассы, где каждый класс делится лишь по одному основанию (признаку), порождая одну серию подклассов. Классификационное дерево, получающееся в результате такого деления, отличается большой жесткостью.
Фасетные классификации в этом смысле существенно отличаются от иерархических. Если при составлении иерархических классификаций в некотором систематическом порядке дается перечень всех предметных комплексов, которые уже описаны в литературе, то при построении фасетной классификации дается некоторое множество элементарных термов («строительных кирпичей»), из которых можно построить большое число тематических классов.
Развитие науки, как известно, характеризуется наличием двух противоположных тенденций: во-первых, дифференциацией, в результате которой каждая наука разделяется на все новые и новые ветви; во-вторых - взаимопроникновением не только смежных, но иногда очень далеких одна от другой наук, в результате чего появляются новые, ранее не существовавшие науки. Отсюда следует, что любая претендующая на научность и перспективность классификация должна учитывать особенности развития науки и иметь такую схему, которая бы позволяла адекватно отражать в классификации новые ветви уже сложившихся наук, новые науки и возникающие в результате дифференциации последних ветви новых наук.
Классификации обычно строятся на базе классификации наук с ее делением на отдельные отрасли, хотя имеется множество объектов, особенно в области естествознания, медицины и техники, изучение которых не является задачей какой-либо одной науки (например, одна и та же машина или аппарат может применяться в различных отраслях техники).
Рассматривая классификацию как систематическое распределение объектов множества по классам, возникающее в результате последовательного многоступенчатого деления, можно выделить следующие два вида классификаций:
естественные классификации — классификации, в основание которых кладутся существенные для выделяемых классов признаки.
вспомогательные классификации — классификации, в основание которых кладутся несущественные для выделяемых классов признаки.
В практических задачах информационного обслуживания наиболее широко и устойчиво используются следующие системы классификации:
библиотечно-библиографические, специально предназначенные для систематизации книг и других документов (наиболее известными иерархическими классификациями на сегодняшний день являются Десятичная классификация Дьюи, Библиографическая классификация Блисса, Классификация Библиотеки конгресса США, ББК; к наиболее известным классификациям, которые основываются на использовании общих категорий и фасетов, следует отнести «Классификацию с двоеточием», «Универсальную десятичную классификацию» - УДК);
патентные классификации, служащие для индексирования объектов промышленной собственности, заявленных или признанных изобретениями (наиболее известными, используемыми для работы с объектами патентования изобретений, являются Международная патентная классификация (МПК) и Национальная классификация изобретений США (НКИ));
классификации наук, призванные систематизировать научную информацию (Государственный рубрикатор НТИ и локальные (или отраслевые) рубрикаторы, построенные на его основе, используемые при формировании всех видов информационных изданий).
ББК - библиотечно-библиографическая классификация
Методологической основой ББК является классификация наук и явлений действительности. Она выражается в определенной субординации наук, в соответствии с классификацией видов материи и форм ее движения, переходом от простого к сложному, от низшего к высшему.
В основу членения классификационных таблиц положены разнообразные критерии: объект изучения, метод исследования, цель познания, структура объекта, его свойства, процессы, отношения, территория, исторический период и т.д. На более глубоких ступенях деления иногда применяется расположение понятий по алфавиту наименований (алфавит стран в пределах части света и др.).
ББК имеет синтетическую структуру, позволяющую многоаспектно отражать содержание произведений печати. Единство между аналогичными по статусу, но различными по содержанию элементами универсальной классификации позволяют установить следующие аспекты обобщения ББК:
основные таблицы (Слайд 11.15),
система типовых делений (Слайд 11.16).
Универсальная десятичная классификация
Универсальная десятичная классификация (УДК) создавалась в основном еще до того, как был разработан фасетный принцип. Поэтому в УДК этот принцип получил лишь частичное воплощение, и она, по существу, является классификацией полуфасетного типа.
УДК, построенная по систематическому принципу, понимается как система цифрового кодирования не содержания, а поисковых образов (признаков) документа, которые формально отделяются от его содержания.
C 1963 г. классификация всех публикаций в области технических и естественных наук по УДК введена в качестве обязательной в научно-технических издательствах, редакциях научно-технических журналов, органах научно-технической информации.
Все классы УДК сгруппированы в шесть фасетов (Слайд 11.17), каждый из которых подразделяется по иерархическому принципу на несколько уровней. Для идентификации отдельного класса на каждом уровне используются десятичные цифры, тем самым, в индексах УДК каждая последующая цифра не меняет значения предыдущих, а лишь уточняет их, обозначая частное понятие. Индекс УДК представляет собой последовательность десятичных цифр, возможно разделенных на группы знаками «точка».
Главными классами фасета «Общий предмет» являются:
0 Общий отдел
1 Философия. Психология. Логика
3 Общественные науки
5 Математика. Естественные науки
6 Прикладные науки. Медицина. Техника
7 Искусство. Декоративно-прикладное искусство. Фотография. Музыка. Игры. Спорт
8 Языкознание. Филология. Художественная литература. Литературоведение
9 География. Биографии. История
На слайде (Слайд 11.18) приведен фрагмент таблицы одного из основных делений фасета «Общий предмет» УДК «004 Информационные технологии. Вычислительная техника. Теория, технология и применения вычислительных машин и систем».
Международная патентная классификация
МПК охватывает все области знаний, которые могут подлежать защите охранными документами и имеет иерархическую 4-х уровневую структуру.
1. Раздел. Обозначается латинской заглавной буквой от А до Н и снабжен заголовком, укрупнено отражающим его содержание.
МПК включает следующие 8 разделов:
А - удовлетворение жизненных потребностей человека;
B - различные технологические процессы, транспортирование;
C - химия, металлургия;
D - текстиль, бумага;
Е - строительство, горное дело;
F - механика, освещение, отопление, двигатели и насосы, оружие, боеприпасы, взрывные работы;
G - физика;
H - электричество.
2. Класс. Каждый раздел делится на классы, обозначаемые двузначным числом. Содержание класса отражает заголовок класса. Некоторые классы снабжаются кратким перечнем относящейся к ним тематики - указателем класса.
3. Подкласс. Каждый класс содержит один или более подклассов, обозначаемых заглавной буквой латинского алфавита. Содержание подкласса определяет заголовок подкласса. Некоторые подклассы снабжаются кратким перечнем относящейся к ним тематики - указателем содержания подкласса.
4. Группа, подгруппа. Каждый подкласс разбит на подразделения, которые в дальнейшем именуются «дробными рубриками». Среди дробных рубрик различают основные группы и подгруппы.
Дробная рубрика обозначается двумя числами, разделенными наклонной чертой. Первое (максимум трехзначное, обычно нечетное) число индексирует основную группу, второе (минимум 2 цифры, обычно четное) – подгруппу. Для основной группы код подгруппы имеет значение 00. Каждую третью или четвертую цифру после наклонной черты следует понимать как дальнейшее десятичное деление предыдущей цифры.
Текст основной группы определяет область, которая считается целесообразной для проведения поиска. Текст и индексы основных групп выделены жирным шрифтом.
Текст подгруппы понимается всегда в пределах объема ее основной группы и определяет тематическую область, в которой считается целесообразным проведение поиска. Перед текстом подгруппы ставится одна или более точек, которые определяют степень ее подчиненности, т.е. указывают на то, что подгруппа является рубрикой, подчиненной ближайшей вышестоящей рубрике, напечатанной с меньшим сдвигом, т.е. имеющей на одну точку меньше.
Полный классификационный индекс МПК состоит из комбинации символов (Слайд 11.19), используемых для обозначения раздела, класса, подкласса и основной группы или подгруппы.
Основными достоинствами классификаций являются следующие:
весь поток научной информации индексируется в соответствии с классификациями;
классификации отражают практически все направления в науке и технике, систематизируя объекты по основным существенным признакам;
использование единой классификации не только облегчает поиск, но и обеспечивает платформу для единого понимания предмета рассмотрения.
Вышеперечисленное позволяет:
повысить эффективность информационного обслуживания в традиционном и автоматизированном режимах;
унифицировать структуру локальных рубрикаторов и обеспечить их совместимость;
обеспечить совместимость тематического описания ИР;
вести статистический анализ информационных массивов и потоков и т. д.
Дескрипторные ИПЯ
Ни одна из классификаций не обеспечивает возможности поиска документов по любому, заранее не заданному сочетанию признаков (характеристик). Именно поэтому с начала 50-х годов начал распространяться метод координатного индексирования документов и основанные на этом методе дескрипторные ИПЯ (Слайд 11.20).
Дескрипторы — это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно (при помощи соответствующих отсылок и помет) устранены синонимия, полисемия и омонимия.
Дескрипторным языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, а грамматика — по крайней мере, из способа построения поисковых образов документов и поисковых предписаний путем координации соответствующих дескрипторов.
Для сравнительной оценки семантической силы разных ИПЯ рассмотрим особенности словарного состава (лексики) таких языков.
Существуют ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия (т. е. состоящие из двух и более простых понятий), заданы в словаре наряду со словами, выражающими простые понятия. Это означает, что в таких словосочетаниях или фразах образующие их слова связаны координатной (соподчинительной) или какой-либо иной связью до процесса индексирования. ИПЯ такого типа называются предкоординированными (pre-coordinate). Словарный состав предкоординированных языков в какой-то мере напоминает двуязычные разговорники, в которых заранее составлены наиболее употребительные, с точки зрения составителей, фразы. К предкоординированным языкам относятся, например, как перечислительные, так и аналитико-синтетические классификации.
Когда применяется предкоординированный язык, то для обозначения основного смыслового содержания документов можно использовать только отдельные, никак не связываемые между собой слова, словосочетания и фразы, взятые из словарного состава данного языка. Таким образом, проводится классификация документов, т. е. их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила предкоординированного языка определяется главным образом тем, насколько тщательно и исчерпывающе разработана его лексика. При составлении словаря для такого языка, которое проводится до его использования, недостаточно учесть лишь специфику информационных запросов прошлого и настоящего. Необходимо также предвидеть изменения информационных потребностей в будущем. Это очень трудная задача, удовлетворительное решение которой едва ли возможно. Таким образом, предкоординированным языкам органически присуща недостаточность словарного состава, а, следовательно, и небольшая семантическая сила.
Другой тип ИПЯ — это такие, в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов или даже в процессе их поиска. Такие ИПЯ называются посткоординируемыми (post-coordinate). До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями. Можно провести определенную аналогию между посткоординируемыми языками и алфавитом любого естественного языка. В естественном языке соединение букв в слова производится лишь в процессе письма, а до этого буквы никак не связаны одна с другой. Точно так же из сравнительно небольшого числа лексических единиц посткоординируемого языка можно построить «предложение» (поисковый образ), выражающее практически любой смысл. Очевидно, что такие языки будут семантически более сильными, чем предкоординируемые.
На слайде (Слайд 11.21) приведена типология ИПЯ с точки зрения их семантической силы.
Главная особенность классификаций состоит в том, что их словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При переводе текста, выражающего основное смысловое содержание документа или информационного запроса, с естественного языка на предкоординируемый язык можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение новых лексических единиц строго ограничено; оно возможно лишь до индексирования документов, т. е. при создании языка. Поэтому классификации не обладают такой «семантической силой», которая необходима для эффективного информационного поиска по запросам любого типа.
Соответственно, основные трудности информационного поиска возникают вследствие того, что процессы индексирования документов и их поиска разделены во времени, причем иногда весьма значительно. Если бы можно было заранее предвидеть все варианты информационных запросов, которые могут возникнуть у потребителей информации, то документы можно было бы адекватно заиндексировать, по-видимому, средствами любого ИПЯ, хотя для этого, возможно, пришлось бы в необходимой степени расширить основной словарный состав классификации. Но такое условие не выполнимо в принципе, т.к. специфика информационных запросов зависит от развития науки и техники, от изменяющихся научных интересов потребителей информации, их индивидуальных особенностей и т. д.