Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Поисковые языки электронных каталогов (110

..pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
808.81 Кб
Скачать

Учреждение Российской академии наук Государственная публичная научно-техническая библиотека

Сибирского отделения РАН

Сибирский региональный библиотечный центр непрерывного образования

Г. А. Скарук, Л. А. Жарикова, А. А. Стукалова

Поисковые языки электронных каталогов

Конспект лекции по курсу «Справочно-поисковый аппарат»

Новосибирск, 2009

УДК 025.4+025.34:004 ББК 73+78.37

С42

Скарук Г. А.

С42 Поисковые языки электронных каталогов : конспект лекции по курсу «Справочно-поисковый аппарат» / Г. А. Скарук, Л. А. Жарикова, А. А. Стукалова ; отв. за вып. Е. Б. Артемьева ; Гос. публич. науч.-техн. б-ка Сиб отд-ния Рос. акад. наук. – Новосибирск : ГПНТБ СО РАН, 2009. – 44 с.

ISBN 978-5-94560-181-9

Характеризуются структура и свойства комплекса информа- ционно-поисковых языков современных электронных каталогов, содержание, причины и следствия изменения их характеристик в электронной среде. Даются рекомендации по эффективному использованию лингвистических средств. Вводится общее представление о форматах библиографических и авторитетных данных.

Для слушателей системы дополнительного образования библиотечных специалистов.

УДК 025.4+025.34:004 ББК 73+78.37

ISBN 978-5-94560-181-9 © Учреждение Российской академии наук Государственная публичная научно-техническая библиотека Сибирского отделения РАН (ГПНТБ СО РАН), 2009

Введение

Эффективность использования информационных ресурсов библиотек и качество библиотечного сервиса как на локальном уровне, так и в режиме сети во многом определяют информационно-поисковые языки (ИПЯ) электронных каталогов (ЭК), обеспечивающие доступ к документным массивам. Обоснованный выбор и эффективное использование лингвистического обеспечения (ЛО) – задачи, без решения которых создание локальных и распределенных электронных каталогов теряет смысл.

Для эффективного поиска в электронных каталогах потребовалось преобразование всех основных элементов ИПЯ и правил их использования, заданных в традиционных концепциях для карточных каталогов и проблемно-ориентированных баз данных. Это диктуется, во-первых, необходимостью приспособить языковые средства к использованию в автоматизированном режиме. Во-вторых, необходимо обеспечить пользователю возможность применять ИПЯ самостоятельно (без участия информационного посредника), в том числе в условиях дистанционного доступа.

3

Основные понятия

Информационно-поисковый язык (ИПЯ) – формализованный ис-

кусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов для последующего хранения и поиска (ГОСТ 7.74–961).

Его основные составляющие – алфавит, лексика, грамматика. Лексика ИПЯ – это совокупность входящих в его состав лексических единиц (ЛЕ), то есть обозначений отдельных понятий, принятых в данном языке и неделимых в этой функции. В разных ИПЯ это могут быть слова естественного языка, устойчивые словосочетания, аббревиатуры, символы, даты, цифровые или буквенно-цифровые коды и т. п.

Грамматика ИПЯ позволяет отразить связи (отношения) между лексическими единицами. Эти связи существуют в виде парадигматических и синтагматических отношений.

Парадигматические отношения – логические и ассоциативные отношения между ЛЕ (тождества, иерархии, пересечения, психологические ассоциации).

Отношения, устанавливаемые в результате объединения ЛЕ во фразы (предложения) называются синтагматическими.

Для характеристики совокупности применяемых в ЭК информаци- онно-поисковых языков, правил и методов их ведения и использования

ирегламентирующей эти правила нормативно-методической и справочной документации используется понятие лингвистическое обеспечение (ЛО). Согласно современным представлениям к ЛО относятся

иформаты представления библиографических или авторитетных данных.

Всостав ЛО электронных библиотечных каталогов входят все основные типы информационно-поисковых языков. Основу ЛО составляют ИПЯ, ранее применявшиеся в карточных каталогах – язык библиографического описания, язык предметных рубрик и иерархические классификации.

Язык библиографического описания

Язык библиографического описания – это информационно-поис-

ковый язык, основными лексическими единицами которого являются элементы, реализующие коммуникативную функцию между запросом

1 ГОСТ 7.74–96. Информационно-поисковые языки. Термины и определения // Стандарты по библиотечному делу. – СПб., 2000. – С. 376–398.

4

пользователя и содержанием библиографической информации. Такими элементами являются, например: заголовок, автор, заглавие, год издания и другие данные2. Алфавит языка библиографического описания совпадает с алфавитом естественного языка. Кроме того, он включает в свой состав арабские и римские цифры, знаки пунктуации.

Лексической единицей языка библиографического описания является обозначение минимального отдельного понятия, имеющего значения. Это принятые в естественном языке слова и словосочетания, аббревиатуры, символы, даты, общепринятые сокращения и т. п.

Таким образом, язык библиографического описания позволяет реализовать поиск документов определенного автора, конкретных заглавий произведений, а также найти документ или группу документов интересующей тематики по отдельным словам и словосочетаниям, выступающим в качестве ключевых слов по всему тексту библиографического описания. Именно машиночитаемая библиографическая запись может обеспечить максимальное количество точек доступа. Поэтому, в целях обеспечения адекватности поиска, язык библиографической записи должен регулироваться специальными правилами.

Свод «Правил составления библиографического описания» был создан в СССР в 1986 г. Практика работы по этим правилам показала их высокую эффективность и гибкость, значительную степень соответствия международным нормативам. Однако для более эффективного функционирования библиографической записи в интерактивном каталоге появилась необходимость пересмотра российских правил каталогизации, которые должны учитывать не только действующие, но и перспективные международные рекомендации в сфере научной обработки информации3. Поэтому в 2004 г. на базе Российской государственной библиотеки (РГБ), Российской национальной библиотеки (РНБ), Российской книжной палаты (РКП) в сотрудничестве с центром Либнет были разработаны «Российские правила каталогизации» в целях согласования российских и международных правил для обмена библиографическими записями без дополнительной доработки.

2 Справочник библиографа / науч. ред. : А. Н. Ванеев [и др.]. – СПб. :

Профессия, 2002. – 527 с.

3 Каспарова Н. Н. Концепция пересмотра российских «Правил составления библиографического описания» // Девятая научная конференция по проблемам книговедения : тез. докл. – М., 2000. – С. 200–205.

5

Чтобы более четко представить позиции правил в отношении языка библиографической записи, следует отдельно рассмотреть элементы библиографической записи:

1.Область заглавия и сведений об ответственности относится

кчислу основных поисковых признаков и должна быть доступна для интернационального пользователя. Из этого следует, что язык основного заглавия в библиографической записи должен соответствовать языку выходных данных документа. В случае, когда принимается решение о конверсии языка в интересах национального пользователя или других целях в данной области, эти данные приводят в качестве дополнительной точки доступа.

2.Область издания, выходных данных и др. Сведения об издании,

выходные данные, область физической характеристики и область серии приводятся на том языке, на котором они приведены на титульном листе документа.

3.Область примечания. Независимо от языка документа или его выходных данных язык, на котором формируются дополнительные примечания, соответствует государственному языку той или иной страны. Следовательно, эти точки доступа ориентированы на национального пользователя. Например, для России – это русский язык, для Германии – немецкий и т. д.

4.Язык данных содержательной каталогизации – предметных рубрик, ключевых слов.

Точки доступа предметного или содержательного характера ориентируются на национальные классификации или международные (в переводе на национальный язык страны, если это не англоязычные страны), а также национальные рубрикаторы или тезаурусы. Во всех случаях лингвистическая часть этих данных ориентирована на язык национального потребителя. В том случае, если в системе есть возможности для их перевода в классификационные (содержательные) данные на другом языке, либо функционируют нормативные многоязычные файлы предметных рубрик, то это значительно обогащает поисковые возможности информационно-библиографической системы.

5.Заголовок библиографической записи. Более сложно решается про-

блема выбора языка заголовка библиографической записи, хотя общий подход соответствия языку выходных данных сохраняется, за исключением идентифицирующих признаков (указание духовного сана и т. п.), которые формируются не с документа, а, как правило, из других источников и соответствуют языку национального пользователя.

6

Проблему выбора языка этих данных помогают решить многоязычные нормативные / авторитетные файлы имен, наименований учреждений, анонимных классических произведений, унифицированных заглавий, географических наименований. Однако не всегда страна или библиотека имеет доступ к нормативному файлу, в связи с чем, вынуждена делать более сложный выбор, учитывая статус заголовка библиографической записи и его функции.

5.1.Имя лица. Имя индивидуального автора или другого лица в заголовке библиографической записи может быть дано на том языке, на котором автор преимущественно публикует свои работы.

Но эту логику не удается сохранить, поскольку при выборе разных языковых форм имени автора, форма имени на языке национального пользователя более известна, и правила отдают предпочтение языку национального пользователя.

Например, библиографические записи на переводы произведений А. С. Пушкина, изданные на иностранных языках, в Российском каталоге будут иметь в заголовке русскоязычную форму имени, но другие языковые формы должны быть зафиксированы в нормативном / авторитетном файле. Можно поступить и по-другому – в заголовке дать имя на языке документа, а другие формы, в том числе русскоязычную, привести в нормативном / авторитетном файле.

Аналогичная двойственная позиция сохраняется в отношении языка наименования коллектива в заголовке библиографической записи.

5.2.Унифицированное заглавие анонимного классического произведения в заголовке библиографической записи – это устоявшаяся форма названия произведения, не имеющего автора, однако имеющего национальное происхождение и потому известного национальному пользователю именно на языке своей страны, то есть той страны, которой принадлежит данное анонимное классическое произведение.

Наиболее известное российское анонимное классическое произведе-

ние – «Слово о полку Игореве», российский пользователь знает на русском языке, хотя имеются и другие языковые версии, но они другие и переводиться могут иначе. Например, французский вариант – «Le Dit de la campagne d’Igor». Дословный перевод на русский язык – «Слово о походе Игоря». Близко, но французская версия дана не как самостоятельная, а как перевод с русского языка. Российские правила каталогизации отдают предпочтение в качестве основной точки доступа национальной языковой форме той страны, которой принадлежит данное анонимное классическое произведение. При наличии соответствующего нормативного

7

файла, по любой другой языковой форме анонимного классического произведения оно будет найдено, а в заголовке может быть та, которая представляется более известной национальному пользователю.

5.3. Географическое название в заголовке библиографической записи. Язык этих данных в заголовке библиографической записи соответствует языку выходных данных документа, но в качестве дополнительной точки в формате или нормативном файле географических названий необходимо привести соответствующую форму географического названия на языке национального пользователя4.

Итак, новые «Российские правила каталогизации» дают более четкий алгоритм действий в отношении языка библиографической записи, а именно основные точки доступа в максимальной степени должны быть приведены на языке, отражающем язык выходных данных документа.

Интересы национального пользователя реализуются в языке примечаний, дополнительных точках доступа во всех элементах записи, в полях предметного или содержательного блока, а также на уровне многоязычного авторитетного файла различных данных – имен лиц, наименований коллективов, унифицированных заглавий, географических названий и т. д.

Элементам и областям в библиографическом описании предшествуют знаки предписанной пунктуации. В отличие от обычных грамматических знаков они выполняют опознавательные функции областей и элементов.

Заголовок от описания отделяют точкой. Области описания отделяют друг от друга точкой и тире. При повторении отдельных областей повторяют точку и тире, за исключением области серии. При повторении области серии сведения о каждой серии заключаются в отдельные круглые скобки без знаков. Это единственное изменение, которое касается правил приведения предписанной пунктуации.

В ГОСТ 7.1–2003 впервые подчеркнуто, что для различения предписанной и грамматической пунктуации применяют пробелы в один печатный знак до и после предписанного знака. Исключение составляет точка с запятой – пробелы оставляют только после них.

4 Каспарова Н. Н. Язык библиографической записи в многоязычной коммуникации «документ-потребитель» : позиции новых «Российских правил каталогизации» // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества. Электронные информационные ресурсы и социальная значимость библиотек будущего : тр. Девятой междунар. конф. «Крым-2002» (Украина, Авт. Респ. Крым, 8–16 июня, 2002 г.). – М., 2002. – Т. 1. – С. 379–383.

8

В новом ГОСТе изменены правила употребления строчных

ипрописных букв: с прописной буквы следует приводить только первое слово области описания, а в элементах строчные и прописные буквы применяются в соответствии с нормами языка, на котором составлено описание. Например, первые слова сведений, относящихся к заглавию

исведений об ответственности, записываются со строчной буквы, если

они не являются именами собственными, первыми словами заглавий или цитатами5.

Все это позволит преодолеть существующий разнобой в подходах различных национальных правил каталогизации к выбору языка библиографической записи и тем самым устранить конфликт между интересами национального и интернационального пользователя.

Форматы представления библиографических данных

Формат – способ расположения и представления данных на носителе информации (ГОСТ СИБИД 7.0-996).

Формат определяет:

·структуру – что (какие данные) должно быть и где (в каких местах,

вкаком порядке) расположено;

·способ представления данных – как что указывается (в какой форме и по каким правилам вносится информация).

Библиографический формат – это совокупность взаимосвязанных

элементов данных, которая служит для создания, хранения и обмена библиографическими записями в машиночитаемой форме7. Элементом данных является наименьшая единица библиографической записи, подлежащая точной идентификации. Он служит «точкой доступа» при поиске.

Элементы данных, содержащиеся в записи, можно разделить на собственно данные (заглавие, автор, примечание и т. д.) и сведения, необходимые для выполнения операций с записью (номер записи в системе, дата создания записи, дата и время последнего обращения к записи, язык каталогизации и т. д.).

5Калинина Г. П. Новые правила библиографического описания в ГОСТ 7.1–2003 // Библиографическая запись : основные стандарты / Б-ка Рос. кн.

палаты. – М., 2006. – С. 99–128.

6ГОСТ 7.0–99. Библиотечно-информационная деятельность. Библиогра-

фия. – Минск, 1999. – 23 с.

7Скворцов В. В. Форматы MARC21, UNIMARC, RUSMARC – их на-

стоящее и будущее // Библиотечные компьютерные сети: Россия и Запад. –

М., 2003. – С. 75–98.

9

Место, предназначенное для элементов данных, называется полем или подполем. Поле – определенная строка символов, идентифицированная меткой, содержащая одно или более подполей. Поле – часть записи, соответствующая одной области библиографического описания, одной предметной рубрике, одному шифру хранения и т. д. Оно может быть фиксированной или переменной длины. Подполе – определенная единица информации в пределах поля.

В формате обозначены обязательные и необязательные (факультативные) поля и подполя. Например, для поля «Индивидуальный автор» подполе «Имя автора» является обязательным к заполнению в любом случае, а заполнение подполя «Язык произведения» может быть обязательным или необязательным в зависимости от принятых правил каталогизации, требований к полноте библиографической записи и наличия соответствующих данных. Поля и подполя могут быть повторяющимися и неповторяющимися, в зависимости от характера содержащихся в них данных.

Чтобы компьютер мог считывать и интерпретировать библиографическую запись, оперировать с данными, разработана система символов – меток, индикаторов, идентификаторов, разделителей полей.

Трехзначная метка поля показывает, к какой категории относятся данные в поле.

2001# $aПроблемы космоноосферной футурологии$еобзор$fВ. П. Казначеев, А. Н. Дмитриев

Идентификатор подполя – это код, состоящий из одного или нескольких символов, идентифицирующий отдельные подполя внутри переменного поля. Предположим, что идентификатор состоит из двух символов. Первый символ – разделитель, всегда один и тот же уникальный символ, установленный по ISO 2709, второй символ – код подполя, который может быть цифровым или буквенным.

2001# $aПроблемы космоноосферной футурологии$еобзор$fВ. П. Казначеев, А. Н. Дмитриев

Во многих форматах для отражения дополнительной информации

оданных, содержащихся в поле, связи данного поля с другими полями записи, специфических видах обработки данных используются индикаторы, следующие в записи непосредственно за меткой поля.

2001# $aПроблемы космоноосферной футурологии$еобзор$fВ. П. Казначеев, А. Н. Дмитриев

Метки полей, индикаторы и идентификаторы подполей называются определителями содержания.

На рис. 1 приведена общая схема поля библиографического формата.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]