- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
ция, выше —ниже и др. На основе этих отношений лексические едини цы группируются в парадигмы.
Синтагматические (грамматические, синтаксические, текстуаль ные) отношения представляют собой семантические отношения между лексическими единицами, входящими в один поисковый образ (текст на ИПЯ). Группа лексических единиц, связанных синтагматическими отношениями, образует синтагму (фразу, предложение на ИПЯ).
Принципиальные различия между парадигматическими и синтаг матическими отношениями заключается в том, что первые учитывают семантические отношения внетекстовой природы, т. е. те, которые не зависят от конкретных текстов (это отношения в языке, словаре), а вто рые выражают семантику контекста и зависят от нее (это отношения в речи, тексте). И еще: если парадигматические отношения фиксируются в ИПЯ, конкретно —в его лексической части, в словаре, то синтагмати ческие отношения —элемент не словаря, а правил (методики) индекси рования.
2.1.2. Индексирование на основе «традиционных» ИПЯ
После такого развернутого теоретического вступления представля ется интересным рассмотреть, как эти теоретические принципы реали зуются в повседневной практике индексирования документов и запро сов. Начнем наше рассмотрение с так называемых традиционных язы ков информационного поиска и с соответствующих им методов индексирования, применение которых до сих пор является ведущими в работе библиотечно-библиографических систем.
Из традиционных ИПЯ наибольшее распространение в нашей стра не получили языки иерархических классификаций, языки предметных рубрик и языки библиографических описаний. Они используются для организации информационных источников в каталогах, картотеках, в библиографических и реферативных изданиях, в справочных аппара тах книг.
Соответственно различают три основных принципа индексирова ния — классификационный, нредметизационный и библиографическо го описания.
К л а с с и ф и к а ц и о н н ы й принцип индексирования базируется на использовании специально разработанных таблиц классификаций, с помощью которых каждому индексируемому документу присваивается тот или иной индекс классификации (иногда несколько индексов). Классификационный принцип индексирования обеспечивает возмож-
пость организации информационного поиска по иерархическому при знаку (от общего к частному, от целого к части, от рода к виду).
П р е д м е т и з а ц и о н н ы й принцип * индексирования базируется на представлении содержания документа с помощью алфавитного пе речня лексических единиц, называемых п р е д м е т н ы м и рубриками. В качестве индексов здесь выступают предметные рубрики, нодрубрики и предметные записи, представленные в виде отдельных слов, устой чивых словосочетаний, аббревиатур, условных сокращений.
Принцип б и б л и о г р а ф и ч е с к о г о о п и с а н и я базируется на использовании элементов библиографической характеристики доку ментов с целью их нахождения но содержательным и формальным при знакам в массивах документов.
Возможности различных принципов индексирования рассмотрим на примере отдельных видов ИПЯ.
2.1.2.1. УДК как представитель ИПЯ иерархического типа
УДК (Универсальная десятичная классификация) — один из наи более распространенных в мире и нашей стране информационно-поис ковых языков. Разработана Международным библиографическим ин ститутом в 1895—1905 гг. на основе «Десятичной классификации» аме риканского библиотекаря М. Дыои. Совершенствованием УДК руководит Международная федерация но документации (МФД) в со ответствии со специальными правилами. К настоящему времени изда но 12 томов таблиц.
УДК —иерархическая комбинационная классификация, состоящая из трех основных частей: основные таблицы, таблицы определителей (типовых рубрик) и алфавитно-предметного указателя.
В основных таблицах в соответствии с принципом УДК весь универ сум знаний «разбит» на 10 основных разделов, пронумерованных от 0 до 9. Например, 0 — «Общий отдел» (Наука, Научная деятельность, Умственная деятельность, Документы, Публикации и др.). Раздел 5 — Естественные науки, 6 —Технические науки и т. д. Каждый из основ ных разделов разбит на подразделы (их тоже 10), соответственно иодразделы —на нодподразделы и т. д. Например, 54 —Химия (как раздел Естественных наук), 541 —Теоретическая химия, 541.1 —Физическая химия, 541.13 —Электрохимия; 542 —Экспериментальная химия, 543 —
* Прсдмстизационный принцип - это тот же классификационный принцип: он осно ван на использовании ИПЯ предметных рубрик. В данном случае мы в угоду сложившей ся традиции допускаем некоторую неточность.
Аналитическая химия, 546 — Неорганическая химия и т. д. вплоть до самых мельчайших подразделений. И так по всем 10 основным разде лам УДК, включающим многие сотни тысяч рубрик.
Таблицы определителей (вспомогательные таблицы) включают ин дексы, при помощи которых конкретизируются рубрики основных таб лиц. К определителям относят: определители точки зрения (т. е. аспек та рассмотрения), например: .001 —Теория, .002 —Производство, Тех нология, Изготовление и т. д. Отсюда — 546.001 — Теоретические вопросы неорганической химии. Далее: определители формы, отра жающие виды документов (0...): (03) —Энциклопедии, (043.3) — Дис сертации, (088.8) — Патенты и т. п. Есть в таблицах также специальные определители. Они действуют только в рамках крупных разделов. Для каждого раздела — свои специальные определители (они обозначаются через дефис). Например, 62—50 —Автоматика, Теория управления или 62—52 — Автоматика. Устройства автоматического регулирования или 541.13—145 — Электрохимия. Растворы (Растворы, применяемые в электрохимии). Существуют и другие специальные определители —их в общей сложности многие сотни.
Располагает УДК и своей грамматикой (синтагматическими отно шениями), в частности: « о т н о ш е н и е д в о е т о ч и я » . Этим отноше нием соединяются два и более индексов, если тематически они нераз рывно связаны между собой. Например, при индексировании докумен та в нем потребовалось отразить тему «Теплостойкость полиэтилена». Соответственно на языке УДК эта тема будет представлена двумя ин дексами 678.742.2:536.495. Читается этот знак (:) — в отношении к. « З н а к и р и с о е д и н е и и я » (+) —применяется в тех случаях, когда содержанием публикации являются две или более темы, рассматривае мые изолированно друг от друга. Например, в статье рассматриваются вопросы Металлургии и Горного дела, тогда эта статья получит индекс 669 (Металлургия) + 622 (Горное дело).
Третьей составной частью, как уже указывалось, является а л ф а в и т н о - п р е д м е т н ы й у к а з а т е л ь (АПУ, ключ), который содер жит имеющиеся в основных таблицах индексы, но расположенные в ал фавитном порядке. АПУ в отличие от основной части, обеспечивающей отраслевой, тематический вход в поисковую систему, позволяет вхо дить в эту систему с точки зрения предмета рассмотрения. В основном алфавитном ряду перечислены предметные рубрики, а внутри рубрики — нодрубрики с отсылкой к цифровому индексу УДК основного раздела.
Пример: Аварии газопроводов — 622.6914.004.63.
—при бурении — 622.248.5.
-----морском — 622.24.085.5:551.515-2.
—скважин нефтяных — 622.276.76. Аварийные автомобили — 629.119 Автомобильные бензины — 665.733.5
—двигатели карбюраторные — 621.484:629.18.
ит. д.
Допустим, если у вас есть запрос: «Аварии газопроводов при морс ком бурении» и вы не знаете, в каком разделе УДК (систематического каталога) следует искать литературу по данному вопросу, то первона чально необходимо обратиться к АПУ, в котором, пользуясь алфави том, найти соответствующий цифровой индекс УДК и затем по найден ному индексу обратиться к определенному разделу каталога, в нем —к каталожному разделителю и просмостреть за этим разделителем ката ложные карточки.
Аналогичный характер носит и ББК (Библиотечно-библиографиче ская классификация), созданная в нашей стране в 60-х годах XX столе тия. Она также универсальна по тематике, состоит из основных и типо вых таблиц, содержит многие тысячи рубрик, сочетание которых позво ляет образовывать огромное количество названий тем. Индексы — буквенно-цифровые, составленные на основе русского алфавита и арабских цифр. ББК применяется, прежде всего, в массовых и универ сальных библиотеках.
2.1.2.2. ИПЯ алфавитно-предметных рубрик
Рассмотренный нами принцип предметизации, применяемый при построении АПУ к УДК, ББК и другим библиографическим классифи кациям, характерен и для других предметных классификаций, предмет ных систем поиска информации, например, для предметного каталога, предметных указателей к монографиям и др.
В предметном каталоге основные разделители соответствуют пред метному заголовку, каждый из которых используется для обозначения предмета в виде слова или словосочетания; за предметным заголовком, «ниже», следуют разделители подзаголовков, которые выражают аспект рассмотрения предмета, указанного в предметном заголовке; далее в предметной рубрике следуют разделители, уточняющие предметный
заголовок или подзаголовок. Это предметные записи. За всеми этими разделителями идут каталожные карточки с библиографическими опи саниями документов, в поисковых образах которых содержатся те или иные заголовки, подзаголовки или записи.
Пример предметной рубрики: Автомобили [заголовок]
—проектирование [подзаголовок]
-----карбюраторные [предметные записи]
-----дизельные [предметные записи]
—ремонт
-----карбюраторные
-----дизельные
и т. д.
Разновидностью указателей, организованных по алфавитно-пред метному принципу, являются пермутационные указатели. Они являют ся обычно приложениями к информационным изданиям (например, к реферативным журналам или сборникам) и представляют собой алфа витный перечень ключевых слов, содержащихся в заглавиях докумен тов, включенных в информационное издание. Каждый документ отра жается в указателе столько раз, сколько имеет ключевых слов в своем заглавии и в соответствии с алфавитом начальных букв ключевых слов. В среднем каждый документ отражается в пермутационном указателе 5—6-ю разными ключевыми словами. Один из авторов таких указате лей американский ученый Г. П. Лун назвал их указателями типа KWIC (Key-W ord-In-Context) — ключевые слова, приводимые в контексте.
Фрагмент пермутационного указателя: Издание Оптические диски, Шекспир — 11.89.468
Применение Оптические диски, Информационные системы — 11.89.474 Обработка Оптические диски, ЭВМ — 11.89386 документов
ЭВМ Оптические диски, Обработка изображений — 11.89386 Мебель Оргтеэсника, Учреждения, Тенденции — 11.89358
Выставки Оргтеэсника, Пишущие машинки. Диктофоны — 11.89.808
Каждое из этих заглавий встретится в соответствующем но алфави ту месте указателя столько раз, сколько содержит в себе ключевых слов. В конце каждой строки указывается шифр (адрес) данного документа в информационном издании. Руководствуясь этим адресом, читатель вы