- •Раздел III. Заголовок, точки доступа и авторитетная запись 91
- •Глава 4. Формирование заголовка и точки доступа библиографической записи 91
- •Глава 5. Авторитетные/нормативные записи 112
- •Глава 9. Координатное индексирование 166
- •Раздел V. Аннотирование и реферирование 193
- •Глава 10. Аннотирование документа 193
- •10.1. Теоретические основы аннотирования 193
- •Глава 11. Реферирование документа 198
- •Предисловие
- •Введение
- •Раздел I.ОсновыАналитико-синтетической переработки информации
- •Глава 1. Значение процессов обработки документа
- •1.1. Аналитико-синтетическая переработка информации как учебная дисциплина
- •1.2. Роль обработки документа в организациях системы документальных коммуникаций
- •Титульная страница книги
- •Оборот титульного листа книги
- •129075, Москва, Звездный бульвар, 23
- •103473, Москва, Краснопролетарская, 16
- •1.3. Объект обработки документа
- •1.4. Классификация документа
- •Глава 2. Виды и результаты обработки документа
- •2.1. Виды обработки
- •2.1.1. Семантическая обработка документа
- •2.2. Библиографическая запись — главный результат обработки
- •2.3. Виды библиографических записей
- •2.4. Автоматизация процессов обработки
- •2.4.1. Система форматов rusmarc. Общая характеристика
- •2.4.2. Российский формат машиночитаемой каталогизации (rusmarc)
- •Раздел II. Библиографическое описание документа
- •Глава 3. Теоретические основы составления библиографического описания
- •3.1. Стандартизация библиографического описания
- •3.2. Библиографическое описание: определение, состав и назначение
- •Перечень элементов и областей библиографического описания
- •3.3. Виды библиографического описания
- •3.4. Общая методика библиографического описания
- •3.4.1. Пунктуация в библиографическом описании
- •3.4.2. Источник информации для составления библиографического описания
- •3.4.3. Сокращения слов в библиографическом описании
- •3.4.4. Язык библиографического описания
- •3.4.5. Орфография в библиографическом описании
- •3.4.6. Отражение в описании ошибок и опечаток, допущенных в документе
- •3.5. Одноуровневое библиографическое описание
- •3.5.1. Область заглавия и сведений об ответственности
- •3.5.2. Область издания
- •3.5.4. Область выходных данных
- •3.5.6. Область серии
- •3.5.7. Область примечания
- •3.5.8. Область стандартного номера (или его альтернативы) и условий доступности
- •3.5.9. Этапы составления одноуровневого библиографического описания
- •Распределение библиографических сведений по областям описания
- •3.6. Многоуровневое библиографическое описание
- •3.6.1. Многоуровневое описание многотомного документа
- •3.6.2 Многоуровневое описание сериальных документов
- •3.6.3. Многоуровневое описание составной части документа (Аналитическое библиографическое описание)
- •Раздел III. Заголовок, точки доступа и авторитетная запись
- •Глава 4. Формирование заголовка и точки доступа библиографической записи
- •4.1. Заголовок и точки доступа библиографической записи: определение, назначение, виды
- •4.2. История разработки заголовка библиографической записи
- •4.3. Общая методика формирования заголовка библиографической записи
- •4.4. Заголовок, содержащий имя лица. Форма, структура, правила приведения
- •4.5. Заголовок, содержащий наименование организации. Форма, структура, правила приведения
- •4.6. Заголовок, содержащий унифицированное заглавие. Форма, структура, правила приведения
- •4.7. Заголовок, содержащий обозначение документа. Форма, структура, правила приведения
- •4.8. Заголовок, содержащий географическое название. Форма, структура, правила составления
- •Глава 5. Авторитетные/нормативные записи
- •5.1. Значение авторитетных/нормативных записей
- •5.2. Структура формата
- •5.3. Методика формирования авторитетных файлов
- •5.3.1. Авторитетные/нормативные записи имен лиц
- •5.3.2. Авторитетные/нормативные записи под наименованием организации
- •5.3.3. Авторитетные/нормативные записи географических названий
- •5.3.4. Авторитетные/нормативные записи унифицированных заглавий
- •5.3.5. Авторитетные/нормативные записи предметных рубрик
- •Раздел IV. Индексирование документа
- •Глава 6. Теоретические основы индексирования
- •6.1. Общие положения индексирования
- •6.2. Требования к информационно-поисковым языкам
- •6.3. Общие правила индексирования
- •Глава 7. Предметизация документа
- •7.1. Теоретические основы предметизации
- •7.1.1. Значение предметизации
- •7.1.2. Терминосистема процесса предметизации
- •7.2. Предметизационный ипя – средство предметизации
- •7.2.1. Характеристика предметизационного ипя
- •7.2.2. Структура предметизационного ипя
- •7.3. Общая методика предметизации
- •7.3.1. Основные этапы процесса предметизации
- •7.3.2. Структура предметной рубрики
- •7.3.3. Правила предметизации
- •7.4. Предметная рубрика – результат процесса предметизации
- •Глава 8. Систематизация документа
- •8.1. Значение систематизации
- •8.2. Классификационный ипя — средство реализации процесса систематизации
- •8.2.1. Терминосистема классификационного ипя
- •63.3 (2)4 Период феодализма (IV в. – 1861 г.)
- •63.3(2)41 Период зарождения и становления феодальных отношений (IV-XI вв.)
- •8.2.2. Классификационные системы, используемые в России
- •8.3. Общая методика систематизации
- •8.3.1. Принципы систематизации
- •8.3.2. Методы систематизации
- •8.3.3. Правила систематизации
- •8.4. Алгоритм поиска индексов в классификационной системе
- •8.5. Классификационный индекс – результат систематизации
- •Глава 9. Координатное индексирование
- •9.1. Теоретические основы координатного индексирования
- •9.2. Информационно-поисковый тезаурус (ипт)
- •9.2.1. Структура ипт
- •9.3. Методика разработки информационно-поискового тезауруса
- •9.3.1 Составление словаря ключевых слов
- •9.3.2. Дескрипторизация ключевых слов
- •9.3.4. Указатели роли и связи
- •9.4. Автоматизация процессов построения ипт
- •9.5. Методика координатного индексирования
- •9.6. Автоматизация координатного индексирования
- •9.6.1. Основные методы автоматизированного индексирования
- •Раздел V. Аннотирование и реферирование
- •Глава 10. Аннотирование документа
- •10.1. Теоретические основы аннотирования
- •10.2. Методика аннотирования документа
- •10.2.1. Основные требования к составлению аннотации
- •10.2.2. Этапы аннотирования
- •10.3. Автоматизация аннотирования
- •Глава 11. Реферирование документа
- •11.1. Теоретические основы реферирования
- •11.2. Виды рефератов
- •11.3. Общая методика реферирования документа
- •11.4. Методы реферирования
- •11.4.1. Методика составления информативного реферата
- •11.4.2. Особенности текста реферата
- •Заключение
- •Приложения
- •Российский формат машиночитаемой каталогизации
- •Пример машиночитаемой библиографической записи, созданной в формате rusmarc в Российской национальной библиотеке на книгу е. В. Пчелова «Рюриковичи. История династии»
- •Примеры библиографических записей, содержащих библиографическое описание и заголовок Книги. Однотомные издания
- •Многотомные издания
- •Депонированная научная работа
- •Неопубликованные документы
- •Сериальные и другие продолжающиеся ресурсы
- •Изоиздание
- •Составные части документов
- •Isbn 978-s
Глава 9. Координатное индексирование
9.1. Теоретические основы координатного индексирования
Дескрипторный язык – информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Дескрипторные ИПЯ начали создаваться в США в 50-е гг. Термин «дескриптор» (от английского слова descriptor – описатель) был введен в оборот математиком Кельвином Муерсом. Под дескриптором он понимал «словесный символ, предназначенный для обозначения идеи или понятия». Эти понятия он называл дескрипторами и считал, что для того, чтобы выявить основное содержание документа и перевести его на дескрипторный язык, необходимо произвести интеллектуальный анализ текста. Индексирование должно осуществляться с помощью специальных словарей.
Дальнейшее развитие теория дескрипторных ИПС получила в работах известного американского логика Мортимера Таубе. С помощью терминов математической логики Таубе определил координатное индексирование как «метод анализа информационного содержания документов таким образом, чтобы их поиск осуществлялся путем умножения, сложения и дополнения, т. е. логических операций, которые производятся над кодами, введенными в словарь. Термин «координация» относится не к геометрическим осям координат, а к логической координации».
Идею координатного индексирования он воплотил в 1952 г., разработав систему «Унитерм». В роли индексов в его системе выступали отдельные слова, выбранные из текста документа. Согласно теории Таубе, содержание любого документа может быть описано в виде набора «ключевых слов» (унитермов).
Унитермы – единичные термины, выражающие наиболее общие и сходные (унифицированные) понятия данной отрасли знания.
На каждый такой термин заводится отдельная карточка с номером документа (унитермкарта). Унитермкарты располагались в алфавитном порядке в специальной картотеке. Они должны были образовать базовую лексику соответствующей науки, т.е. комбинацию единиц, которые выразили бы любые понятия данной науки. При разработке системы соблюдались следующие требования:
использование одиночных слов, а не словосочетаний;
применение понятий одинаковой общности, объединяющих унитермы данной предметной области.
Первое требование приходилось нарушать из-за необходимости использовать в ИПЯ устойчивые словосочетания, а также синонимию, полисемию, омонимию ключевых слов.
Кроме того, практика требовала учитывать и ассоциативную связь (пересечение) унитермов и их родовидовое отношение, что противоречило второму требованию к унитермам.
Таким образом, требования к свойствам унитермов ограничивали возможности этого языка, и он получил лишь весьма ограниченное и кратковременное распространение.
Качество системы «Унитерм» оказалось низким, так как использование естественного языка для описания содержания документов и запросов приводит к большой потере информации. Естественный язык позволяет выразить одну и ту же мысль с помощью различных слов. Идентичные по смыслу слова должны иметь общие ключевые слова, но Таубе не предусматривал разработку тезауруса (словаря), что явилось причиной больших потерь информации. В связи с этим система «Унитерм» в настоящее время практически не применяется.
Необходимость учета синонимов, омонимов и некоторых связей иерархического типа требовала создания формализованного языка ключевых слов информационно-поисковой системы и специальных словарей – тезаурусов.
В переводе греческое слово «тезаурус» означает «сокровищница», «запас», «клад». Впервые близкое к этому термину значение еще в XIII в. использовал Брунетто Латини, назвав свой труд (систематизированную энциклопедию) «Книга о сокровище».
Понятие «тезаурус» имеет множество определений. Общепринятое заключается в том, что под тезаурусом понимается список особых лексических единиц, которые обычно представляются в виде слов или словосочетаний, с зафиксированными логическими отношениями, благодаря которым возможна их взаимная синонимичная замена.
Первый тезаурус такого типа был составлен П. М. Роджетом (1852 г.) в Великобритании. Этот словарь называли «словарем идей», так как в нем слова и словосочетания на английском языке были систематизированы не в алфавитном порядке, как в обычных словарях, а в соответствии с идеями, которые в них заложены.
Создавались эти словари в целях лингвистики – обозначить множество связанных по смыслу слов и словосочетаний одной идеей – названием понятийной группы, т. е. разнообразные слова в этом тезаурусе выражали одну и ту же мысль. Составление лингвистических тезаурусов было предвестником машинной обработки информации.
Впервые термин «тезаурус» в нынешнем его понимании, т. е. в связи с вычислительными машинами, употребила А. Мастерман в 1954 г. Она считала, что тезаурус можно считать общим средством для описания семантических структур естественного языка и предложила использовать его при машинном переводе.
В 1970-х гг. было проведено много исследований, посвященных использованию естественного языка в качестве универсального средства общения человека с машиной. Разработка тезаурусов в этот период была тесно связана с разработкой информационно-поисковых систем (ИПС). С помощью тезаурусов в ИПС можно было установить соответствие между языком запросов пользователя и документами ИПС. Начиная с 1970-х гг. понятие «тезаурус» взяли на «вооружение» и лингвисты, и программисты.
В нашей стране первые тезаурусы были разработаны в начале 1960-х г. в целях их использования в информационно-поисковых системах. Ю. А. Шрейдер предложил взглянуть на тезаурус как на «систему знаний, отраженных языком», т.е. отказаться от узкоприкладных аспектов применения тезаурусов в ИПС тезаурусов. С. Е. Никитина считает, что тезаурус можно использовать не только как средство информационного поиска, но и для теоретических исследований в области семантики, лингвистики, терминоведения, гносеологии.
В 1990-е гг. в связи с тематикой перевода сложных объектов в новое качество разрабатывалась идея гиперграфового, гипертекстового тезауруса системных знаний.
Сегодня существует идея моделирования терминологической системы с помощью тезауруса, так как именно свойства терминов и терминосистем (системность, устойчивость и регулярность связей, установка на объективность описания и т. д.) предоставляют возможность моделировать терминосистемы с помощью тезаурусов. Таким образом, обосновано, что тезаурусы, терминосистемы, системы знаний – ключевые понятия для формализованного представления знаний. Многие ученые (философы, социологи, психологи и др.) считают язык сокровищницей человеческого опыта, поэтому естественный язык является одним из главных объектов изучения специалистов по информатике и смежным дисциплинам.
Развитие теоретических и практических исследований по созданию информационно-поисковых языков влияло на формирование определения понятия «информационно-поисковый тезаурус». На международной конференции по принципам построения тезаурусов (Варшава, 1970) было выработано такое определение: «Тезаурус является лексическим инструментом информационно-поисковых систем. Он состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь, исчерпывающим образом покрывающий некоторую специфическую область знаний, представляет собой перечень дескрипторов и недескрипторов (вспомогательных терминов), упорядоченный по систематическому и алфавитному принципам и содержащий указание на имеющиеся между ними смысловые отношения как иерархического (родовидового), так и неиерархического типа». По сути, тезаурус представляет собой словарь понятий и словарь классификационных связей между ними.
Основное назначение тезауруса – перевод на информационно- поисковый язык смыслового содержания документов и запросов, которые относятся к различным областям науки и техники, охватываемым классификационной схемой тезауруса.
Тезаурусы помогают установить соответствие между:
авторской терминологией (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);
терминологией системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);
терминологией потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).
Последнее определение информационно-поискового тезауруса (ИПТ) сформулировано более кратко: «Информационно-поисковый тезаурус – Нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц» (ГОСТ 7.74 – 96).
В зависимости от тематического профиля тезаурусы подразделяются на многоотраслевые, отраслевые и узкотематические. Известный отечественный многоотраслевой «Тезаурус научно-технических терминов (1972) опубликован под редакцией Ю. И. Шемакина. Для различных отраслей народного хозяйства, науки и техники создаются отраслевые тезаурусы. Кроме того, в нашей стране разработано большое количество узкотематических, или микротезаурусов, предназначенных для поиска информации по отдельной проблеме, теме или отдельному внутриотраслевому направлению.
По назначению тезаурусы делятся на базовые и рабочие. Базовые тезаурусы служат лексико-семантической основой при создании узкотематических рабочих тезаурусов. Они облегчают процесс создания и унификации рабочих тезаурусов. В качестве базовых могут использоваться многоотраслевые тезаурусы. Таким образом, базовые тезаурусы – это нормативные пособия, включающие только основную лексику той или иной отрасли и наиболее проявляющиеся парадигматические отношения. Рабочим тезаурусам характерно большое лексическое богатство (собственные наименования, специфические термины и т. д.), а также развитые парадигматические отношения. Иными словами, семантическая сила рабочих тезаурусов должна превосходить семантическую силу базовых тезаурусов.