- •Раздел III. Заголовок, точки доступа и авторитетная запись 91
- •Глава 4. Формирование заголовка и точки доступа библиографической записи 91
- •Глава 5. Авторитетные/нормативные записи 112
- •Глава 9. Координатное индексирование 166
- •Раздел V. Аннотирование и реферирование 193
- •Глава 10. Аннотирование документа 193
- •10.1. Теоретические основы аннотирования 193
- •Глава 11. Реферирование документа 198
- •Предисловие
- •Введение
- •Раздел I.ОсновыАналитико-синтетической переработки информации
- •Глава 1. Значение процессов обработки документа
- •1.1. Аналитико-синтетическая переработка информации как учебная дисциплина
- •1.2. Роль обработки документа в организациях системы документальных коммуникаций
- •Титульная страница книги
- •Оборот титульного листа книги
- •129075, Москва, Звездный бульвар, 23
- •103473, Москва, Краснопролетарская, 16
- •1.3. Объект обработки документа
- •1.4. Классификация документа
- •Глава 2. Виды и результаты обработки документа
- •2.1. Виды обработки
- •2.1.1. Семантическая обработка документа
- •2.2. Библиографическая запись — главный результат обработки
- •2.3. Виды библиографических записей
- •2.4. Автоматизация процессов обработки
- •2.4.1. Система форматов rusmarc. Общая характеристика
- •2.4.2. Российский формат машиночитаемой каталогизации (rusmarc)
- •Раздел II. Библиографическое описание документа
- •Глава 3. Теоретические основы составления библиографического описания
- •3.1. Стандартизация библиографического описания
- •3.2. Библиографическое описание: определение, состав и назначение
- •Перечень элементов и областей библиографического описания
- •3.3. Виды библиографического описания
- •3.4. Общая методика библиографического описания
- •3.4.1. Пунктуация в библиографическом описании
- •3.4.2. Источник информации для составления библиографического описания
- •3.4.3. Сокращения слов в библиографическом описании
- •3.4.4. Язык библиографического описания
- •3.4.5. Орфография в библиографическом описании
- •3.4.6. Отражение в описании ошибок и опечаток, допущенных в документе
- •3.5. Одноуровневое библиографическое описание
- •3.5.1. Область заглавия и сведений об ответственности
- •3.5.2. Область издания
- •3.5.4. Область выходных данных
- •3.5.6. Область серии
- •3.5.7. Область примечания
- •3.5.8. Область стандартного номера (или его альтернативы) и условий доступности
- •3.5.9. Этапы составления одноуровневого библиографического описания
- •Распределение библиографических сведений по областям описания
- •3.6. Многоуровневое библиографическое описание
- •3.6.1. Многоуровневое описание многотомного документа
- •3.6.2 Многоуровневое описание сериальных документов
- •3.6.3. Многоуровневое описание составной части документа (Аналитическое библиографическое описание)
- •Раздел III. Заголовок, точки доступа и авторитетная запись
- •Глава 4. Формирование заголовка и точки доступа библиографической записи
- •4.1. Заголовок и точки доступа библиографической записи: определение, назначение, виды
- •4.2. История разработки заголовка библиографической записи
- •4.3. Общая методика формирования заголовка библиографической записи
- •4.4. Заголовок, содержащий имя лица. Форма, структура, правила приведения
- •4.5. Заголовок, содержащий наименование организации. Форма, структура, правила приведения
- •4.6. Заголовок, содержащий унифицированное заглавие. Форма, структура, правила приведения
- •4.7. Заголовок, содержащий обозначение документа. Форма, структура, правила приведения
- •4.8. Заголовок, содержащий географическое название. Форма, структура, правила составления
- •Глава 5. Авторитетные/нормативные записи
- •5.1. Значение авторитетных/нормативных записей
- •5.2. Структура формата
- •5.3. Методика формирования авторитетных файлов
- •5.3.1. Авторитетные/нормативные записи имен лиц
- •5.3.2. Авторитетные/нормативные записи под наименованием организации
- •5.3.3. Авторитетные/нормативные записи географических названий
- •5.3.4. Авторитетные/нормативные записи унифицированных заглавий
- •5.3.5. Авторитетные/нормативные записи предметных рубрик
- •Раздел IV. Индексирование документа
- •Глава 6. Теоретические основы индексирования
- •6.1. Общие положения индексирования
- •6.2. Требования к информационно-поисковым языкам
- •6.3. Общие правила индексирования
- •Глава 7. Предметизация документа
- •7.1. Теоретические основы предметизации
- •7.1.1. Значение предметизации
- •7.1.2. Терминосистема процесса предметизации
- •7.2. Предметизационный ипя – средство предметизации
- •7.2.1. Характеристика предметизационного ипя
- •7.2.2. Структура предметизационного ипя
- •7.3. Общая методика предметизации
- •7.3.1. Основные этапы процесса предметизации
- •7.3.2. Структура предметной рубрики
- •7.3.3. Правила предметизации
- •7.4. Предметная рубрика – результат процесса предметизации
- •Глава 8. Систематизация документа
- •8.1. Значение систематизации
- •8.2. Классификационный ипя — средство реализации процесса систематизации
- •8.2.1. Терминосистема классификационного ипя
- •63.3 (2)4 Период феодализма (IV в. – 1861 г.)
- •63.3(2)41 Период зарождения и становления феодальных отношений (IV-XI вв.)
- •8.2.2. Классификационные системы, используемые в России
- •8.3. Общая методика систематизации
- •8.3.1. Принципы систематизации
- •8.3.2. Методы систематизации
- •8.3.3. Правила систематизации
- •8.4. Алгоритм поиска индексов в классификационной системе
- •8.5. Классификационный индекс – результат систематизации
- •Глава 9. Координатное индексирование
- •9.1. Теоретические основы координатного индексирования
- •9.2. Информационно-поисковый тезаурус (ипт)
- •9.2.1. Структура ипт
- •9.3. Методика разработки информационно-поискового тезауруса
- •9.3.1 Составление словаря ключевых слов
- •9.3.2. Дескрипторизация ключевых слов
- •9.3.4. Указатели роли и связи
- •9.4. Автоматизация процессов построения ипт
- •9.5. Методика координатного индексирования
- •9.6. Автоматизация координатного индексирования
- •9.6.1. Основные методы автоматизированного индексирования
- •Раздел V. Аннотирование и реферирование
- •Глава 10. Аннотирование документа
- •10.1. Теоретические основы аннотирования
- •10.2. Методика аннотирования документа
- •10.2.1. Основные требования к составлению аннотации
- •10.2.2. Этапы аннотирования
- •10.3. Автоматизация аннотирования
- •Глава 11. Реферирование документа
- •11.1. Теоретические основы реферирования
- •11.2. Виды рефератов
- •11.3. Общая методика реферирования документа
- •11.4. Методы реферирования
- •11.4.1. Методика составления информативного реферата
- •11.4.2. Особенности текста реферата
- •Заключение
- •Приложения
- •Российский формат машиночитаемой каталогизации
- •Пример машиночитаемой библиографической записи, созданной в формате rusmarc в Российской национальной библиотеке на книгу е. В. Пчелова «Рюриковичи. История династии»
- •Примеры библиографических записей, содержащих библиографическое описание и заголовок Книги. Однотомные издания
- •Многотомные издания
- •Депонированная научная работа
- •Неопубликованные документы
- •Сериальные и другие продолжающиеся ресурсы
- •Изоиздание
- •Составные части документов
- •Isbn 978-s
9.6.1. Основные методы автоматизированного индексирования
Информационно-поисковый язык является основным элементом логико-семантического аппарата ИПС. Использование искусственного языка объясняется тем, что естественный язык обладает свойствами, которые делают невозможным его использование для записи и поиска информации. К таким свойствам относят: неоднозначность и многозначность слов (омонимия, полисемия), неформализованное связей слов и др.
Основные требованиями к ИПЯ:
однозначность – каждая запись на ИПЯ должна иметь только один смысл, одну трактовку. Любое понятие должно быть выражено единообразной записью средствами ИПЯ;
— достаточная семантическая сила – способность ИПЯ отражать с достаточной полнотой и точностью смысловое содержание документов определенной предметной области;
ИПЯ должен быть удобным для алгоритмического сопоставления выраженных на нем поисковых образов документов с поисковыми предписаниями;
открытость – возможность корректировки языка.
Основными составляющими ИПЯ являются: лексика (словарный состав), базисные (аналитические) отношения, грамматика, система обозначений (алфавит), система ведения (изменения и дополнения), а также правила образования и интерпретации.
Словарный состав ИПЯ может быть выражен лексикой естественного языка (слова, словосочетания), цифровыми кодами, шифром слов и словосочетаний естественного языка, обозначающих соответствующий класс понятий.
В качестве базисных (аналитических) отношений могут выступать парадигматические отношения (род – вид; целое – часть; предмет – функция и т. д.).
Эти связи выражают структуру языка и являются стабильными для конкретной предметной области.
Грамматика ИПЯ выражена смысловыми, текстуальными отношениями (синтагматическими) между лексическими единицами ИПЯ.
Система обозначений (алфавит) ИПЯ – это индексация лексических единиц языка. В систему обозначений входят буквенные и цифровые знаки, их комбинация, пунктуационные знаки, специальные символы. Систему обозначений называют нотацией.
Система ведения заключается в исключении устаревших слов или рубрик, устаревших связей и замене их новыми, т. е. в применении правил исправления и дополнения языка.
Правила образования предполагают преобразовывать простые лексические единицы в сложные или составные. Правила интерпретации заключаются в переводе с естественного языка на ИПЯ и наоборот.
Для определения эффективности ИПЯ исследуются и устанавливаются их основные характеристики: семантическая сила, лексическая, парадигматическая и синтагматическая полнота и точность. Для этого в автоматизированных информационно-поисковых системах используют различные способы анализа содержания текстов, а также методы сопоставления слов, синтаксические и статистические методы установления связей между словами (понятиями), методы построения и анализа словосочетаний.
Основными методами автоматического анализа текстов являются: морфологический, синтаксический и семантический.
Морфологический анализ используется для сокращения вводимых текстов до основ слов (морфем), а также отождествления их различных форм. В процессе морфологического анализа:
по буквенному составу слова определяется его грамматический класс;
определяются отглагольные существительные;
сложные слова разделяются на самостоятельные и составные (префиксоид и основу);
словоформы одного слова приводят к одной основе (путем отсечения окончаний и суффиксов).
В результате морфологического анализа входной текст представлен последовательностью условных единиц. Каждая из этих единиц включает сведения о лексической единице, из которой она получена (грамматический класс слова, падеж, число).
Синтаксический анализ состоит в процессе выделения смысловых единиц текста, определения их функциональной роли и установления связей между ними. Синтаксический анализ может проводиться тремя способами: анализ по членам предложения; анализ по предложениям; анализ с представлением его результатов в виде дерева зависимостей. В автоматизированных информационных системах чаще используется алгоритм синтаксического анализа по предложениям. Результатом этого анализа является исходный текст, перечень слов, отсутствующих в словаре, граф-схема дерева предложения, грамматическая информация к словам, в которой стрелками соединяются связанные по смыслу слова.
Семантический анализ обработки текстов заключается в установлении смысловых связей между словами входного текста и в отнесении их к соответствующим семантико-грамматическим категориям (предметы, объекты, приборы, качества, свойства, процесс и т. д.).
На начальной стадии семантического анализа терминам исходного текста присваивается один из трех признаков терминов: неинформативный, информативный или полуинформативный. Такая классификация является условной и зависит от тематической области текста. Кроме того, термины всех трех признаков разделяют на слова естественного языка, числовую информацию и термины, включающие смешанные символы. В заключение каждую лексическую единицу относят к определенной семантико-грамматической категории, суть которой заключается в уменьшении объема обозначаемых его понятий. Чаще всего эти категории применяют при описании объектов и явлений материального мира.
Эти методы могут быть использованы в специально разработанных алгоритмах обработки текстов документов. Например:
из исходного текста выделяют фрагменты индексирования (слова, словосочетания, предложения). На этом этапе используют семантический анализ текстов;
используя морфологический анализ, можно сократить вводимый текст до основ слов и отождествить различные формы слов;
с помощью синтаксического анализа текстов выделяют их смысловые единицы и устанавливают связи между ними;
по тезаурусу ищут наименования понятий, связанных по смыслу с исходными (эквивалентных исходным, родовых, ассоциированных);
из найденных наименований понятий отбирают наиболее узкие по смыслу и заменяют соответствующими кодами;
формируют поисковый образ документа.
Результатом автоматизированной обработки текстов документов является формирование поисковых образов документов и осуществление их поиска по соответствующему информационному запросу.
Для различных автоматизированных информационных систем возможны иная последовательность и иной состав этапов индексирования документов. Но любой алгоритм автоматического индексирования должен обеспечить высокое качество отражения содержания документов при формировании их поисковых образов, а также быть эффективным с точки зрения материальных затрат и ресурса времени.
Аналитико-синтетическая переработка информации – это процесс семантический, т. е. обработка смысла документа. Если процессы семантической обработки документов в рамках АИС выполняются вручную, т. е. с увеличением участия человека в них, то это, как правило, приводит к неоднозначности раскрытия смысла документов, удорожает услуги, связанные с трудоемкостью выполнения этих процессов. Кроме того, наблюдается большая потеря информации. Устранить такие недостатки можно введением и повышением уровня автоматизации процессов семантической обработки документов, а именно: разработкой методов и алгоритмов автоматизации индексирования; созданием машинных словарей для их использования в процессе автоматического анализа входных текстов.
Вопросам разработки методов и алгоритмов автоматизации индексирования посвящены предыдущие части главы.
Для автоматического анализа текстов на естественном языке в целях автоматического формирования поисковых образов документов разрабатывают и используют следующие типы машинных словарей:
Словарь (тезаурус) синонимов для замены значимых слов разрешенными терминами (дескрипторами). Каждый из этих дескрипторов представляет класс слов (синонимичных категорий), близких по смыслу.
Словаря словосочетаний – для распознания и использования словосочетаний, которые можно применять в качестве характеристик содержания документа. Использование такого словаря повышает эффективность анализа содержания, так как позволяет определить устойчивые словосочетания, связанные между собой определенными синтаксическими связями.
Словарь отрицаний позволяет избежать использования терминов, которые не являются информативными для конкретной предметной области.
Иерархическая организация терминов (понятий) позволяет для любого понятия найти его родовое, видовое, синонимичное и ассоциативное понятие.
Целью создания и использования таких словарей является унификация терминологии, используемой в формализованных документах.
Эти словари способствуют нормализации языка вводных текстов документов.
В заключение отметим достоинства и недостатки дескрипторных ИПЯ по сравнению с ИПЯ других типов.
К основным достоинствам дескрипторных языков можно отнести то, что они позволяют осуществлять эффективный информационный поиск по любому, заранее не предусмотренному сочетанию признаков. Дескрипторные ИПЯ позволяют легко вводить новые термины и учитывать новые информационные потребности.
Кроме того, дескрипторные ИПЯ имеют сравнительно небольшой по объему словарный состав.
Недостатки дескрипторных ИПЯ:
информационный поиск по тематическим запросам сложнее проводить в дескрипторных ИПЯ, чем при использовании иерархических и фасетных классификаций;
составление информационно-поисковых тезаурусов – трудоемким процесс;
дескрипторные языки требуют больше специальных знаний и практического опыта, чем другие ИПЯ;
эффективная реализация ИПС с использованием дескрипторных ИПЯ требует использования специальных технических и программных средств автоматизации.
Вопросы для самопроверки
Что означают понятия «унитерм», «ключевое слово», «дескриптор», «тезаурус»?
Назовите основные виды тезаурусов.
Какие требования предъявляются к структуре тезауруса? Перечислите и дайте характеристику основных этапов разработки тезауруса.
Как осуществляется построение словаря ключевых слов?
В чем заключается дескрипторизация ключевых слов?
Назовите систему грамматических отношений дескрипторного ИПЯ.
Структура ИПТ.
Перечислите основные этапы координатного индексирования.
Назовите основные методы автоматизированного индексирования.
Список литературы
ГОСТ 7.66–92. Индексирование документов. Общие требования к координатному индексированию. – Введ. 01.01.1993. Соотв. ИСО 5963–85.
ГОСТ 7.74–96. Информационно-поисковые языки. Термины и определения. – Введ. 01.07.97.
ГОСТ 7.24–90. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24–80: введ. 01.01.1991. Соотв. ИСО 5964–85.
ГОСТ 7.25–2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – Взамен ГОСТ 7.25–80; введ. 01.07.2002.
Никитина С. Е. Семантический анализ языка науки (На материале лингвистики) / С. Е. Никитина – М. : Наука, 1987. – 276 с.
Лейчик В. М. Терминология информатики: теоретические и практические вопросы / В. М. Лейчик и др. // Итоги науки и техники. – М.: ВИНИТИ, 1977. – Т. 2. – С. 40—53.
Соколов А. В. Информационно-поисковые системы. Автоматизация библиографического поиска : учеб. пособие / А. В. Соколов – Л., 1983. – 86 с.
Информатика : учеб. пособие / под ред. докт. техн. наук, проф. К. В. Тараканова. – М.: Книга, 1986. – 303 с.
Лавренова О. А. Методика информационно-поискового тезауруса / О. А. Лавренова – М.: Пашков дом, 2001. – 56 с.