Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эскизный проект КСМБ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.72 Mб
Скачать

5.3. Лингвистическое обеспечение кспбм

5.3.1. В автоматизированных информационных системах выделение лингвистического обеспечения (ЛО) из состава информационного обеспечения и оформление его в качестве самостоятельной подсистемы службы или направления деятельности было фактически завершено к 1976 году и получило юридическое закрепление Постановлением от 30.09.81 «Об утверждении единого порядка разработки и развития автоматизированных систем НТИ». В настоящее время этот документ считается утратившим силу.

Основными нормативными актами, определяющими различные аспекты ЛО являются:

  • ГОСТ7.49 – 84 Рубрикатор ГАСНТИ (новое название – Государственный рубрикатор НТИ). Структура, правила использования и ведения.

  • ГОСТ 7.59 – 90 Индексирование документов. Общие требования к систематизации и предметизации.

  • ГОСТ 34.201 – 89 Информационная технология. Комплекс стандартов на автоматизированные системы. Виды, комплектность и обозначения документов при создании автоматизированных систем.

  • ГОСТ 34.003 – 90 Информационная технология. Термины и определения.

  • РД – 50 – 34.698 – 90. Методические указания. Информационная технология. Комплекс стандартов на автоматизированные системы. Требования к содержанию документов.

  • РД – 50 – 680 – 88. Методические указания. Автоматизированные системы. Основные положения.

  • Руководство по применению международного коммуникативного формата UNIMARC.

  • Форматы USMARC. Краткое описание.в 3-х частях.

  • РД - Российский коммуникативный формат представления библиографических записей в машиночитаемой форме (см. также - [24-50]).

5.3.2. Лингвистическое обеспечение определяется с учетом указанных документов, как совокупность применяемых в технологии АБИС информационных языков (ИЯ), лингвистических процессоров и средств поддержки на актуальном уровне лингвопроцессорных и информационно-языковых словарей с целью выполнения следующих системных функций:

  • Эффективный поиск в документальных и фактографических базах данных АБИС по тематическим запросам;

  • Выпуск информационных изданий (только в части формирования систематических рядов в выпусках изданий);

  • Обеспечение межсистемного информационного взаимодействия (в части прямого и обратного конвертирования записей документов и информационно-языковых словарей, их алфавитных и форматных преобразований, а также трансляции ПОДов с языков индексирования конкретной АБИС на ИЯ «посредники» - см. ниже).

Это определение объясняет необходимость отделения в условиях АБИС лингвистического обеспечения от информационного обеспечения.

5.3.3. В документальных БД КСПБМ необходимо обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективными для поиска по широкотематическим запросам являются только классификационные ИПЯ, для поиска по детальным запросам – только вербальные ИПЯ. Тексты на вербальных и классификационных ИЯ не представляются взаимотранслируемыми. Следовательно, в составе ЛО требуется наличие хотя бы одного вербального и одного классификационного ИЯ.

Вопрос наличия в составе ЛО российских автоматизированных информационных и библиотечных систем ИЯ ГРНТИ решен ГОСТом 7.49 – 84 [41]. Одного этого классификационного ИЯ недостаточно, поскольку основная масса публичных библиотек его не использует. Минимум дополнительных классификационных ИЯ, обеспечивающий достаточно большое покрытие потребностей информационного взаимодействия отечественных и зарубежных библиотек это ИЯ - УДК , ББК и ДДК.

Наиболее эффективным среди вербальных ИПЯ является язык ключевых терминов. Наиболее распространенным вербальным ЯИ в библиотеках является язык предметных рубрик.

Однако ПОДы могут транслироваться с ЯИ предметных рубрик на ЯИ и далее на ИПЯ ключевых терминов. Использование в АБИС языка предметных рубрик в качестве ИПЯ представляется проблематичным (сложности с ведением и использованием словаря предметных рубрик, а также синтаксические трудности). Поэтому в состав ЛО КСПБМ язык предметных рубрик включен только как один из допустимых языков индексирования, а как основной – язык ключевых терминов.

Важно отметить, что в системе автоматизированных публичных библиотек Москвы и России ИПЯ ключевых терминов и т.н. «мешочная грамматика» построения ПОДов и поисковых предписаний (ПП) нашли наиболее широкое распространение. Причинами этого являются:

  • Очень широкий тематический состав обрабатываемой литературы, делающий весьма проблематичным использование жёстко нормированной тезаурусами лексики;

  • Отсутствие тезаурусов, охватывающих достаточно широкую тематическую область и отвечающих требованиям обеспечения необходимой глубины и точности индексирования обрабатываемой литературы;

  • Наличие синтаксических трудностей индексирования документов и запросов жёстко нормированными терминами для уровня подготовки персонала автоматизированных библиотек и их пользователей;

  • Относительная простота использования лексики ключевых терминов, близкой к естественному языку и др.

Однако одновременно приходится учитывать, что не контролируемое и не управляемое применение ИПЯ ключевых терминов приводит к значительным потерям в характеристиках полноты и точности поиска. Это связано, в частности, с произвольным выбором и построением индексаторами терминов, которые включаются в ПОДы, и неограниченным использованием синонимии и омонимии. С целью устранения указанных недостатков в КСПБМ должны использоваться методические рекомендации (см. [54, 55] и Приложение 2) по составлению ключевых слов, доработанные к условиям функционирования публичных библиотек и широко используемые уже в настоящее время как в Москве, так и других регионах России.

5.3.4. Лингвопроцессорный состав ЛО КСПБМ, является логическим следствием его информационно-языкового состава.

К числу лингвистических процессоров (ЛП) относятся:

  • Внутренние трансляторы (ВТ), в том числе трансляторы ПОДов с одних ЯИ на другие ЯИ;

  • Коммуникативные трансляторы, в том числе прямые коммуникативные трансляторы (ПКТ), т.е. трансляторы ПОДов с ЯИ на ЯП, и обратные коммуникативные трансляторы (ОКТ), т.е. трансляторы ПОДов с ЯП на ЯИ;

  • Процессоры актуализации лингвопроцессорных и информационно-языковых словарей;

  • Комплекс конверторов.

В состав комплекса конверторов могут входить:

  • Конверторы преобразований алфавитных кодов,

  • Конверторы форматных преобразований,

  • Конверторы лексических преобразований и лексического контроля,

  • Конверторы тематического отбора (только для документографических БД),

  • Конверторы обогащения ПОДов (только для документографических БД),

  • Конверторы диалоговой обработки лексики и др.

Состав используемых средств этого вида на последующих этапах развития Сети будет определён в процессе её технического и рабочего проектирования.

5.3.5. Лингвистическое обеспечение системы КСПБМ должно обеспечить:

  • Индексирование документов и запросов,

  • Эффективный поиск в документальных базах данных по содержательным запросам,

  • Внутрисистемную лингвистическую совместимость электронных каталогов и БД библиотек Москвы а также лингвистическую совместимость КСПБМ с наиболее развитыми библиотечно-информационными сетями регионов России и западных стран, в первую очередь – с OCLC.

5.3.6. Полный состав средств ЛО, в наибольшей степени соответствующего этим задачам помимо упомянутых выше языков индексирования и лингвистических процессоров, должен также включать:

1. Словарные базы данных, используемые в процессах индексирования а также лексикографического и терминологического контроля входных записей документов и запросов пользователей, трансляции ПОДов и ПП с одних языков индексирования на другие, автоматического перевода элементов записей документов, включая:

  • Базу данных ГРНТИ,

  • Базу данных УДК,

  • Базу данных ДДК,

  • Базу данных ББК,

  • Тезаурусную базу данных,

  • Базы данных грамматических словарей.

2. Средства ведения словарей:

  • Процессор словарно-грамматической фильтрации новых слов в ПОДах.

  • Процессор тезаурусной фильтрации новых терминов в ПОДах.

  • Процессоры актуализации словарей.

5.3.7. Функции поддержки ЛО в организационно-технологической структуре КСПБМ должна взять на себя небольшая группа специалистов (2-3 чел.) в составе службы администрации сети Базового центра-провайдера совместно с выделенными для этой цели представителями библиотек, представляющих различные узлы КСПБМ.

***