Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ

П о д г о т о в и т е л ь н ы й э т а п

1.Формулирование задания па экстрагирование, включающего вы­ бор одной из задач: формирование различных видов аннотаций или ре­ фератов или формирование самостоятельных фрагментов или автокон­ спектов; выбор разновидности алгоритма неключевой лексики, соот­ ветствующего задаче экстрагирования; выбор одной из типовых формул выбора, соответствующей задаче экстрагирования; выбор ре­ жима цветовой разметки текста — сплошная разметка или частичная (соответствующая задаче экстрагирования).

2.Запуск программы Word 2000 и вывод на экран очередного доку­ мента, подлежащего аналитико-синтетической переработке.

3.Запуск программы цветовой разметки текста.

4.Включение режима цветовой разметки текста.

О с н о в н о й э т а п

5.Зрительное сканирование размеченного различными цветами текста с фиксацией внимания на фразах и фрагментах, соответствую­ щих требованиям конкретного алгоритма (АНЛ). При этом при нали­ чии коннекторов просматриваются соответственно выше- и нижестоя­ щие предложения.

6.Выделение фраз, релевантных требованиям алгоритма АНЛ, и на­ правление их в «Копилку».

З а к л ю ч и т е л ь н ы й э т а п

7.После завершения операции экстрагирования вывод на экран со­ держимого «Копилки» и выполнение операции постредактирования — введение межфразовых связей (если есть необходимость), согласова­ ние надежных окончаний, единственного и множественного числа и т. д.

8.Присвоение полученному документу имени файла и направление на хранение в соответствующую папку или вывод на печать.

9.Переход к экстрагированию следующего документа.

6.3.1. Формирование аннотаций и рефератов

В случае формирования аннотаций или рефератов возможны две ситуации —общее экстрагирование документа и избирательное экстра­ гирование:

Ситуация 1: не ставятся цели получения конкретной разновидности аннотации или реферата, а довольствуются получением общего экс­

тракта-заготовки, из которой формируют возможные виды вторичных документов, при этом осуществляется режим сплошной цветовой раз­ метки текста и применяется полный алгоритм неключевой лексики. Получение такой «общей» заготовки в практике машинного свертыва­ ния — на современном уровне разработанности технологического про­ цесса —является наиболее частым способом подготовки вторичных до­ кументов типа аннотаций и реферативных аннотаций, которые могут использоваться как при формировании реферативно-библиографичес­ ких пособий, так и в качестве объекта автоматического индексирования при вводе документов в ИПС.

Ситуация 2: выбирается соответствующая задаче экстрагирования формула выбора и соответствующий алгоритм неключевой лексики. Избирательное свертывание предъявляет к процессу экстрагирования более строгие требования. Обычно опытный референт при беглом про­ смотре размеченного текста легко определяет возможность такого из­ бирательного подхода и принимает решение о выборе способа экстра­ гирования.

6.3.2.Формирование минимальных релевантных фрагментов

При формировании самостоятельного реферата-фрагмента (мини­ мального релевантного фрагмента) также возможны две ситуации: 1) фрагментирование всего текста на основе всего перечня маркеров группы M-III (в случае, например, сплошного фрагментирования вход­ ного документального потока) и 2) путем «выращивания» минималь­ ных релевантных фрагментов (в случае необходимости формирования вторичного документа —самостоятельного фрагмента) по специально сформулированному запросу.

В первом случае формула выбора включает один из маркеров груп­ пы M-III и коннекторы. Чтобы раскрыть перечень аспектов того или иного маркера группы M-III, референт должен обратиться к пользова­ тельскому меню и в его списке выбрать маркер, соответствующий ас­ пекту (например, Технологический процесс, Схема, Конструкция, Ме­ тодика, Принцип действия и др.). В этом случае раскроется, к примеру, схема частного алгоритма неключевой лексики «Технологический про­ цесс», включающая аспекты:

—сущность технологического процесса;

последовательность отдельных операций;

объект, подвергавшийся обработке (воздействию); —применяемое оборудование и инструмент;

результаты процесса, свойства полученного продукта;

область применения процесса.

Последующие операции идентичны описанным выше.

Во втором случае — «выращивание» МРФ — формула выбора включает соответствующий маркер группы М-Ш и перечень ключевых слов, отражающих содержание фрагмента и сформулированных в за­ просе (например, М-Ш Метод: Кл. Анализ л Цепь л Магнитная л Дви­ гатель л Асинхронный). В случае обнаружения в тексте фразы, содер­ жащей перечисленные признаки, референт проверяет, используя кон­ некторы, фразовое окружение маркированного предложения с целью очертить его смысловые границы. Последующие операции — выделе­ ние, направление в «Копилку» —аналогичны приведенным выше.

6.3.3. Формирование квазиконспекта

При автоматическом конспектировании, т. е. создании развернутого вторичного документа, предназначенного для индивидуального ис­ пользования, типовой формулы выбора быть не может, поскольку одни и те же аспекты документа для разных пользователей могут иметь раз­ личную информативность. В самом общем виде автоконспектирование сводится к решению двух задач: а) разделению текста на три части — ненужные фрагменты, относительной необходимости («на потом») и непосредственно нужные; б) лексическому свертыванию фраз, относя­ щихся к фрагментам двух последних частей текста.

Вслучае конспектирования в режиме «относительной необходимо­ сти», когда источник обрабатывается с целью вернуться к нему «по­ том», применяется обычно аниотативно-реферативный способ сверты­ вания: в формулу выбора (поисковое предписание) включаются марке­ ры аспектов ПВР, ПП, ЦУ, В, Р, Рек. Если структура документа такова, что эти аспекты в тексте документа (статьи) не четко фиксируются, то тогда следует прибегнуть к функции Word —«Автореферат». Аннотативные функции такой «автореферат» обычно выполняет удовлетвори­ тельно. Таким образом мы получаем массив аннотативных конспек­ тов —задел для последующей работы.

Вслучае конспектирования в режиме «непосредственно нужные» применяется способ фрагментирования методом выращивания МРФ, описанный выше. При конспектировании в этом режиме —а это основ­ ной на практике способ свертывания, в результате которого из текста документа извлекается только непосредственно необходимая для рабо­ ты информация,— главное четко сформулировать на языке ключевых слов (часто с учетом синонимов и парадигматических отношений) по­

исковое предписание с добавлением в него в случае необходимости маркеров III группы, а также результирующих и акцентирующих инди­ каторов. Текст просматривается по методу сканирования с выделением релевантных задаче конспектирования фраз, которые направляются в «Копилку», т. е. выполняется операция предредактирования. Необхо­ димость в постредактировании в данном случае обычно отпадает.

Текст, отнесенный пользователем к двум последним частям текста, в процессе конспектирования одновременно подвергается автоматиче­ скому лексическому свертыванию *. Лексическое свертывание пред­ ставляет собой совокупность операций по преобразованию части лексики документа в обусловленные заранее «свертки», применение которых, не изменяя информативности документа, приводит к сущест­ венному иногда изменению физического объема текста. Здесь, в этот список сокращений, принятых в той или иной области знания, включа­ ются не только общепринятые аббревиатуры, но многие сокращения, принятые в различных справочниках (энциклопедиях, библиографиях и т. п.). Обширный перечень сокращений лексики универсальной тема­ тики использован, например, в «Большой советской энциклопедии». Для автоматической замены в тексте полных слов на их сокращения следует использовать режим Word «Автозамеиа».

Следует отметить, что квазиконспектирование, особенно в случае последнего режима,—один из самых простых и доступных методов ав­ томатизированной обработки документов, поскольку позволяет начать его освоение с минимального набора лексических средств (см. Прило­ жение 2) и собственного «набора» ключевых слов. Естественно, посте­ пенно в силу своих потребностей, следует расширять и совершенство­ вать свой аппарат лексического свертывания. Подспорьем в этой работе может служить словарь маркеров (словесных клише), опубликованный в обзоре В. И. Горьковой и Э. А. Борохова (9, с. 177—189).

Рассмотренные в данной главе элементы технологии, используемые для развития индикаторного метода свертывания текстов, находятся в настоящее время на уровне лабораторных и учебно-методических раз­ работок, тем не менее имеющийся уже «инструментарий» в виде техно­ логической документации вполне позволяет встроить систему «Инди­ катор» в практику работы информационных и библиотечно-библиогра-

* Как известно, существуют две разновидности свертывания текста, семантическое и лексическое. Первое предполагает внесение изменений в план выражения текста с умень­ шением его информативности (плана содержания). Второе — внесения изменений (пре­ образований) в текст без существенного уменьшения его информативности.

фических служб. Конечно, некоторые элементы системы еще нуждают­ ся в доработке — «доводке» лексического аппарата экстрагирования, расширении спектра алгоритмов анализа текста с целью увеличения документальной базы, подпадающей иод влияние данного метода, бо­ лее широкого использования возможностей текстовых процессоров, в частности Word 2000, и прежде всего применения макросов, шаблонов и мастеров. Надо только четко отдавать себе отчет в том, что метод не обладает стопроцентной работоспособностью с точки зрения получе­ ния каждый раз удовлетворительных результатов. Существуют доку­ менты, их процент невысок, которые плохо поддаются свертыванию по рассматриваемой технологии, но метод цветовой разметки сразу позво­ ляет референту (пользователю) выявлять такие документы. И несмот­ ря на этот «минус», пока не известны среди существующих методов ав­ томатизированного свертывания те, которые могли бы конкурировать с предлагаемым с точки зрения избирательности и управляемости про­ цессом аналитико-синтетической переработки текстов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]