Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

Блюменау Д. И.

Информационный

анализ/синтез

для формирования вторичного потока документов

Учебно-практическое пособие

и з д а т е л ь с т в о

Санкт-Петербург

2002

ББК73

Блюменау Д. И.

Б37 Информационный анализ / синтез для формирования вторичного потока документов. — СПб.: Изд-во «Профессия», 2002. — 240 с.

(Серия «Специалист»).

Рассматриваются основные положения теории свертывания ин­ формации, а также методические принципы, лежащие в основеопераций интеллектуальной и автоматизированной компрессии текстов в целях формирования вторичных документов.

Пособие предназначено для всех специалистов, занимающихся аналитико-синтетической переаботкой информации, а также для студентов, аспирантов и преподавателей университетов культуры и филологических факультетов вузов.

ISBN 5-93913-033-Х

 

ББК73

ISBN 5-93913-033-Х

© Издательство «Профессия», 2002

 

 

© Блюменау Д.И., 2002

ВВЕДЕНИЕ

Курс «Информационный анализ/синтез» занимает одно из веду­ щих мест в профессиональной подготовке широкого круга работников информационной сферы —информатиков, библиографов, библиотека­ рей, редакционно-издательских работников, переводчиков, журналис­ тов, референтов... В различных учебных заведениях этот курс называет­ ся по-разному, в том числе «Аналитико-синтетическая переработка информации», «Элементы теории свертывания информации», но со­ держание курса, по сути, остается практически одним и тем же. Везде он выступает в качестве интегральной дисциплины но отношению к це­ лому ряду наук социально-коммуникационного цикла —информатике, библиотековедению, рекламоведению, архивоведению, журналистике и др. Это значит, что данный курс аккумулирует в себе целый ряд поло­ жений, общих для указанных наук, подводит под эти положения еди­ ную теоретическую и методическую базу и тем самым выступает для них в качестве единого научного метаязыка.

Предметом изучения курса «Информационный анализ/синтез» яв­ ляются процессы аналитико-синтетической переработки информации (текстов) с целью создания документов различной формы свернутости (развернутости), выполняющих определенные функции в системах со­ циальных коммуникаций. Особую актуальность приобретает эта дис­ циплина в настоящее время в связи с широким внедрением в процессы информационного анализа и синтеза средств компьютерной техники, что влечет за собой необходимость разработки специальных алгорит­ мических процедур и поисковых языков, обеспечивающих формирова­ ние широкого спектра так называемых вторичных документов —поис­ ковых образов, аннотаций, рефератов, фрагментов, квазиконспектов, квазиобзоров, квазихрестоматий и др.

Работы в области автоматизации свертывания информации (авто­ матического индексирования, реферирования, перевода) ведутся уже с начала 1950-х годов, и за эти годы был создан ряд экспериментальных и практических действующих систем, в которых доля человеческого фак­

тора с каждым годом постепенно уменьшается. Однако, если при разра­ ботке систем автоматизированного свертывания информации первая их составляющая — тематический поиск документов для анализа и син­ теза — уже достаточно давно из научных перешла в разряд технических, то вторая составляющая этих систем —поиск и экстрагирование из до­ кументов минимальных смысловых релевантных фрагментов, из кото­ рых формируются различные виды вторичных документов —находит­ ся преимущественно еще в стадии лабораторных исследований и требу­ ет значительных усилий разработчиков информационных систем и, в частности, подготовки специалистов, владеющих основами компьютер­ ного анализа и синтеза информации.

Прежде чем приступить к изложению теоретических и методичес­ ких положений, относящихся к нашему курсу, следует предварительно ознакомиться с исходными базовыми понятиями, терминами, образую­ щими терминологический аппарат данной области знания. Некоторые из этих понятий будут объясняться но ходу изложения материала, но большая часть из них —в специальном словаре терминов, приведенном в Приложении 1.

Начать надо, видимо, с понятия «Информация», поскольку курс на­ зывается «Информационный анализ/сиитез». Существует-большое число различных определений этого феномена (что, по всей вероятнос­ ти, свидетельствует о недостаточности каждого из них). Например: ин­ формация —это содержание какого-либо сообщения. Или: сведения о чем-либо, рассматриваемые в аспекте их передачи в пространстве и вре­ мени. Или: содержание связи между материальными объектами, прояв­ ляющееся в изменении состояния этих объектов. Частным случаем по­ следнего понимания будет определение: информация — это сведения, представленные в форме знаков, понятных членам общества и способ­ ных изменить уровень их знаний о внешнем мире, т. е. изменить состо­ яние их тезаурусов. Можно, наконец, дать и такое определение: инфор­ мация — это результат рефлексии живой системы (возможно, не только в ее белково-нуклеиновом варианте) па воздействие материальных структур, воспринимаемых в качестве кода.

Каждый может придерживаться любого из перечисленных опреде­ лений и множества иных. В данном пособии предлагается понимать иод информацией, точнее научной, еще точнее — профессиональной ин­ формацией, сведения, которые являются объектом хранения, преобра­ зования и распространения в системе социальных коммуникаций. Та­ кое определение охватывает всю научную, техническую, производст­ венную и управленческую литературу (документацию). Для наших целей такого определения вполне достаточно, хотя вопрос о содержа­

нии понятия «информация» в соответствующем месте потребует более подробного рассмотрения.

Нами различаются понятия «научная деятельность», «информаци­ онная деятельность», «информационное обслуживание» и «информа­ ционное обеспечение».

Цель н а у ч н о й д е я т е л ь н о с т и (в нашем аспекте рассмотре­ ния) — переработка информации для создания новой научной инфор­ мации. Частью научной деятельности является и н ф о р м а ц и о н н а я д е я т е л ь н о с т ь как совокупность операций но восприятию, перера­ ботке и выдаче информации в рамках системы научных коммуникаций. Эти операции не о т д е л и м ы от научного творчества специалистов.

И н ф о р м а ц и о н н о е о б с л у ж и в а н и е —область профессио­ нальной информационной деятельности, направленной на удовлетво­ рение различных информационных потребностей. Информационное обслуживание включает операции оформления, сбора, аналитико-син­ тетической переработки, хранения, поиска и распространения инфор­ мации, выполняемые профессиональными отрядами информационных работников (информаторами, библиотекарями, библиографами, пере­ водчиками, издательскими работниками и многими другими) с целью повышения эффективности творческой деятельности специалистов науки и техники. Перечисленные операции в большинстве случаев мо­ гут быть о т д е л е н ы от творческой деятельности специалистов и в силу специализации более квалифицированно выполняться информа­ ционными работниками. (Надо при этом только иметь в виду, что вы­ полнение операций информационного обслуживания также включает в себя операции информационной деятельности — восприятие, перера­ ботку и выдачу информации.)

Следует отметить два момента: а) Границы между операциями ин­ формационной деятельности и информационного обслуживания не очень резкие. Так, например, специалисты, занимающиеся поисковыми НИР (научно-исследовательскими работами), операции поиска ин­ формации предпочитают проводить самостоятельно, не перепоручая их информационному работнику. В этом случае поиск информации неот­ делим от творческого процесса, выполняемого специалистом, и являет­ ся частью информационной деятельности. Понимание относительнос­ ти границ между информационной деятельностью и информационным обслуживанием в различных сферах (НИР, ОКР, промышленное про­ изводство) важно при определении меры вмешательства информаци­ онного работника в творческий процесс специалиста, б) Информаци­ онным обслуживанием, видимо, и в дальнейшем будут заниматься не только информационные работники, но и сами специалисты науки и

техники (например, некоторыми видами копцептографического ин­ формационного обслуживания).

По способу удовлетворения информационных потребностей ин­ формационное обслуживание разделяется на три вида: 1) документаль­ ное, в процессе которого специалистам предоставляются первичные до­ кументы (необходимые факты и концепции из которых специалисты извлекают самостоятельно); 2) фактографическое —путем непосредст­ венного (минуя первичные документы) предоставления им фактов и концепций; 3) концептографическое — путем представления им раз­ вернутой или интерпретированной информации.

Ин ф о р м а ц и о н н о е о б е с п е ч е н и е — это комплекс методов

исредств документального, фактографического и концентографического обслуживания, используемых для удовлетворения информацион­ ных потребностей в конкретной научно-технической ситуации.

Достаточно распространенным является мнение, что информацион­ ное обслуживание функционирует только в рамках имеющегося знания

и«не доходит до получения нового знания», однако такая форма ин­ формационного обслуживания, как концептографическое обслужива­ ние, «доходит до получения нового знания». О каком в данном случае новом знании идет речь? В этой связи различаются два основных вида знания (в сфере науки, техники, управления и т. п.): системное и ситуа­ тивное. Именно такое расчленение понятия «знание» позволяет доста­ точно четко разграничить сферу информационного обслуживания и сферу информационной деятельности как органической части деятель­ ности научно-исследовательской, конструкторской и нр.

Системное знание — это совокупность (система) предложений (су­ ждений) науки, фиксирующих устойчивые, необходимые связи и свой­ ства предметов и явлений объективного мира. Например: «Общая мас­ са (вес) веществ, вступающих в реакцию, равна общей массе (весу) иродуюгов реакции»; «Невозможно доказать непротиворечивость фор­ мальной системы средствами самой системы»; «Установлено, что в ат­ мосфере Марса содержится около 5 % аргона»; «Биполярный транзис­ тор представляет собой монокристаллическую полупроводниковую нластипу?в которой с помощью напыления в вакууме созданы три об­ ласти с дырочной и электронной проводимостью» и т. д., и т. и. Систем­ ное знание составляет структуру науки и техники и является конечной целью научно-технической деятельности.

Ситуативное знание — предложения науки и техники, которые от­ ражают не устойчивые и необходимые, а временные, конъюнктурные, соотнесенные с определенной ситуацией связи и отношения. Такие предложения не являются элементами науки как системы, а служат той

«средой», в которой развивается и формируется системное знание и на основе которого чаще всего и принимаются инженерные и управляю­ щие решения. Ситуативным это знание называется потому, что в нем содержатся описание и оценка фактов и концепций, исходя из особен­ ностей конкретной ситуации. К ситуативному знанию поэтому отно­ сится также описание состояния, тенденций и перспектив развития тех или иных научно-технических объектов. Примеры предложений ситуа­ тивного порядка: «В последние годы отмечается повышенный интерес к проблеме свертывания информации»; «Процесс становления инфор­ матики как самостоятельной научной дисциплины близок к заверше­ нию» и т. д. Формулирование нового системного знания —безусловно, «прерогатива», специалистов науки и техники, формулирование ситуа­ тивного знания —в целом ряде случаев область концентографического обслуживания. При этом совершенно непринципиально, кто в данном случае занимается концептографическим обслуживанием — штатный ли работник той или иной информационной службы или специалист народного хозяйства (в большинстве случаев и не подозревающий о том, что в этот момент он занимается не научной деятельностью, а ин­ формационным обслуживанием). Главное в том, что изучение законо­ мерностей процессов, лежащих в основе концептографического инфор­ мационного обслуживания, и разработка его методического аппарата находятся в сфере информатики.

Такой же подход правомерен и к рассмотрению понятий анализ и синтез. В разных сферах — сфере информационной деятельности, явля­ ющейся, как мы уже знаем, неотъемлемой частью научной деятельно­ сти, и сфере информационного обслуживания —содержание этих по­ нятий не эквивалентно. Анализ научный — это метод исследования, состоящий в том, что изучаемый предмет расчленяется на составные элементы, каждый из которых рассматривается в отдельности как часть расчлененного целого.

Анализ обычно осуществляется для того, чтобы выделенные в ходе его элементы с помощью синтеза соединить в единое целое с одновре­ менным получением новых знаний. Синтез научный есть метод иссле­ дования, состоящий в соединении частей предмета, расчлененного в хо­ де анализа, в установлении взаимодействия и связей частей, в познании предмета как единого целого. Таким образом, анализ осуществляется в интересах синтеза, который невозможен без анализа. Именно поэтому в названии нашего курса анализ и синтез пишутся вместе через косую черту.

В сфере информационного обслуживания применяются информа­ ционные анализ и синтез. Первый предполагает преобразование доку­

мента с целью извлечения из него наиболее существенных, релевант­ ных задаче анализа, сведений (компонентов текста) —слов, фраз, фраг­ ментов, второй —обобщение, объединение этих сведений (иногда с их оценкой, интерпретацией) с целью получения так называемых вторич­ ных документов различного функционального назначения —от наибо­ лее простых (библиографические описания, аннотации, отдельные факты) до более сложных (обзоры, систематизированные подборки фактов, дайджесты и др.).

Это же относится и к понятию «о б о б щ е и и е »: в научной деятель­ ности под обобщением понимают мысленное выделение каких-либо свойств, принадлежащих некоторой совокупности предметов, и форми­ рование такого вывода, который распространяется на каждый отдель­ ный предмет дайной совокупности. Обобщение ведет к познанию все более глубокой связи между предметами реального мира и их свойства­ ми. В этом случае обобщение —познавательный прием и результатом его в частном случае является с и с т е м н о е знание.

При информационном обслуживании обобщение понимают как операцию представления текста на более высоком понятийном уровне путем опущения видовых признаков или малоинформативных элемен­ тов текста. То же относится и к понятиям «оценка» и «интерпретация»: в одном случае (в случае научной деятельности) оценка может быть произведена на основе полученных данных эксперимента, теоретичес­ ких расчетов или новых технических решений, уточняющих или опро­ вергающих прежние представления о каком-либо объекте, в другом (информационное обслуживание) — на основе имеющихся в общест­ венном тезаурусе знаний. В результате такой оценки и интерпретации формируется с и т у а т и в н о е знание.

Следующее терминологическое уточнение: факт —это констатация в прошлом или настоящем отдельного предмета, процесса, события с их характеристикой; концепция — осмысление взаимосвязи между факта­ ми. Так, «Волга впадает в Каспийское море» —факт; «Сила равна массе, умноженной на ускорение» (Второй закон Ньютона) —концепция.

Важным в теории и практике информационного анализа и синтеза является различение таких понятий, как « п е р в и ч н ы й д о к у ­ м е н т » и « в т о р и ч н ы й д о к у м е н т » . Первый является объектом информационного анализа, второй — результатом информационного синтеза. Существуют три точки зрения, три подхода к разграничению первичности и вторичности:

1. К н и г о в е д ч е с к и й подход — первичными документами яв­ ляются все первоиздания (оригиналы), вторичными —их переиздания.

2. Г н о с е о л о г и ч е с к и й подход —первичные документы несут неизвестные ранее факты и концепции (например, в научно-техничес­ ких отчетах, патентах, диссертациях, монографиях и т. п.); вторичные — уже известные (в той или иной степени компилятивные) сведения (на­ пример, в учебниках, справочниках, научно-популярной литературе, реферативных изданиях и т. п.).

3. Б и б л и о г р а ф и ч е с к и й подход —к первичным документам относятся все документы, созданные в сфере информационной дея­ тельности (как части научной, технической, педагогической, управлен­ ческой и т. д.), к вторичным —документы, отражающие в себе содержа­ ние первичных на различных уровнях их свертывания (развертыва­ ния), т. е. созданные в сфере информационного обслуживания.

Первый и второй подходы находятся вне непосредственной сферы интересов информатики, и потому в дальнейшем будем при различении первичных и вторичных документов опираться преимущественно на библиографический подход.

Таким образом, аналитико-синтетическая обработка (переработка) информации как самостоятельная операция присуща и информацион­ ной деятельности, и информационному обслуживанию. В первом слу­ чае она преследует цель формирования, прежде всего, нового системно­ го знания, во втором случае —свертывание (развертывание) и интер­ претацию на основе уже имеющегося знания.

Рассмотрим более подробно содержание понятия «свертывание ин­ формации» и его специфичность в различных сферах научной и инфор­ мационной деятельности

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]