Максимов Информационные ресурсы и поисковые системы 2008
.pdfражают состояние предметной области. Очевидно, что вследствие ограниченности знаний, а также физической доступности многих изданий, этот список будет неполным, но, тем не менее, достаточным для более или менее успешной ОД. Аналогично, новую рукопись автор отправит в одну из редакций, руководствуясь разными факторами, например, авторитетностью, популярностью или даже нетребовательностью издания. В свою очередь, редакция, рассматривая рукопись, может счесть содержание не соответствующим тематике или уровню издания и отклонить её.
Процесс рассеяния имеет устойчивые закономерности. Журналы, которые посвящены непосредственно данной отрасли или предмету, образуют некоторое ядро, вокруг которого можно построить кольцевые зоны, содержащие столько же публикаций по данному вопросу, что и ядро. Этот закон С. Брэдфорд сформулировал следующим образом: «Если научные журналы расположить в порядке уменьшения числа помещенных в них статей по какомулибо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп, каждая из которых содержит столько же статей, что и ядро. Тогда число журналов в ядре и в последующих группах будет относиться как 1 : n : n2…». То есть, поскольку процесс генерации-публикации сообщений по своей природе является открытой динамической системой, тематическое распределение материалов по изданиям будет иметь ранговый характер.
Отметим, что свойство рассеяния информации собственно указывает не на ослабление, а на необходимость усиления межотраслевых связей. Именно поэтому при поиске информации следует сосредоточиваться не только на профильных для какой-либо отрасли науки или техники источниках, но и искать информацию в других, даже весьма отдаленных отраслях. По некоторым данным до 50% всей научной информации, получаемой современным исследователем, извлекается из смежных областей знания, причем именно она является наиболее значимой.
Здесь также следует отметить и не отраженную в явной форме специфику разделения информационных потоков по видам до-
31
кументов соответственно этапам жизненного цикла объекта ОД1. Сложившаяся система информационных коммуникаций включает:
-«серую литературу» (отчеты о НИР и диссертации, впервые представляющие новые решения или гипотезы, еще не прошедшие широкую проверку практикой), представленную отдельными экземплярами;
-опубликованную научную информацию (статьи и монографии), отражающую в основном апробированные результаты, и изданную достаточно представительными тиражами;
-патенты – правовые документы, объективно отражающие область и уровень предлагаемых решений;
-экономическую, коммерческую и общественнополитическую информацию.
Основные ресурсы и инструменты информационной поддержки задач ОД разного типа приведены в табл. 1.1.
Концентрация информации достигается в процессе, который иногда называют свертыванием (т. е. обобщением, агрегированием).
Концентрация в сфере информационной деятельности проявляется, по крайней мере, в трех формах: документационной, фактографической и теоретико-концептуальной [20].
1 Это означает, что реально цикл информационного обмена представляет собой спираль воспроизводства информации: результаты этапа фундаментальных исследований становятся основой на этапе прикладных исследований и разработок, которые в свою очередь, внедряются в производство и т.д. Причем каждый этап, естественно, включает все компоненты информационной деятельности.
32
Таблица 1.1
Основные цели, ресурсы и инструменты информационной поддержки
Первая – документационная форма связана в основном с библиотечной и информационно-поисковой практикой, где в качестве единицы информации выступает документ. Простейшим из них является библиографическая обработка документов, в результате которой в обобщенном виде представляются основные, главным образом внешние идентификационные признаки документа (автор, заголовок, выходные данные и т. п.).
Более емким является реферирование, которое предполагает извлечение из документа основных положений содержания и их представление в виде реферата. Близким к этому виду концентра-
ции информации является классифицирование и индексирование, в
результате которого на некотором специальном, обычно искусственном, языке отражаются с большей или меньшей степенью глубины и полноты тематические или фактографические признаки содержания документов. Все эти виды концентрации информации предполагают неизбежные потери информации, поскольку в получаемом таким образом вторичном документе отражаются только основные аспекты содержания документов. Отметим также, что своеобразной формой концентрации информации является метаинформация, например, системы классификации и кодирования, тезаурусы и онтологии предметных областей.
Таблица 1.2 Рассеяние/концентрация и доступность информации
Вторая форма – фактографическая концентрация информации, ориентирована не на отдельный документ, а на совокупность
34
фактов или сообщений по определенной теме или проблеме. В качестве таких форм могут выступать реферативные обзоры, фактографические информационные картотеки и т. д.
Третья, высшая форма – теоретико-концептуальная концентрация информации – это такое преобразование (свертывание, агрегирование), которое позволяет представить научное знание на более высоком уровне обобщения. Примером являются аналитические формы представления математических зависимостей, законы, теоремы, позволяющие выводить различные следствия и т. д.
Характер рассеяния/концентрации и доступности в «традиционной» или электронной форме информации различных видов иллюстрирует пример, приведенный в табл. 1.2.
Отметим в заключение, что именно возможность работы с компактными хорошо структурированными вторичными документами (а не с их полнотекстовыми представлениями), предметно отражающими содержание первичного документа и обеспечивающим его идентифицируемость, как в целом, так и на уровне отдельных элементов данных, позволяет рационально реализовать поиск информации в сверхбольших документальных потоках.
1.4. Обобщенная схема информационного обслуживания
Схему взаимодействия потребителей-поставщиков информации (см. рис.1.1) в общем случае можно преобразовать в схему информационного обслуживания, представленную на рис. 1.2.
Здесь информационные ресурсы, наряду с оригинальным авторским представлением материала, в большинстве своем характеризуются высокой систематизированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием метаинформации: поисковых образов документов и систем вторичной информации – рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ресурсам.
35
Рис. 1.2. Обобщенная схема информационного обслуживания
Операционными объектами собственно машинного поиска являются поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ), соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Установление же истинного соответствия содержания документа информационной потребности предполагает соотнесение на смысловом уровне: пользователь как бы реконструирует возможное содержание по основным понятиям, представленным в ПОД, и далее полученный образ соотносит с реальной потребностью. При этом адекватность образа действительному содержанию документа определяется не только качеством индексирования, но и уровнем знания субъектом средств отражения – концептуальной схемы предметной области и возможностей информационно-поискового языка.
Применительно к конкретному информационному сообщению можно сказать, что каждый элемент ИД осуществляет семантические или форматные (но не синтетические) преобразования этого сообщения, внося ту или иную неопределенность. Например, неопределенность, вносимая структурно-форматными преобразованиями (выделение формальных поисковых признаков, форма представления и распространения сообщения и т. д.), может приводить к ненахождению, а неопределенность семантическая (адаптация содержания требованиям издания, например) – к неузнаванию.
Вследствие этого, информационно-поисковая деятельность должна представлять собой не одноактную, в общем случае, итеративную последовательность действий, обеспечивающих не только получение полезной информации, изменяющей состояние потребителя (точнее, в части решения задачи его ОД), но и данных, позволяющих объективно (и, желательно, количественно) оценить прагматические свойства найденной с помощью АИПС информации – полноту, достоверность, актуальность и т. д.
Это подчеркивает активную роль потребителя в «получении» информации: связь (типа 5-1 на рис. 1.1), выполняющая передачу информации, инициируется не системой, как это следовало бы из направления стрелки, а наоборот, обращением потребителя посредством АИПС к ресурсу, выбираемому им же, и именно он должен оценить результат взаимодействия и принять решение о его завершении или выборе другого ресурса.
37
Следует также отметить, что важной, но мало замечаемой, особенностью является принципиально разное восприятие пользователем и системой основных информационных объектов – документов и запросов. Человек рассматривает их как носители информации (смысл которой в общем случае может быть различным в зависимости от точки зрения пользователя), выделяя и преобразуя при этом отдельные фрагменты (часто не совпадающие с текстовым предложением, параграфом и т.п.) так, чтобы в сознании возникли устойчивые образы и понятия. Для АИПС те же объекты – это совокупности данных, из которых механически (не извлекая и не преобразуя смысла) выделены термины (слова, словосочетания, шифры, даты и т.д.), которые и сравниваются с терминами запроса.
Далее, человек считает документ полезным (наиболее соответствующим запросу), если тот несет новую, ранее не известную информацию, т.е. дает или позволяет найти ответ на некоторый вопрос («как?», «что?») при решении практической задачи. Система же считает наиболее соответствующим запросу документ, который содержит наибольшее количество терминов из запроса. То есть вполне вероятно, что пользователю в первую очередь будут выданы наиболее знакомые документы, возможно написанные им же, что вряд ли принесет ему новое знание.
Еще один важный момент связан с понятием структура документа. Для человека это понятие в большинстве случаев (по крайней мере, для текстовых документов) ассоциируется с удобством восприятия, т.е. описание структуры практически не используется, поскольку отдельные информационные поля документа узнаются обычно по косвенным признакам (угадываются). Для автоматизированных систем понятие структуры является неотъемлемым и изначально определяющим. Более того, для каждого структурного элемента (реквизита) документа обязательно определен свой формат, имя и, возможно, свой метод обработки. Например, способы записи дат или разные правила выделения терминов в разных текстовых полях (во многих системах знак пробела в поле ключевых слов не считается признаком разделения, позволяя таким образом выделять словосочетания).
38
1.5. Типология поисковых задач и форма выражения запроса
В зависимости от характера задачи основной деятельности пользователя по степени соотношения известного/неизвестного в предмете поиска можно выделить три типа поисковых задач.
К задачам первого типа относится поиск объекта, когда известно, что этот объект существует (например, поиск фактографии или трудов конкретного автора). Знания пользователя об искомом объекте полные, цель поиска – найти его документальное представление. Модель такого «атрибутивного» поиска может быть представлена как логическое выражение над именами понятий, задаваемыми терминами или их комбинациями.
Второй тип задач – подбор информации по некоторой теме, например, для обзора научной проблемы, обоснования или поиска метода решения научной или практической задачи. Пользователь, уже обладая знаниями, определяет место задачи (как вновь вводимое понятие в системе уже известных понятий), ищет документы, содержащие материал, с необходимой полнотой раскрывающий новую для него тему, или дающий возможность построения нового метода решения задачи. Поисковая модель в этом случае – это частично известные понятия, связи или комбинации. Тематический поиск реализуется как последовательность атрибутивных поисков, каждый из которых соответствует определенному (априорно заданному) аспекту представления объекта поиска.
Третий тип задач представляет собой проблемный поиск, который, по сути, является основной составляющей творческого процесса определения путей решения профессиональной задачи пользователя. Здесь изначально отсутствует четкость структуры знания: пользователь располагает отдельными фактами, возможно, не имеющими между собой доказанных связей. Проблемный поиск
– это нахождение описаний объектов или их составляющих, актуально или потенциально существующих, и в совокупности, возможно, образующих целое, свойства которого возможно будут больше суммы свойств частей. То есть этим свойствам в явной форме могут не соответствовать «собственные» атрибуты, а новое свойство, например, может быть задано комбинацией уже извест-
39
ных атрибутов. В этом случае к неопределенности отображения объекта на предметную область ИС, свойственной тематическому поиску, добавляется неопределенность на уровне «субъект-объект ОД»: представление, которое субъект имеет об объекте поиска, может не соответствовать представления конкретного источника. Логическая поисковая модель для этого случая – поиск «похожих» документов, содержание которых некоторым образом ассоциируется с задачей пользователя.
Собственно и информационная потребность имеет несколько форм, соответствующих разным стадиям процесса познания (когнитивным состояниям потребителя информации), для которых характерна разные формы проявления знания о незнании объекта поиска.
Реальная информационная потребность, отражая проблем-
ную ситуацию пользователя в несистематизированной форме (она еще не вполне осознана), характерна для начальной стадии ОД.
В процессе понимания проблемной ситуации реальная ИП преобразуется в осознанную ИП, представленную в виде вопроса или задачи на привычном естественном или научном языке, и затем преобразуется в поисковый запрос. Для запроса характерно то, что вопросы типа «Как?» и «Почему?» должны быть преобразованы в вопрос типа «Есть ли?», поскольку именно такая форма представления потребности является наиболее адекватной теоретикомножественной модели поиска. Преобразование вопроса в запрос происходит в сознании человека и имеет качественный характер. Переход от реальной к осознанной ИП тем сложнее, чем менее определена задача ОД: для задач проблемного типа этот переход наиболее труден, так как пользователь не представляет, какая именно информация нужна для решения его задачи и не изменит ли она саму постановку задачи. Наиболее адекватной формой представления осознанной ИП как поискового запроса может быть семантическая сеть – граф понятий, характерных для объекта поиска.
Поисковый образ запроса – это выраженная ИП – представляется лингвистическими средствами конкретной АИПС, причем лексический состав ПОЗ уже в значительной степени будет зависеть от особенностей выбранного информационного ресурса. Формирование ПОЗ, в отличие от других форм ИП, производится в
40
