Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

6.Поисковые задачи и технологии информационного поиска

Взадачах информационного поиска качественно различают две составляющие: концептуальную и технологическую.

Кконцептуальным составляющим относятся, прежде всего, методы и средства представления собственно информации (знаний) и метаинформации, которые используются в качестве основы как для проектирования механизма поиска, так и для организации процессов взаимодействия пользователя с АИПС.

Ктехнологическим составляющим относятся средства пользовательского интерфейса, алгоритмы индексирования и поиска, языки запросов, средства интеграции информации из различных источников и т.д.

Как отмечалось ранее (см. главу 2), принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по

существу, уже не разделяет свою деятельность на информационную и основную37.

Особенности технических решений при проектировании и эксплуатации автоматизированных информационных систем, ориентированных на информационную поддержку основной деятельности и интегрирующих такие специализированные функции, как поиск, обработка и организация информации, определяются двумя следующими, имеющими разную природу, факторами.

1.Используемые информационные ресурсы (ИР), наряду с оригинальным авторским представлением материала, в большинстве своем характеризуются высокой систематизированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов и систем вторичной информации – рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ресурсам).

2.Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется

уровнем знания пользователем содержания ресурса (полноты

37 Это особенно важно учитывать в задачах информационного обеспечения научных исследований, когда объект поиска не может быть четко определен заранее и когда цель поиска, сформулированная на начальной стадии работы, может измениться уже в процессе самого поиска, например, при ознакомлении с найденным документом. Причем факт изменения цели возможно даже не будет явно осознан исследователем, что в итоге может привести к неполному результату поиска.

209

представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал).

6.1. Динамика информации в системах основной и информационной деятельности

Взаимодействие пользователя с комплексом разнородных информационных ресурсов должно рассматриваться как процесс, зависящий от двух групп основных факторов. С одной стороны – это свойства информации и закономерности информационных преобразований в сфере основной деятельности (ОД), учитывающие специфику восприятия и переработки человеком как основной (целевой) информации, так и технологической, обеспечивающей условия его взаимодействия с информационной средой. С другой стороны, организация информационного пространства должна рассматриваться как задача такого управления ИР, при котором персональная АИС пользователя позволяла бы работать с ними как с единым ресурсом, что требует решения вопроса об идентификации ресурсов, а на уровне потребителя информации связано с проблемами разработки интерфейсов и средств доступа, обеспечивающих персонификацию представления информационных объектов.

Рассмотрим обобщенную схему воспроизводства информации, в основу которой положено предложенное в [Попов1996] представление совокупной информационной системы (генератор – потребитель информации), определяющее исследуемые объекты и процессы автоматизации в контексте взаимозависимости основной и собственно информационной деятельности (рис. 6.1).

С точки зрения задач управления потоками здесь можно различить две совокупности процессов: формирование потока информации

(документов) в соответствии с заданными характеристиками (тематичность, полнота охвата и т.д.) и распределение входных и выходных потоков и их составляющих в соответствии с информационными потребностями38. И, если основная деятельность имеет дело с поиском и содержательной обработкой научной информации (т.е. сообщениями, описывающими некоторые свойства исследуемого объекта), то научно-информационная – это по возможности инвариантные относительно смысла преобразования текста в форму, приемлемую для автоматизированной идентификации, хранения и поиска.

38 Отметим, что информационные потребности и запросы также можно рассматривать как поток информации - гипотетической или в какой-то части неактуализированной.

210

Факторы, определяющие

 

 

 

Факторы,

 

Отрасль-ориентированная ПрО

 

определяющие

целевое использование ИР

Проблемно-ориентированная ПрО

 

доступность ИР

 

 

 

 

 

 

Инф. Потребн.

Интерпретация

Поиск

 

Метаинформация

Условия восприятия

результата поиска

 

(семантика/

 

 

Представление ИР

структура)

 

Д-т

 

 

под

 

 

 

 

 

 

 

Исходная

 

···

 

 

информация

 

 

 

 

 

 

Наличные знания

 

 

 

Автоматизированные

Решение задачи ОД

 

Генерация

информ. системы и

 

 

технологии

(теория,

 

 

ИР

 

 

 

методология,

 

 

 

 

 

Результат

 

Документопоток

 

 

ОД

 

 

 

 

 

 

Система

Отрасль-

Оформление

Комплектование (отбор/

Отраслевой спектр

представления

ориентированное

сообщения

представление)

комплектования

знаний в предметной

представление смысла

 

 

ресурса

области

результата

Д-т

 

 

 

Сообщ

 

 

 

Рис. 6.1. Обобщенная схема воспроизводства информации

 

По характеру информации в совокупной системе (рис. 6.1) можно выделить три следующих уровня преобразования информационных объектов.

Первый уровень – это основная деятельность, где объектами являются предметы реального мира, а результатами – новое знание. Носителем информации этого уровня является человеческое сознание, для которого характерны системность организации и ассоциативность выборки, а коммуникационным объектом является сообщение – знание, адресно отраженное на систему понятий предполагаемого приемника - потребителя информации.

Второй уровень – создание общественно-полезной информации – одна из форм овеществления знаний через обобществление результатов в документальной форме. Средством представления знаний (коммуникаций) здесь является язык, а носителем – документ как функционально ориентированное сообщение, структурирующее информацию и идентифицирующее ее, например, путем выделения логических или физических частей - семантически однородных полей.

Третий уровень – собственно информационная деятельность – управление потоками информации для обеспечения основной деятельности. Работа с компактными по объему вторичными документами, позволяет совершенствовать процесс поиска нужных сообщений. Здесь информация (поисковый образ документа) – это хорошо структурированный материал, компактно и предметно отражающий содержание документа, а также обеспечивающий идентифицируемость документа в целом и на уровне отдельных элементов данных.

Для выявления характера взаимосвязи информационных объектов используем приведенное в гл. 1 определение понятия «информация» как отражения результата упорядочения и ограничения разнообразия описаний объектов ОД и их взаимосвязей (в реальном мире) в соответствии с требованиями, обуславливаемыми возможностями средств представления (языка описания). Отсюда следует, что использование абстракций различного порядка в итоге дает возможность (упрощая описание объекта одного семантического уровня за счет введения объектов другого уровня) представлять объекты с помощью конечного числа терминов. Соотношение и характер взаимосвязей информационных объектов, форм и средств их представления, рассматриваемых в контексте задач информационного обеспечения основной деятельности, приведены на рис.6.2.

Здесь преобразование форм представления информации является последовательным отражением содержания, а по существу - фильтрацией информации путем снижения разнообразия форм и аспектов представления смыслового содержания через вынесение части смысла в метаинформационную составляющую или простое отбрасывание.

198

Например, сообщение предполагает фиксацию (ограничение) предметной области; документ – фиксацию вариантов способа представления через выделение семантически однородных полей и, соответственно, определение характера и способа их наполнения; поисковый образ фиксирует способы указания значения отдельного элемента (типа данных).

Соответственно, адекватность средств отражения информации (а в случае информационно-поисковых систем это средства лингвистического обеспечения) должна рассматриваться как с точки зрения возможности неискажающего преобразования самой информации в цепи генерации-потребления информационного ресурса, так и с точки зрения адекватности восприятия пользователем функциональных возможностей этих средств.

199

Информация

Отбор документов при

Потребность

 

поиске в БД

 

ПОД

 

ПОЗ

Документ

ИПЯ

Знание ИПЯ

Выражение

 

 

 

ИП

 

Структура ИПЯ

Словари

 

Сообщение

Язык научн.

Знание языка

Постановка

 

коммуникаций

 

поиск. задачи

 

Структура языка

ИПТ

 

Новые знания

Язык ПрО

Знание ПрО

Формализованная

 

 

 

ИП

Объекты

Системы

Основные понятия

Реальная

исследований

знаний

и закономерности

потребность

Рис. 6.2. Уровневая модель взаимосвязи информационных объектов