- •Информационные системы
- •ВВЕДЕНИЕ
- •1. Информация. Основные свойства и определения
- •1.1. Информация как основной предмет информатики
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.2.1. Информация
- •1.2.2. Данные
- •1.2.3. Знания
- •1.3. Свойства информации
- •1.3.1. Кумулятивность информации
- •1.3.2. Концентрация информации
- •1.3.3. Эмерджентность и неассоциативность информации
- •1.3.4. Стaрение информации
- •1.3.5. Межотраслевые свойства и рассеяние информации
- •1.4. Информационные единицы
- •Контрольные вопросы
- •2. Информационные системы и технологии обработки информации
- •2.1. Состав и структура информационной системы
- •2.1.1. Классификация информационных систем
- •2.1.2. Основные компоненты ИС
- •2.2. Информационные компоненты в системах управления
- •2.2.2. Информация в системах обработки и генерации знания
- •2.3. Информационные технологии
- •2.4. О реализации процесса поиска информации
- •Контрольные вопросы
- •3. Модели и структуры данных информационных систем
- •3.1. Семантика ИС, основанных на концепции баз данных
- •3.2. Идентификация и поиск информации
- •3.3. Представление предметной области и модели данных
- •3.4. Структура информации и структура данных
- •3.6.1. Преобразование представлений
- •Контрольные вопросы
- •4. Модели поиска и оценки эффективности
- •4.1. Оценка экономической и технической эффективности
- •4.1.1. Экономическая эффективность
- •4.1.2. Техническая эффективность
- •4.2. Математические модели оценки технической эффективности
- •4.3.2. Модель механизма поиска по совпадению терминов
- •4.3.3. Модель механизма поиска по логическому выражению
- •4.3.4.1. Модель механизма поиска документов-аналогов
- •4.3.4.2. Модель механизма эвристического поиска
- •4.5. Информационно-поисковый язык документальной ИПС
- •4.5.1. Предложение запроса
- •4.5.2. Условие поиска
- •4.5.3. Синтаксис и семантика использования дескрипторов
- •4.5.4. Использование ранее полученных результатов поиска
- •5. Лингвистическое обеспечение ИС
- •5.2. Состав и структура лингвистического обеспечения
- •Линейные
- •5.3. Классификации
- •5.3.1. Библиотечно-библиографические классификации
- •5.3.1.2. Алфавитно-предметные классификации
- •5.3.1.3. Фасетные классификации
- •5.3.2. Классификации изобретений
- •5.3.3. Отраслевые классификационные системы
- •5.4.1. Координатное индексирование
- •5.4.2. Семантическая сила дескрипторных ИПЯ
- •5.5.1. Линейные терминологические структуры
- •Рубрика
- •Слов
- •5.5.2. Иерархические терминологические структуры
- •6. Поисковые задачи и технологии информационного поиска
- •6.2. Поисковые задачи и виды информационного поиска
- •6.2.1. Типология поисковых задач
- •6.2.2. Типология информационных потребностей
- •7.3. Технология поиска и интерфейс АИПС
- •7.3.1. Творческий процесс и стереотипы мышления
- •7.3.2. Интерфейс пользователя
- •Таблица 7.1.
- •7.4.3. Типология и стереотипы поведения пользователей
- •7.5.1.1. Стратегия поиска и классификация АИПС
- •7.5.1.2. Методы поиска
- •7.5.3. Поисковые интерфейсы
- •7.5.3.1. Организация интерфейсных объектов
- •7.5.3.2. Роль системы в процессе взаимодействия
- •8. Интерфейсные средства информационного поиска
- •8.1.1. Формирование запроса «по образцу»
- •8.1.2. Конструктор запроса «по шагам»
- •8.1.3. Конструктор запроса «Логическое выражение»
- •8.1.4. Использование формулировок ранее сохраненных запросов
- •8.2.1. Поиск аналогов
- •8.2.2. Эвристический поиск
- •8.2.3. Поиск по обратной связи
- •8.3. Технологические объекты построения предложения запроса
- •8.3.1. Частотный словарь
- •8.3.2. Тематический рубрикатор
- •8.3.3. Тезаурус
- •8.3.4. Иерархический словник
- •Список сокращений
- •ЕЯ – естественный язык.
- •ИС – информационная система.
- •ТСС – тематико-статистический спектр множества документов.
- •Литература
- •Глоссарий
- •Приложения
6.Поисковые задачи и технологии информационного поиска
Взадачах информационного поиска качественно различают две составляющие: концептуальную и технологическую.
Кконцептуальным составляющим относятся, прежде всего, методы и средства представления собственно информации (знаний) и метаинформации, которые используются в качестве основы как для проектирования механизма поиска, так и для организации процессов взаимодействия пользователя с АИПС.
Ктехнологическим составляющим относятся средства пользовательского интерфейса, алгоритмы индексирования и поиска, языки запросов, средства интеграции информации из различных источников и т.д.
Как отмечалось ранее (см. главу 2), принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по
существу, уже не разделяет свою деятельность на информационную и основную37.
Особенности технических решений при проектировании и эксплуатации автоматизированных информационных систем, ориентированных на информационную поддержку основной деятельности и интегрирующих такие специализированные функции, как поиск, обработка и организация информации, определяются двумя следующими, имеющими разную природу, факторами.
1.Используемые информационные ресурсы (ИР), наряду с оригинальным авторским представлением материала, в большинстве своем характеризуются высокой систематизированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов и систем вторичной информации – рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ресурсам).
2.Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется
уровнем знания пользователем содержания ресурса (полноты
37 Это особенно важно учитывать в задачах информационного обеспечения научных исследований, когда объект поиска не может быть четко определен заранее и когда цель поиска, сформулированная на начальной стадии работы, может измениться уже в процессе самого поиска, например, при ознакомлении с найденным документом. Причем факт изменения цели возможно даже не будет явно осознан исследователем, что в итоге может привести к неполному результату поиска.
209
представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал).
6.1. Динамика информации в системах основной и информационной деятельности
Взаимодействие пользователя с комплексом разнородных информационных ресурсов должно рассматриваться как процесс, зависящий от двух групп основных факторов. С одной стороны – это свойства информации и закономерности информационных преобразований в сфере основной деятельности (ОД), учитывающие специфику восприятия и переработки человеком как основной (целевой) информации, так и технологической, обеспечивающей условия его взаимодействия с информационной средой. С другой стороны, организация информационного пространства должна рассматриваться как задача такого управления ИР, при котором персональная АИС пользователя позволяла бы работать с ними как с единым ресурсом, что требует решения вопроса об идентификации ресурсов, а на уровне потребителя информации связано с проблемами разработки интерфейсов и средств доступа, обеспечивающих персонификацию представления информационных объектов.
Рассмотрим обобщенную схему воспроизводства информации, в основу которой положено предложенное в [Попов1996] представление совокупной информационной системы (генератор – потребитель информации), определяющее исследуемые объекты и процессы автоматизации в контексте взаимозависимости основной и собственно информационной деятельности (рис. 6.1).
С точки зрения задач управления потоками здесь можно различить две совокупности процессов: формирование потока информации
(документов) в соответствии с заданными характеристиками (тематичность, полнота охвата и т.д.) и распределение входных и выходных потоков и их составляющих в соответствии с информационными потребностями38. И, если основная деятельность имеет дело с поиском и содержательной обработкой научной информации (т.е. сообщениями, описывающими некоторые свойства исследуемого объекта), то научно-информационная – это по возможности инвариантные относительно смысла преобразования текста в форму, приемлемую для автоматизированной идентификации, хранения и поиска.
38 Отметим, что информационные потребности и запросы также можно рассматривать как поток информации - гипотетической или в какой-то части неактуализированной.
210
Факторы, определяющие |
|
|
|
Факторы, |
|
Отрасль-ориентированная ПрО |
|
определяющие |
|
целевое использование ИР |
Проблемно-ориентированная ПрО |
|
доступность ИР |
|
|
|
|||
|
|
|
|
|
Инф. Потребн. |
Интерпретация |
Поиск |
|
Метаинформация |
Условия восприятия |
результата поиска |
|
(семантика/ |
|
|
|
Представление ИР |
структура) |
|
|
Д-т |
|
||
|
под |
|
|
|
|
|
|
|
|
|
Исходная |
|
··· |
|
|
информация |
|
|
|
|
|
|
|
|
Наличные знания |
|
|
|
Автоматизированные |
Решение задачи ОД |
|
Генерация |
информ. системы и |
|
|
|
технологии |
||
(теория, |
|
|
ИР |
|
|
|
|
||
методология, |
|
|
|
|
|
Результат |
|
Документопоток |
|
|
ОД |
|
|
|
|
|
|
|
|
Система |
Отрасль- |
Оформление |
Комплектование (отбор/ |
Отраслевой спектр |
представления |
ориентированное |
сообщения |
представление) |
комплектования |
знаний в предметной |
представление смысла |
|
|
ресурса |
области |
результата |
Д-т |
|
|
|
Сообщ |
|
|
|
|
Рис. 6.1. Обобщенная схема воспроизводства информации |
|
По характеру информации в совокупной системе (рис. 6.1) можно выделить три следующих уровня преобразования информационных объектов.
Первый уровень – это основная деятельность, где объектами являются предметы реального мира, а результатами – новое знание. Носителем информации этого уровня является человеческое сознание, для которого характерны системность организации и ассоциативность выборки, а коммуникационным объектом является сообщение – знание, адресно отраженное на систему понятий предполагаемого приемника - потребителя информации.
Второй уровень – создание общественно-полезной информации – одна из форм овеществления знаний через обобществление результатов в документальной форме. Средством представления знаний (коммуникаций) здесь является язык, а носителем – документ как функционально ориентированное сообщение, структурирующее информацию и идентифицирующее ее, например, путем выделения логических или физических частей - семантически однородных полей.
Третий уровень – собственно информационная деятельность – управление потоками информации для обеспечения основной деятельности. Работа с компактными по объему вторичными документами, позволяет совершенствовать процесс поиска нужных сообщений. Здесь информация (поисковый образ документа) – это хорошо структурированный материал, компактно и предметно отражающий содержание документа, а также обеспечивающий идентифицируемость документа в целом и на уровне отдельных элементов данных.
Для выявления характера взаимосвязи информационных объектов используем приведенное в гл. 1 определение понятия «информация» как отражения результата упорядочения и ограничения разнообразия описаний объектов ОД и их взаимосвязей (в реальном мире) в соответствии с требованиями, обуславливаемыми возможностями средств представления (языка описания). Отсюда следует, что использование абстракций различного порядка в итоге дает возможность (упрощая описание объекта одного семантического уровня за счет введения объектов другого уровня) представлять объекты с помощью конечного числа терминов. Соотношение и характер взаимосвязей информационных объектов, форм и средств их представления, рассматриваемых в контексте задач информационного обеспечения основной деятельности, приведены на рис.6.2.
Здесь преобразование форм представления информации является последовательным отражением содержания, а по существу - фильтрацией информации путем снижения разнообразия форм и аспектов представления смыслового содержания через вынесение части смысла в метаинформационную составляющую или простое отбрасывание.
198
Например, сообщение предполагает фиксацию (ограничение) предметной области; документ – фиксацию вариантов способа представления через выделение семантически однородных полей и, соответственно, определение характера и способа их наполнения; поисковый образ фиксирует способы указания значения отдельного элемента (типа данных).
Соответственно, адекватность средств отражения информации (а в случае информационно-поисковых систем это средства лингвистического обеспечения) должна рассматриваться как с точки зрения возможности неискажающего преобразования самой информации в цепи генерации-потребления информационного ресурса, так и с точки зрения адекватности восприятия пользователем функциональных возможностей этих средств.
199
Информация |
Отбор документов при |
Потребность |
|
поиске в БД |
|
ПОД |
|
ПОЗ |
Документ |
ИПЯ |
Знание ИПЯ |
Выражение |
|
|
|
ИП |
|
Структура ИПЯ |
Словари |
|
Сообщение |
Язык научн. |
Знание языка |
Постановка |
|
коммуникаций |
|
поиск. задачи |
|
Структура языка |
ИПТ |
|
Новые знания |
Язык ПрО |
Знание ПрО |
Формализованная |
|
|
|
ИП |
Объекты |
Системы |
Основные понятия |
Реальная |
исследований |
знаний |
и закономерности |
потребность |
Рис. 6.2. Уровневая модель взаимосвязи информационных объектов