- •Информационные системы
- •ВВЕДЕНИЕ
- •1. Информация. Основные свойства и определения
- •1.1. Информация как основной предмет информатики
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.2.1. Информация
- •1.2.2. Данные
- •1.2.3. Знания
- •1.3. Свойства информации
- •1.3.1. Кумулятивность информации
- •1.3.2. Концентрация информации
- •1.3.3. Эмерджентность и неассоциативность информации
- •1.3.4. Стaрение информации
- •1.3.5. Межотраслевые свойства и рассеяние информации
- •1.4. Информационные единицы
- •Контрольные вопросы
- •2. Информационные системы и технологии обработки информации
- •2.1. Состав и структура информационной системы
- •2.1.1. Классификация информационных систем
- •2.1.2. Основные компоненты ИС
- •2.2. Информационные компоненты в системах управления
- •2.2.2. Информация в системах обработки и генерации знания
- •2.3. Информационные технологии
- •2.4. О реализации процесса поиска информации
- •Контрольные вопросы
- •3. Модели и структуры данных информационных систем
- •3.1. Семантика ИС, основанных на концепции баз данных
- •3.2. Идентификация и поиск информации
- •3.3. Представление предметной области и модели данных
- •3.4. Структура информации и структура данных
- •3.6.1. Преобразование представлений
- •Контрольные вопросы
- •4. Модели поиска и оценки эффективности
- •4.1. Оценка экономической и технической эффективности
- •4.1.1. Экономическая эффективность
- •4.1.2. Техническая эффективность
- •4.2. Математические модели оценки технической эффективности
- •4.3.2. Модель механизма поиска по совпадению терминов
- •4.3.3. Модель механизма поиска по логическому выражению
- •4.3.4.1. Модель механизма поиска документов-аналогов
- •4.3.4.2. Модель механизма эвристического поиска
- •4.5. Информационно-поисковый язык документальной ИПС
- •4.5.1. Предложение запроса
- •4.5.2. Условие поиска
- •4.5.3. Синтаксис и семантика использования дескрипторов
- •4.5.4. Использование ранее полученных результатов поиска
- •5. Лингвистическое обеспечение ИС
- •5.2. Состав и структура лингвистического обеспечения
- •Линейные
- •5.3. Классификации
- •5.3.1. Библиотечно-библиографические классификации
- •5.3.1.2. Алфавитно-предметные классификации
- •5.3.1.3. Фасетные классификации
- •5.3.2. Классификации изобретений
- •5.3.3. Отраслевые классификационные системы
- •5.4.1. Координатное индексирование
- •5.4.2. Семантическая сила дескрипторных ИПЯ
- •5.5.1. Линейные терминологические структуры
- •Рубрика
- •Слов
- •5.5.2. Иерархические терминологические структуры
- •6. Поисковые задачи и технологии информационного поиска
- •6.2. Поисковые задачи и виды информационного поиска
- •6.2.1. Типология поисковых задач
- •6.2.2. Типология информационных потребностей
- •7.3. Технология поиска и интерфейс АИПС
- •7.3.1. Творческий процесс и стереотипы мышления
- •7.3.2. Интерфейс пользователя
- •Таблица 7.1.
- •7.4.3. Типология и стереотипы поведения пользователей
- •7.5.1.1. Стратегия поиска и классификация АИПС
- •7.5.1.2. Методы поиска
- •7.5.3. Поисковые интерфейсы
- •7.5.3.1. Организация интерфейсных объектов
- •7.5.3.2. Роль системы в процессе взаимодействия
- •8. Интерфейсные средства информационного поиска
- •8.1.1. Формирование запроса «по образцу»
- •8.1.2. Конструктор запроса «по шагам»
- •8.1.3. Конструктор запроса «Логическое выражение»
- •8.1.4. Использование формулировок ранее сохраненных запросов
- •8.2.1. Поиск аналогов
- •8.2.2. Эвристический поиск
- •8.2.3. Поиск по обратной связи
- •8.3. Технологические объекты построения предложения запроса
- •8.3.1. Частотный словарь
- •8.3.2. Тематический рубрикатор
- •8.3.3. Тезаурус
- •8.3.4. Иерархический словник
- •Список сокращений
- •ЕЯ – естественный язык.
- •ИС – информационная система.
- •ТСС – тематико-статистический спектр множества документов.
- •Литература
- •Глоссарий
- •Приложения
8.1.4. Использование формулировок ранее сохраненных запросов
Механизм сохранения/чтения запросов позволяет многократно использовать поисковые запросы. Запросы могут храниться либо в отдельных файлах (один из файлов с зафиксированным системным идентификатором выделен для общей Папки Запросов), либо в БД в структуре частотных словарей. В случае сохранения запроса в отдельном файле могут быть сохранены только тексты предложений запросов или предложения запросов вместе с поисковыми результатами.
Использовать ранее сохраненный запрос в дальнейшем можно как единое целое (весь набор поисковых предложений) или по отдельным предложениям.
Для работы с ранее сохраненными запросами служит интерфейсная форма «Запрос для БД» (рис. 8.6). Семантика формы следующая:
-Выделить - выделение одного и более предложений запроса для дальнейшего использования;
-Редактировать - редактирование выделенных предложений
запроса;
-Читать Запрос – перенести выделенные предложения запроса вместе с их поисковыми результатами в текущий запрос;
-Поиск по Запросу – инициировать автоматическое выполнение поисковой процедуры для выделенных предложений запроса.
Рис. 8.7. Использование ранее сохраненных запросов
Общая «Папка запросов» – это средство, которое позволяет накапливать и в дальнейшем использовать поисковые (логические) выражения запросов, независимо от того, для какой базы данных они были подготовлены. При этом в папку заносятся только тексты предложений запросов, а не результат - список идентификаторов документов, найденных по ним.
Использовать предложения запросов, помещенные в папку, можно по общей технологии работы с сохраненными запросами, за исключением возможности «Читать запрос» (рис. 8.8).
Рис. 8.8. Работа с папкой запросов
8.2. Средстваитехнологиипоискадокументовпосходству
Стратегия творческого поиска в больших массивах документов обычно нацелена на выявление нового знания или новых логических связей, порождаемых непосредственно в процессе просмотра, т. е. прямого взаимодействия пользователя с документами. Просмотровая функция рассматривается в данном контексте как эвристическая модель, ориентированная на изменение у пользователя существующих границ субъективного знания путем отыскания документов, не являющихся формально релевантными, а также путем динамического управления информационной средой.
Как было показано при анализе информационной модели воспроизводства знаний, требование «адекватного информирования» в автоматизированных информационно-поисковых системах может быть реализовано двойной реформулировкой запроса по технологии обратной
связи по релевантности: построением на основе лексики истинно релевантных документов словников, термины которых в свою очередь размечаются с точки зрения их способности смысловыражения темы и, далее, используются в качестве выражения запроса для следующей итерации поиска.
Существенно то, что здесь мы имеем два типа обратной связи. Для построения словников на основе лексики документов, определяемых пользователем как истинно релевантные, используется «внешняя» обратная связь. Для построения реформулированного запроса используется уже «внутренняя» обратная связь, позволяющая выделить значимые термины (ранжированием или кластеризацией по статистическим показателям). Соответственно, для построения словников могут использоваться разные методы, что позволяет, в свою очередь, иметь разные «стратегии» реформулирования, реализуемые разными технологическими (интерфейсными) средствами. Возможность совместного использования нескольких стратегий поиска позволяет реализовать процесс итерационного повышения эффективности поиска путем генерации новых ПОЗов, учитывающих как «ситуационную» (проблемную) ориентацию запроса, так и «тематические» свойства массива документов.
Для класса документальных систем, где основными (базовыми) объектами являются документ и термин, может быть построено конечное множество механизмов поиска, основанных на технологии реформулирования запроса по обратной связи.
Технологическая схема поиска, иллюстрирующая использование различных механизмов поиска, приведена на рис. 8.14.
8.2.1. Поиск аналогов
Функция поиска аналогов позволяет осуществить поиск документов по сходству с содержимым заданных полей текущего документа, который в текущее время доступен в окне просмотра документов. Условие отбора задается в виде:
<Имя поля >:<число>
где <число > - количество терминов, совпадающих с терминами указанного поля. Допускается логическая комбинация условий (рис. 8.9).
Рис. 8.9. Поиск документов-аналогов по логическому выражению
При поиске аналогов «по умолчанию» будут взяты поисковые поля, объявленные в схеме используемыми «по умолчанию», и пороговые значения, дающие не пустой результат.
8.2.2. Эвристический поиск
Эвристический поиск – это поиск документов по динамически формируемому критерию, использующему статистически значимые слова, выбираемые из текстов документов, отмеченных пользователем при просмотре как релевантные.
Найденные документы упорядочиваются в соответствии со значимостью, определяемой статистически в контексте релевантности документов - результатов поиска по текущему (выделенному в запросе) предложению. Количество документов в выдаче ограничивается соответствующим системным параметром.
Для проведения эвристического поиска необходимо при просмотре документов отметить как релевантные те документы, которые действительно соответствуют теме (а не только содержат термины поискового условия) – т.е. сформировать множество документов для эвристического поиска.
Эвристический поиск можно проводить по любому предложению запроса.