- •Определения понятия «информации». Прагматические и атрибутивные свойства информации.
- •Свойства концентрации и рассеяния информации. Характер закономерностей.
- •Понятия «информационный объект», «информационное взаимодействие».
- •Определение понятия информации с точки зрения информационного взаимодействия.
- •Свойства информации с точки зрения модели информационного взаимодействия.
- •Модель процесса генерации знания в рамках общей теории систем.
- •Соотношение понятий «данные», «информация», «знания».
- •Модель процесса информирования. Типовые схемы информирования.
- •Потребители, приемники информации, информационная потребность. Понятие формальной и истинной релевантности документа.
- •Определение ис. Организационно-функциональная структура аис
- •Назначение и классификация информационных систем. Конкретная и абстрактная ипс.
- •Структурная схема процессов в абстрактной аипс. Режимы ретроспективного поиска и ири.
- •Состав, назначение, требования к ипя. Классификация дескрипторных ипя.
- •Парадигматические и синтагматические отношения между лексическими единицами ипя. Меры близости лексических единиц.
- •Предкоординированные и посткоординированные информационно-поисковые языки.
- •Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ис.
- •Обобщенная схема воспроизводства информации. Характеристика информационных компонент.
- •Типология информационных потребностей (когнитивная модель)
- •Типология неопределенностей информационного поиска. Уровневая модель представления информации и информационных потребностей.
- •Типология задач информационного поиска. Характер неопределенности объекта поиска и требования к поисковому процессу для разных типов поисковых задач.
- •Понятие стратегии и технологии поиска. Связь стратегии и типа поисковой задачи.
- •Логика поиска. Критерий смыслового соответствия. Теоретико-множественное представление.
- •Информация в системе воспроизводства знаний (системный подход). Информационные компоненты в системах управления.
- •Уровневая модель информационного взаимодействия "Пользователь - аипс". Основные этапы (общая схема) поиска информации.
- •Типология простых (фактографических) запросов и организация поисковых массивов для различных типов запросов.
- •Расширенное логическое выражение запроса (обобщенная форма). Основные виды операторов и операндов.
- •Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ипс дескрипторного типа.
- •Типы обратной связи в технологии информационного поиска.
- •Линейная модель механизма поиска по совпадению терминов.
- •Линейная модель механизма поиска по логическому выражению.
- •Линейная модель механизма поиска документов-аналогов.
- •Линейная модель механизма эвристического поиска.
- •Линейная модель механизма поиска по технологии обратной связи по релевантности терминов.
- •Матрицы ассоциации документов, терминов и их свойства.
- •Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ипс.
- •Основные частные и интегральные критерии оценки аипс.
- •Понятие рабочей характеристики аипс.
- •Матрицы "термин-документ", "термин-термин" и их свойства.
- •Коэффициент линейной корреляции множества выданных и истинно релевантных документов.
- •Назначение, состав и структура лингвистического обеспечения ис.
- •Основные методы идентификации объектов.
- •Классификация. Определение и формально–логические правила построения.
- •Типы классификаций. Иерархические классификации. Примеры.
- •Типы классификаций. Фасетные классификации. Примеры.
- •Сравнительная характеристика иерархических и фасетных классификаций.
- •Кодирование объектов. Системы кодирования. Примеры.
- •Назначение, структура и использование информационно-поисковых тезаурусов.
- •Обобщенная технологическая схема и компоненты информационного поиска.
- •Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.
Линейная модель механизма эвристического поиска.
Эвристический поиск работает по принципу отыскания документов, «похожих» на усредненный «тематический» образ некоторого множества релевантных документов, указанных пользователем, и реализуется следующей последовательностью шагов:
Шаг 1. Построение словника по массиву релевантных документов. Результатом является подматрица Lrel матрицы L0, построенная путем выбора столбцов, характеризующих заданные пользователем документы:
n – количество документов, отмеченных пользователем как релевантные.
Шаг 2. Оценка терминов словника и построение Поискового Образа Темы (ПОТ).
Результатом оценивания должно быть выделение тех терминов, которые могут быть включены в ПОТ. Желательно, чтобы в основе формальной оценки лежали частотные характеристики, которые могут быть получены из матриц L0 и Lrel:
(или i-тый элемент главной диагонали матрицы ),
(или i-тый элемент вектора ),
где Fi – частота термина в информационном массиве, FiRel – частота термина в множестве релевантных документов, Qrel – вектор релевантных документов (строка расширенной матрицы ).
Для оценки степени соответствия термина ПОТ может быть использована мера точности термина - отношение частоты термина в множестве релевантных документов к частоте термина в информационном массиве, в качестве порога для отбора в ПОТ – относит коэффициент CR, вычисляемый в зависимости от эвристического параметра ns, характеризующего количество ожидаемых документов. Эвристический параметр характеризует минимальную (ненулевую) точность термина, возможную в ожидаемой выдаче:. В ПОТ отбираются термины, для кот выполняется неравенство:(4.12)
Шаг 3. Построение матрицы «термин-документ» для функции поиска аналогов. На этом шаге из матрицы Lrel должны быть удалены строки, для кот не выполняется неравенство. В результате получаем матрицу LПОТ:
, где M – количество терминов в ПОТ, определяющее порог «близости» для следующего шага.
Шаг 4. Выполнение функции поиска аналогов с пороговым значением M. По матрице LПОТ строится результирующий вектор запроса на отбор документов-аналогов (QПОТ ) и формируется поисковый результат с учетом порога близости M. Если число документов полученного результата меньше, чем заданное в системе ns, то пороговое значение M уменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-ой итерации пороговое значение равно M–i.
Цикл заканчивается: либо после выполнения очередной итерации число документов результата стало равно или превысило значение ns, либо пороговое значение стало равно 0.
Линейная модель механизма поиска по технологии обратной связи по релевантности терминов.
Обратная связь по релевантности терминов должна обеспечить пользователю возможность целенаправленно изменять поисковый запрос путем повышения роли одних и понижения роли других терминов, не вникая в тонкости составления запроса, определяемые особенностями документального массива и ИПС. При этом процесс поиска разбивается на последовательность несложных шагов, ведущих к поставленной цели.
В модели (в соответствии с которой определяется обратная связь) существуют различные стратегии изменения весовых коэффициентов терминов, предлагаемых системой для расширения запроса, на основании информации о релевантности/нерелевантности выданных документов.
Рассмотрим диалоговую модель механизма поиска по обратной связи, предлагаемую в ИПС IRBIS. Она отличается от модели эвристического поиска тем, что после выполнения системой очередного шага пользователю предоставляется возможность управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется (с точки зрения продолжительности) в зависимости от предпочтений пользователя.
Шаг 1. Построение и ранжирование словника релевантных документов.
Рез-том этого шага является вектор где k – количество терминов релевантных документов, а wi - значение весового коэффициента для i-го термина, удовлетворяющее неравенству . Расчеты весовых коэффициентов могут основываться на различных мерах близости и на этом шаге не влияют на количество выдаваемых пользователю терминов (пользователь получает оценку всех терминов релевантных документов, которые находятся в частотном словаре).
По завершении первого шага система передает управление пользователю, который самостоятельно отмечает термины, способные улучшить поисковый запрос.
Отмеченные термины пользователь могут самостоятельно добавить в поисковый запрос (для реализации моделей поиска по совпадению терминов или по логическому выражению) или инициировать второй шаг поиска по обратной связи.
Шаг 2. Формирование матрицы поисковых результатов.
Термины, отобранные пользователем на предыдущем шаге, рассматриваются как исходные для проведения поиска по совпадению терминов. Модель этого механизма поиска реализована построением подматрицы запроса (Lq), в которой отдельные строки могут быть нулевыми.
Рассмотрим подматрицу Lq как исходную для проведения процедуры поиска аналогов и последовательно для каждого ненулевого столбца построим вектор Qi – результат поиска аналогов с max-ым порогом близости (задается количеством единиц в столбце, а контекст результата задается перечислением самих терминов). Полученные векторы рассмотрим как строки матрицы поисковых результатов:
,где n – количество ненулевых столбцов подматрицы Lq.
Каждая строка матрицы снабжается контекстом-перечислением конкретных терминов, присутствующих в документах конкретного результата. Матрица результатов дает возможность просматривать каждый отдельный результат, что позволяет формировать новое множество релевантных документов.