- •Определения понятия «информации». Прагматические и атрибутивные свойства информации.
- •Свойства концентрации и рассеяния информации. Характер закономерностей.
- •Понятия «информационный объект», «информационное взаимодействие».
- •Определение понятия информации с точки зрения информационного взаимодействия.
- •Свойства информации с точки зрения модели информационного взаимодействия.
- •Модель процесса генерации знания в рамках общей теории систем.
- •Соотношение понятий «данные», «информация», «знания».
- •Модель процесса информирования. Типовые схемы информирования.
- •Потребители, приемники информации, информационная потребность. Понятие формальной и истинной релевантности документа.
- •Определение ис. Организационно-функциональная структура аис
- •Назначение и классификация информационных систем. Конкретная и абстрактная ипс.
- •Структурная схема процессов в абстрактной аипс. Режимы ретроспективного поиска и ири.
- •Состав, назначение, требования к ипя. Классификация дескрипторных ипя.
- •Парадигматические и синтагматические отношения между лексическими единицами ипя. Меры близости лексических единиц.
- •Предкоординированные и посткоординированные информационно-поисковые языки.
- •Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ис.
- •Обобщенная схема воспроизводства информации. Характеристика информационных компонент.
- •Типология информационных потребностей (когнитивная модель)
- •Типология неопределенностей информационного поиска. Уровневая модель представления информации и информационных потребностей.
- •Типология задач информационного поиска. Характер неопределенности объекта поиска и требования к поисковому процессу для разных типов поисковых задач.
- •Понятие стратегии и технологии поиска. Связь стратегии и типа поисковой задачи.
- •Логика поиска. Критерий смыслового соответствия. Теоретико-множественное представление.
- •Информация в системе воспроизводства знаний (системный подход). Информационные компоненты в системах управления.
- •Уровневая модель информационного взаимодействия "Пользователь - аипс". Основные этапы (общая схема) поиска информации.
- •Типология простых (фактографических) запросов и организация поисковых массивов для различных типов запросов.
- •Расширенное логическое выражение запроса (обобщенная форма). Основные виды операторов и операндов.
- •Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ипс дескрипторного типа.
- •Типы обратной связи в технологии информационного поиска.
- •Линейная модель механизма поиска по совпадению терминов.
- •Линейная модель механизма поиска по логическому выражению.
- •Линейная модель механизма поиска документов-аналогов.
- •Линейная модель механизма эвристического поиска.
- •Линейная модель механизма поиска по технологии обратной связи по релевантности терминов.
- •Матрицы ассоциации документов, терминов и их свойства.
- •Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ипс.
- •Основные частные и интегральные критерии оценки аипс.
- •Понятие рабочей характеристики аипс.
- •Матрицы "термин-документ", "термин-термин" и их свойства.
- •Коэффициент линейной корреляции множества выданных и истинно релевантных документов.
- •Назначение, состав и структура лингвистического обеспечения ис.
- •Основные методы идентификации объектов.
- •Классификация. Определение и формально–логические правила построения.
- •Типы классификаций. Иерархические классификации. Примеры.
- •Типы классификаций. Фасетные классификации. Примеры.
- •Сравнительная характеристика иерархических и фасетных классификаций.
- •Кодирование объектов. Системы кодирования. Примеры.
- •Назначение, структура и использование информационно-поисковых тезаурусов.
- •Обобщенная технологическая схема и компоненты информационного поиска.
- •Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.
Матрицы "термин-документ", "термин-термин" и их свойства.
D-словарь, содержащий множество лексических единиц всего потока документов. Тогда
liдля всех i, где li- совокупность лексических единиц некоторого документа, который является элементом некоторого потокаL: L={l1,…,li,…,ln}, liL.
Существует универсальный массив L0, подмножеством которого являются все документы:
L0={ l1,…,li,…,ln}, liL0 для всех i, причем |L0|=n0, где n0- мощность множества L0.
Линейное представление теоретико-множественного образа документа:
lk=,где bik=1-еслиi-й термин входит в k-й документ;0- если не входит.
Универсальный массив в линейном представлении есть матрица размерности D*n0:
L0= Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем. Столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина Fi, присутствующую обычно в частотном словаре информационного массива: Fi=∑bik.
Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.
ЗдесьL1 и L2- множества документов, L12-их пересечение, L0-множество документов информационного массива. П1 и П2- множество терминов (все значимые термины, хотя бы 1 раз встречающиеся во множестве документов);П12- пересечение информационных профилей;D-универсальный словарь.
Данные множества могут трактоваться: L1 и L2- множества документов, связанных по общему термину; П1 и П2- списки терминов каждого из двух документов (термины, хотя бы раз встречающиеся в документах потока или встречающиеся чаще чем некоторый порог ƒmin или имеющие частоты, лежащие в интервале [ƒmin, ƒmax]
Рассмотрим случай когда L1 и L2- множества документов, связанных по общему термину. Выберем 2 произвольных термина T и t, входящие в какие-либо документы из L0.
L1- множество документов, содержащих термин T. L2- множество документов, содержащих термин t.
X=|L12|=|L1∩L2|- количество документов, содержащих оба термина
Y= | L1\L2|- количество документов, содержащих термин T, но не содержащих термин t.
Z= | L2\L1|- количество документов, содержащих термин t
V= |L0\(L1UL2)|- количество документов, не содержащих ни одного из терминов.
X+y+z+v=|L0|=n0
Для измерения эффективности системы используются разностные меры множеств истинно релевантных LИ и выданных LC документов. Проблема оценки эффективности формальна сходна с задачей сопоставления множеств документов и множеств терминов.
Таблица сопряженности. Критерии оценки АИПС в координатах <a,b,c,d>.
Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных ( с точки зрения потребителя) и нерелевантных документов и невыданных множеств релевантных и нерелевантных документов.
|
Реле- вантные |
Нереле- вантные |
Выданные |
a |
b |
Невыданные |
c |
d |
Взаимосвязь представленных координат:
и с
Число выданных релевантных документов: a = x = | L ∩ L | ;
и
Общее число релевантных документов: a + с = x۪ = |L | ;
c
Количество выданных документов: a + b = n = |L | ;
Общее число документов L0 : a + b + x + d = n0 = |L0| ;
c и
Число выданных нерелевантных документов: b = n – x = | L \ L |
и c
Число невыданных релевантных документов: b = x0 – x = |L \ L | ;
c
Число невыданных документов: c + d = n0 – n = |L0 \ L | ;
и
Число нерелевантных документов: b + d = n0 – x0 = |L0\L | ;
Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L )|
Диаграмма <n,x>. Критерии оценки АИПС в координатах <n,x>.
Допустимые выдачи (имеющие смысл сочетания числа выданных релевантных – х и всего выданных документов - n) находятся в незаштрихованной области 0Иp0Д, ограниченной прямыми линиями:
0И: x = n; Ир0: х = х0; p0Д: х = n – (n0 – x0); Д0: х = 0
Взаимосвязь представленных координат:
и с
Число выданных релевантных документов: a = x = | L ∩ L | ;
и
Общее число релевантных документов: a + с = x۪ = |L | ;
c
Количество выданных документов: a + b = n = |L | ;
Общее число документов L0 : a + b + x + d = n0 = |L0| ;
c и
Число выданных нерелевантных документов: b = n – x = | L \ L |
и c
Число невыданных релевантных документов: b = x0 – x = |L \ L | ;
c
Число невыданных документов: c + d = n0 – n = |L0 \ L | ;
и
Число нерелевантных документов: b + d = n0 – x0 = |L0\L | ;
и с
Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L )|