
- •Информация является динамическим объектом, образующимся в момент взаимодействия объективных данных и субъективных методов.
- •2. Свойства концентрации и рассеяния. Характер закономерностей.
- •Формы концентрации в сфере инф-й деятельности
- •Рассеяние- вытекет из межотраслевого характера информации.Означает, что инф-я, полезная для решения данной проблемы, может оказатся в документах, которые относятся к другой предметной области.
- •3. Понятия «информационный объект», «информационное взаимодействие».
- •Объект1 - материальная или не материальная сущность мира. Примерами объектов могут служить персоны, некоторые предметы или их части, явления, события или процессы, с ними связанные.
- •4. Определение понятия информации с точки зрения информационного взаимодействия.
- •5.Свойства информации с точки зрения модели информационного взаимодействия.
- •6. Модель процесса генерации знания в рамках общей теории систем.
- •7.Соотношение понятий «данные», «информация», «знания».
- •8.Модель процесса информирования. Типовые схемы информирования.
- •9. Потребители, приемники информации, информационная потребность. Понятие формальной и истинной релевантности документа.
- •10. Определение ис. Организационно-функциональная структура аис
- •11. Назначение и классификация информационных систем. Конкретная и абстрактная ипс. Отличия документальных и фактографических ипс.
- •12. Структурная схема процессов в абстрактной аипс. Режимы ретроспективного поиска и ири.
- •13.Состав, назначение, требования к ипя. Классификация дескрипторных ипя.
- •14.Парадигматические и синтагматические отношения между лексическими единицами ипя. Меры близости лексических единиц.
- •15. Предкоординированные и посткоординированные информационно-поисковые языки.
- •Предкоординированные — перед поиском устанавливаются координатные связи между лексическими единицами.
- •16. Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ис. Кодирование информации
- •17.Обобщенная схема воспроизводства информации. Характеристика информационных компонент.
- •18 Типологии информационных потребностей.Реальная информационная потребность.
- •19.Типология неопределенностей информационного поиска. Уровневая модель представления информации и информационных потребностей.
- •Уровневая модель взаимосвязи информационных объектов
- •20.Типология задач информационного поиска. Характер неопределенности объекта поиска и требования к поисковому процессу для разных типов поисковых задач.
- •21. Понятие стратегии и технологии поиска информации.
- •Кластерная – отражает особенности перечислительного способа.
- •22. Логика поиска. Критерий смыслового соответствия. Теоретико-множественное представление.
- •23.Информация в системе воспроизводства знаний (системный подход). Информационные компоненты в системах управления.
- •24.Уровневая модель информационного взаимодействия "Пользователь - аипс". Основные этапы (общая схема) поиска информации.
- •Третий - взаимодействие пользователя с предоставляемой системой информацией; является самым сложным и практически не формализуемым уровнем общения.
- •25. Типология простых (фактографических) запросов и организация поисковых массивов для различных типов запросов.
- •Ключ, идентифицирующий группу записей – вторичный. Сцепленный ключ – состоящий из нескольких элементов данных.
- •Физическая реализация ключа – индекс. Он обеспечивает доступ к записям, соответствующим отдельным значениям ключа.
- •26.Расширенное логическое выражение запроса (обобщенная форма). Основные виды операторов и операндов.
- •Контекстные операторы
- •27. Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ипс дескрипторного типа
- •Надо: технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной.
- •28. Типы обратной связи в технологии информационного поиска.
- •Идея: Это делается с помощью изменения весовых коэффициентов терминов. Варианты их изменения предлагаются системой на основании данных о релевантности выданных ранее документов.
- •29. Линейная модель механизма поиска по совпадению терминов.
- •30. Линейная модель механизма поиска по логическому выражению.
- •32. Линейная модель механизма эвристического поиска.
- •33.Линейная модель механизма поиска по технологии обратной связи по релевантности терминов.
- •34.Матрицы ассоциации документов, терминов и их свойства.
- •35. Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ипс.
- •36. Основные частные и интегральные критерии оценки аипс.
- •Показатель полезной работы η
- •37. Понятие рабочей характеристики аипс.
- •38. Матрицы "термин-документ", "термин-термин" и их свойства.
- •42.Коэффициент линейной корреляции множества выданных и истинно релевантных документов.
- •43.Назначение, состав и структура лингвистического обеспечения ис.
- •44.Основные методы идентификации объектов.
- •45. Классификация. Определение и формально-логические правила построения.
- •47. Типы классификаций. Фасетные классификации. Примеры.
- •48. Сравнительная характеристика иерархических и фасетных классификаций.
- •49. Кодирование объектов. Системы кодирования. Примеры.
- •50. Назначение, структура и использование информационно-поисковых тезаурусов
- •51.Обобщенная технологическая схема и компоненты информационного поиска.
- •52. Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.
37. Понятие рабочей характеристики аипс.
Вывод
показателя полезной работы АИПС
базируется на предположении о том, что
качество поиска АИПС тем выше, чем
меньшее число документов просматривает
пользователь. Пусть пользователю
требуются релевантные документы в
количестве х. При непосредственном
просмотре
(весь
массив документов) трудозатраты
(количество просмотренных документов)
в среднем составляют:
В
то время как при просмотре массива,
имеющего точность р, затраты
Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:
С
учётом других координат и переменных
выражение примет вид (замена:
,
по определению точности) :
(1)
Пусть
прямые
параллельны
0р0 и проходят через различные точки
прямой 0И. Общее уравнение прямой,
проходящей через
и имеющей наклон
,
есть (уравнение прямой
):
Подставим в формулу (1), имеем:
(=const)
Тем
самым, на прямых вида
величина
остаётся
постоянной. По мере приближения точки
пересечения прямой с 0И к точке И данная
константа увеличивается. Она приобретает
отрицательное значение, если линия
проходит ниже прямой 0р0.
Таким
образом,
удовлетворяет
условиям:
Или в координатах <n,x>:
Установление
пределов измерения
позволяет нормировать эту величину:
Мера полезной работы ИС изменяется от +1 до -1, причём:
в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)
в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)
На
линии
(т.к. здесь
)
В
треугольнике
;
В
треугольнике
;
38. Матрицы "термин-документ", "термин-термин" и их свойства.
Используем
понятие универсального словаря D
(прообразом
которого может быть, например, тезаурус,
рубрикатор), содержащего
множество лексических единиц всего
потока документов
(то есть все слова, числа и прочие
обозначения, использованные во всех
документах системы). Таким образом, li
принадлежит D
для всех i,
где
li—
совокупность
лексических единиц некоторого документа
(сообщения),
который является элементом некоторого
потока L:
L={l1
,...,li,...,
ln},
li
L
для
всех
i
Аналогично универсальному словарю введем понятие универсального массива L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:
L0
=
{l1
,...,li,...,
l
n0},
li
L0
для всех
i,
причем | L0|
= n0,
где
n0,
—
мощность множества L0.
Линейное представление теоретико-множественного
образа документа:
lk=, гдеbik=
1-если i-й
термин входит в k-й
документ;0- если не входит.
Универсальный массив в линейном представлении есть матрица размерности D х n0 :
Подобные
матрицы известны под названием матрицы
«термин—документ».
Каждый
столбец матрицы соответствует документу
и описывает множество терминов,
содержащихся в нем.Таким
образом, столбец матрицы характеризует
ПОД. L0=
Строка
матрицы соответствует отдельному
термину и является
перечнем документов, содержащих данный
термин. Сумма элементов
строки представляет собой частотную
характеристику термина:
Fi=∑bik.
Составим
матрицу
,
где
.Матрица
имеет размерность
.
Внедиагональный элемент
есть
количество появленийi-го
термина в
.
Матрицы такого типа называют «матрица
термин-термин» и характеризуют взаимосвязь
терминов в данном массиве.
39.Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.
Диаграмма
<L>, или диаграмма Эйлера — Венна
(рис. 4.3): представляет соотношение
множеств
—
всего
информационного потока,
— множества
истинно релевантных документов и
—
множества выданных документов.
Соотношение этих множеств и количественные
оценки меры их близости могут
характеризовать эффективность поискового
механизма системы.
Критерии оценки АИПС в координатах <L>
частные критерии оценки:
Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=|LИ ∩LC|/|LИ|;
Точность – доля релевантных документов во множестве выданных: p=|LИ ∩LC|/|LC|;
Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=|L0\ (LИ ULC)| / |L0\LИ|;
Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=|LИ|/|L0|;
Относительный объем выдачи: v=|LC|/|L0|.
интегральные критерии оценки:
1)Показатель
полезной работы
- базируется
на предположении о том, что качество
поиска АИПС тем выше, чем в большей
степени потребитель освобождается от
необходимости полного просмотра массива
документов:
обозначив
,
|
|=
,
,
перепишем
в координатах<L>
:
;
2)Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
;
обозначив
,
|
|=
,
,
перепишемR
в координатах <L>
:
.
40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.
Таблица сопряженности <a,b,c,d>
отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов.
|
релевантные |
нерелевантные |
выданные |
a |
b |
невыданные |
c |
d |
Критерии оценки АИПС в координатах <a,b,c,d>
частные критерии оценки:
Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=a/(a+c);
Точность – доля релевантных документов во множестве выданных: p=a/(a+b);
Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=d/(b+d);
Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=(a+c)/(a+b+c+d);
Относительный объем выдачи: v=(a+b)/(a+b+c+d).
интегральные критерии оценки:
Показатель
полезной работы - базируется
на предположении о том, что качество
поиска АИПС тем выше, чем в большей
степени потребитель освобождается от
необходимости полного просмотра массива
документов:
;
Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:
.
41. Диаграмма <n,x>. Критерии оценки АИПС в координатах < n,x>.
(Выданные релевантные сообщения)
X - выданные релевантные документы
n- все выданные документы
Допустимые выдачи находятся в незаштрихованной области 0Ир0Д, ограниченной прямыми линиями:
0И:х=n;(т.е когда число выданных равно числу релевантных) Ир0:х = х0;(т.е выданные релевантные равны всем релевантным) р0Д: х = п - (п0 - х0); ( п0 - х0 –нерелевантные документы ) Д0:х=0.
Критерии оценки АИПС в координатах <n,x>:
Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r= x/x0;
Точность – доля релевантных документов во множестве выданных: p=x/n;
Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ= 1- (n-x)/(n0 – x0);
Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=x0/n0;
Относительный объем выдачи: v=n/n0.