Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Расписанные ответы на вопросы (новые).doc
Скачиваний:
64
Добавлен:
04.06.2015
Размер:
5.48 Mб
Скачать
  1. Матрицы ассоциации документов, терминов и их свойства.

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержавшего множество лексических единиц всего потока документов.

li – совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L:

Аналогично универсальному словарю введём понятие универсально массива L0 (прообразы – поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:

Где n0 – мощность множества L0.

Линейное представление теоретико-множественного образа документа:

Универсальный массив в линейном представлении есть матрица размерности D*n0:

Подобные матрицы – матрицы «термин-документ». Каждый столбец соответствует документу и описывает множество терминов, содержащихся в нём.

Строка соответствует отдельному термину и является перечнем документов, содержащих данный термин.

  1. Типология и показатели оценки эффективности информационного поиска. Определение первичных координат описания выхода ипс.

При комплексной оценке учитываются два вида критериев:

экономический – денежные и временные затраты, необходимые для выполнения задачи

технический – способность обеспечить потребителям требуемый уровень информационного обслуживания

Существует анализ экономической эффективности затрат и анализ соотношения затраты - выигрыш.

Экономическая эффективность затрат- поиск недорогих методов выполнения заданного набора операций или получение максимальных результатов при данных затратах.

Анализ соотношения затраты-выигрыш – систематическое сравнение стоимости выполнения отдельных операций и выигрыша, получаемого в результате их выполнения.

Анализ эффективности затрат должен основываться:

  • Четко определенные цели

  • Для достижения целей должны быть предусмотрены альтернативы

  • Определена стоимость альтернатив

  • Создание модели для связи целей и альтернатив

  • Ранжирование альтернатив путем оценки затрат и ожидаемой эффективности

Когда задан объем работы, основные альтернативы и выбор вариантов относятся к операциям индексирования и ввода документов, а также к процессам поиска и вывода информации.

Каждый критерий качества может достигаться многими различными способами, каждый из которых требует своего уровня затрат (например, точность можно повысить использованием специфичного языка индексирования).

Техническая эффективность. В этом вопросе существует 2 точки зрения-пользователя и администратора.

Оценки технической эффективности, интересующие пользователей:

  • полнота поиска – способность выдавать все релевантные документы

  • точность поиска – способность отбрасывать все нерелевантые документы

  • усилия – на формулирование запросов и просмотр выданной информации

  • время поиска

  • форма представления выдачи (вопросы интерфейса)

  • полнота информационного массива- степень охвата всех релевантных документов

Методика измерения показателей эффективности:

  • затраты труда пользователей выражается через время, необходимое на формулирвоание запроса и тд

  • время реакции системы

  • форму представления выдачи оценивают в процентном отношении к полному тексту

Оценку степени соответствия (охвата) документов БД информационной потребности делать сложно, т.к. чаще всего заранее неизвестно общее количество материалов, представляющих интерес в данной предметной области. По этой же причине показатели полноты и точности отражают реальное положение условно, это затрудняет их практическое использование при проведении поиска.

Первичные координаты описания выхода ИПС, представляющие соотношение множеств выданных и невыданных документов:

Диаграмма <L> - соотношение множеств L0-всего информационного потока, Lи- множество истинно релевантных документов и Lc- множество документов, выданных системой в ответ на поисковый запрос.

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных и нерелевантных документов и невыданных множеств релевантных и нерелевантных документов.

Диаграмма <n,x> -сочетание числа выданных релевантных (х) и всего выданных (n) документов.