Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы ИС.docx
Скачиваний:
5
Добавлен:
25.09.2019
Размер:
120.69 Кб
Скачать

43 Документальные информационные системы. Схема документальной информационно-поисковой системы.

Общий принцип функционирования.

44 Индексирование

Индексирование — это процесс перевода с естественного языка на информационно-поисковый язык либо на язык индексирования (ИПЯ).

Язык предметных рубрик.

Типы индексирования

В зависимости от используемых ИПЯ можно выразить с помощью предметизации, систематизации (классификационные ИПЯ)

Два вида индексирования (в зависимости от ИПЯ)

- Предкоординатное. ИПЯ классификационного типа. Чаще применяется к документам, которые индексируются до поступления запроса. Поиск в этом случае чаще всего реализуется по иерархической структуре, т.е. по каталогам.

- Посткоординатное. Координатные ИПЯ. языки дескрипторных или ключевых слов). Индексированию подвергаются документы а также запросы, индексирование выполняется после поступления запроса.

На сегодня чаще всего исп. два осн. варианта:

- Прямой индекс (прямой индексный файл)

- Обратный индекс (инвертированный файл)

45 Синтаксический анализ в информационно-поисковых системах.

- Пофразовый. Составление фраз.

- Пословный. При поиске воспринимается каждое слово по отдельности.

- Комбинированный.

46 Поисковые функции ипс

Можно выделить два основных режима работы ИПС.

1. Ретроспективный поиск. Осуществляется по разовым запросам по всей базе данных поисковых образов документов. Этот режим реализован во всех ИПС.

2. Режим избирательного распространения информации. Реализуется по постоянным запросам по части базы данных вновь поступивших документов. Чаще всего за определенный период. При реализации данного режима обязательно должна быть БД документов с информацией о дате их поступления, а также БД поисковых образов запросов.

48 Показатели эффективности поиска

Основные

— Полнота поиска

— Точность

Косвенные

— Информационные потери

— Информационный шум

Релевантные документы

Нерелевантные документы

Выданные

a

b

Не выданные

с

в

A + C = истинно релевантные документы

Полнота поиска — это отношение выданных релевантных документов к общему количеству релевантных документов в базе.

Диапазон изменение полноты — от 0 до 1

Точность — отношение выданных релевантных документов к общему количеству выданных документов.

Пределы изменения — от 0 до 1

Потеря - отношение не выданных релевантных документов к невыданным релевантным документам.

ИПт = 1 полнота

Информационный шум - b / (a + b)

1 - точность

Отношение выданных не релевантных документов к общему количеству выданных документов

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]