Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Презентация ИС 2013_1

.pdf
Скачиваний:
75
Добавлен:
23.02.2015
Размер:
11.2 Mб
Скачать

Информационно-поисковые системы

Процесс функционирования ИПС состоит в следующем.

1.Перевод содержания документа и/или запроса с естественного языка на ИПЯ (процесс индексирования текстов);

2.В результате индексирования полный текст документа (запроса) заменяется некоторой характеристикой, кратко отражающей его смысловое содержание.

3.Эта характеристика носит название поискового образа документа (ПОД) и/или поискового образа запроса (ПОЗ).

Информационно-поисковые системы

4.Создание массива ПОД.

5.Обработка элементов этого массива, т. е. выделение из поискового массива тех документов, содержание которых соответствует поисковому запросу.

6.Эта операция осуществляется в соответствии с некоторым критерием смыслового соответствия (КСС) поискового образа документа поисковому образу запроса.

Модель индексирования и поиска

 

 

 

 

Поисковый образ

 

 

Индексирование

 

Документ

 

 

 

 

документа

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Критерий Тезаурус смыслового Выдача

соответствия

Запрос

 

Индексирование

 

Поисковый образ

 

 

 

 

запроса

 

 

 

 

 

Процесс поиска осуществляется путем сопоставления

поисковых образов документов с поисковым образом запроса.

При полном или частичном совпадении образов документ

считается соответствующим запросу и выдается пользователю.

123

Индексирование документов

При вводе в ИПС каждый документ подвергается индексированию.

Под индексированием понимается процесс, который состоит из двух этапов:

1.анализ предметного содержания документа (выявление понятий, присутствующих в данном документе);

2.представление выявленных понятий в терминах индексирования (на языке, принятом в информационно-поисковой системе - ИПЯ) и

записи в виде поисковых образов, которые связываются с документом.

Индексируются не только документы, но и запросы.

124

Информационно-поисковый язык

(ИПЯ)

ИПЯ – это специализированный язык, с помощью которого отражают основное содержание документов, вводимых в ИПС.

Задачи ИПЯ:

1)перевод содержания документа в поисковое предписание или поисковый образ документа (ПОД);

2)перевод содержания запроса в поисковое предписание или поисковый образ запроса (ПОЗ).

125

Составляющие ИПЯ

Информационно-поисковый язык состоит из следующих компонентов.

1.Словарь единиц текста, используемых для индексирования (лексика).

2.Совокупность правил составления поисковых образов и уточнения смысла лексических единиц по контексту (грамматика).

Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Такой словарь называют тезаурусом.

Дескрипторные ИПЯ позволяют приписать каждому документу несколько дескрипторов, каждый из которых является именем широкого класса понятий (терминов).

126

Понятие дескриптора

Под дескриптором понимают некоторый обобщающий термин, выбранный разработчиком ИПЯ, для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами.

Такие слова объединяют в класс условной эквивалентности, обобщаемый соответствующим дескриптором.

Дескриптор можно определить как имя класса

условной эквивалентности.

Если в тексте документа или запроса встречается слово

из данного класса, то его заменяют дескриптором в ПОД или ПОЗ.

127

Понятие тезауруса

Тезаурус – это толковый дескрипторный словарь, в

котором значение каждой стандартной лексической единицы (дескриптора) интерпретируется через связи с другими дескрипторами.

Вышестоящий

 

 

Вышестоящий

 

 

 

 

 

Вышестоящий

 

термин

 

 

термин

 

 

 

 

 

 

термин

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ассоциативный

 

 

 

 

Термин

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

термин

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижестоящий

 

 

 

Нижестоящий

 

 

 

 

 

Нижестоящий

 

термин

 

 

 

термин

 

 

 

 

 

 

термин

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дескриптор: образование

Вышестоящий термин : духовная культура

Нижестоящий : высшее образование; изучение и т. д;

Ассоциативный: педагогика; воспитание и т. д .

128

Схема функционирования документальной ИПС

Поток

Индекси-

 

Хранилище

 

первоисточников

первоисточников

рование

 

 

 

 

 

 

 

Контур обработки документов

Словарь

ПОД

Поисковый

 

массив

ИПЯ

 

 

 

 

 

 

 

 

 

 

 

 

Поиск КСС

Контур обработки запросов

Поток запросов

Индекси-

ПОЗ

 

№ документов,

Выданные

 

выданных по

 

рование

 

 

первоисточники

 

 

 

 

КСС

 

129

Режим ретроспективного поиска

В данный режим входят три функциональных блока.

1.Контур обработки документов:

присвоение документу уникального номера;

построение поискового образа документа (ПОД).

2.Контур обработки запросов:

построение поискового образа запроса (ПОЗ).

3.Блок поиска и выдачи документов.

Множество ПОД образует поисковый массив, который называется индексной базой (Index Database).

Каждый ПОД сопоставляется с данным ПОЗ с использованием критерия смыслового соответствия

(КСС).

130

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]