Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
264_265.doc
Скачиваний:
14
Добавлен:
30.07.2019
Размер:
272.38 Кб
Скачать
  1. Терминология систем текстового поиска. Документ, коллекция документов, релевантность, критерии поиска, методы создания документов.

Документ – это не юридическая сущность.а содерж.законченная,индевицируемая уние.образом ед. информ предсталенная на естественном языке.Для системы док-т представляется черным ящиком,в более развитых текст док-та доступен для обработки и анализа.

Совокупность хранимых док-ов –коллекция док-ов.

Релевантность - в широком смысле - мера соответствия получаемого результата желаемому результату.

Важными характер. правильн. поиска является полнота и точность поиска.Полнота определяет отношение кол-ва реливантных док-оа выдаваемых в результате обработки пользовательского запроса к кол-ву фактически имеющихся реливантных док-ов.

Для конечной оценки точности используется доли реливантных док-ов к общему числу док-ов запроса.

  1. Общие принципы текстового поиска. Проблемы текстового поиска.

Разнообразие использ. технологий при построений систем стп вызванно различиями подходов используемых для представления смвсла хранимых в системе док-ов на естественных языках и информационной потребности пользователя многообразием возможных критериев реливантности док-ов пользовательским запросом.

СТП обеспечивают поиск интересных пользователю док-ов на основе их информационному содержанию,а не только по наборам дискрипторов или значений каких либо атрибутов ассоциированных с данным док-ом.Эти атрибуты хотя и могут быть уникальным индификатором.но не как характеризуют их содержание.

При работе СТП необходимо решать задачи формализ. Представляя содержание текстовых док-ов и формулировать информационную потребность пользователя на естественном языке.

Необходимо учитывать особенности естественных языков:высказываеия,синонимы и омонимы,мноогообразие грамотических форм,смысловые связи между словами в предложений.

Лексика естественных языков динамична.У тестовых док-ов на естественном яхыке отсутствует ярко выраженная структура их содержания.Данные такой структуры не структурированные.Сопоставить док-ты и пользов запрос.

  1. Структурированное представление документов. Задачи и методы структурирования.

Одним из важнейших принципов организаций док-ов,является использование в процессе поиска не самих док-ов ,а их структурного представления иногда назыв.-представителями док-ов.

Работа со структурой представителя документов формируемыми в результате анализа их текстов позволяет применять в процессе поиска формализ. Методы,основанные на различных эврестических подходах.

Выбор такого пути определен важным значением и другого фактора.Анализ текста док-та является довольно тонкой процедурой т.к. док-ты могут быть довольно объемными ,коллекций могут содержать большое число док-ов и т.д.

Таким образом использ.представ док-та вместо самих док-тов,позволяет избежать трудоемкого процесса просмотра и анализа их полных текстов при выполнении поиска,а также использовать все преимущества структуры представления содержания док-ов для упрощения алгоритсмов поиска.

Указанный подход возможен т.к. введенные в систему док-ты остаются как правило неизменными на протяжений всего времени существования в системе.В этом случае построение представления каждого имеющегося в системе док-та.можно осуществ. Однократно при вводе его в систему

В современных СТП использ. различные подходы к построению пре хранимых док-ов от характера использования построений представлений существенно зависит качество поиска.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]