Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тарасова экзамен.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
243.2 Кб
Скачать

9. Поиск текстовой информации

Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:

  • представление документов и запросов;

  • критерии смыслового соответствия;

  • методы ранжирования результатов запроса;

  • механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.

Существует большое количество методов поиска, наиболее известны следующие:

  • метод булевой модели.

  • метод весовых коэффициентов.

  • третий метод – использование нечеткой логики для поиска в случае большого набора элементов .

  • нейросетевые методы.

Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.

Существуют два основных подхода к использованию такой обратной связи:

  • модификация запроса и

  • модификация представления документов.

Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

10.Оценка качества дипс

Как уже отмечалось, поисковый образ документа содержит лишь основное, сокращенное смысловое содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:

  • ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;

  • ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.

Введем следующие обозначения:

  • а – количество выданных релевантных документов,

  • b – количество выданных нерелевантных документов,

  • с – не выданных релевантных документов,

  • d – количество не выданных нерелевантных документов.

Эти обозначения позволяют выразить основные показатели эффективности ДИПС:

  • коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

p = a/(a + c)

  • коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

n = a/(a + b)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]