2. Поиск текстовой информации

Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:

представление документов и запросов;
критерии смыслового соответствия;
методы ранжирования результатов запроса;
механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.

Существует большое количество методов поиска, наиболее известны следующие:

метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;
метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;
третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;
нейросетевые методы.

Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.

Существуют два основных подхода к использованию такой обратной связи:

модификация запроса и
модификация представления документов.

Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

Оценка качества дипс

Как уже отмечалось, поисковый образ документа содержит лишь основное, сокращенное смысловое содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:

ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;
ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.

Введем следующие обозначения:

а – количество выданных релевантных документов,
b – количество выданных нерелевантных документов,
с – не выданных релевантных документов,
d – количество не выданных нерелевантных документов.

Эти обозначения позволяют выразить основные показатели эффективности ДИПС:

коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

p = a/(a + c)

коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

n = a/(a + b)

<<< < Предыдущая 1 2 3 4 56 / 256 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
10.11.2019271.87 Кб1lr3.doc
#
10.11.2019114.69 Кб4lr4.doc
#
10.11.2019324.1 Кб1lr7.doc
#
01.07.20251.6 Mб0LR_shablon_2017sp.docx
#
23.11.2019674.3 Кб18L_11-12_KVN10.doc
#
24.11.2019458.75 Кб17L_SOEI_Part1.doc
#
16.04.2019537.75 Кб34MAKROEKON_-MYeTOD_641.docx
#
01.07.20252.97 Mб1masterskaya_kompyuternoy_grafiki_gimp_dlya_8.doc
#
01.07.20251.87 Mб0Mater_dlya_spetskursa.doc
#
18.04.20191.23 Mб6MathCAD_ЗАСТАВКИ_сжато.doc
#
21.08.2019820.74 Кб4MathCAD_основы работы_ЗАСТАВКИ.doc

2. Поиск текстовой информации

Оценка качества дипс