30. Линейная модель механизма поиска по логическому выражению.

Логическое выражение поискового условия – это синтаксическая конструкция языка, задающая порядок и способ вычисления величины, принимающей значение «0» или «1». Выражение представляет собой последовательность операндов, соединенных друг с другом знаками операций. Нотация Бэкуса для такого выражения следующая: <Выражение>::=<Операнд><Выражение><Операция>

<Выражение> (<Выражение><Операция><Выражение>) Обычно: операнд – термин(дескриптор); операция – одна из логических операций. Первый этап вычисления логического выражения может состоять в построении двоичного дерева операций. Все логические операции (кроме NOT) – бинарные => можно представить любое логическое выражение запроса в виде несбалансированного двоичного дерева, прохождение по которому снизу вверх приводит к получению результата. В узлах дерева расположены логические операции (o_i), а листья (конечные узлы) представляют собой строки матрицы L₀, соотвующие терминам запроса .Операнд запроса – отдельно вычисляемое выражение, соответствующее поддереву запроса. Расширенная матрица «термин-документ» .Строки – не только показатели встречаемости терминов, но и результирующие векторы запросов (Q_i).

, где ₁,K – количество включенных в матрицу результирующих векторов запросов,а

Поставим в соответствие каждой логической операции правило ее выполнения с использованием расширенной матрицы:гдеиз множества бинарных логических операций:Для унарной операцииNOT это правило реализуется следующим образом:

Тогда алгоритм разрешения двоичного дерева поискового запроса состоит в последовательном выполнении снизу вверх логических операций и в пополнении на каждом шаге матрицы L₀ очередной строкой-результатом. Условием выполнения k-той операции служит наличие в матрице строк, соответствующих правому и левому операнду. После выполненияk-той операции формируется результирующий вектор , который становится ()-й строкой матрицы.

31. Линейная модель механизма поиска документов-аналогов.

Аналогами документа называются такие документы информационного массива, которые имеют заданное количество общих терминов с исходным. Задается пороговое значение близости m. Процедура поиска аналогов м.б. усложнена заданием пороговых значений для структурных единиц документов и составлением логических выражений над множеством критериев отбора, связывающих поле и соответствующее пороговое значение.

Выделим в матрице L₀ столбец , соответствующий ПОДу рассматриваемого документа, и построим подматрицуL_Doc, оставив в матрице L₀те строки, в кот-х . По матрицеL_Doc строится результирующий вектор запроса на поиск аналогов (Q_Doc ) и м.б. получен поисковый результат с учетом (или без) некоторого заданного порога «близости» (m). Результирующий вектор Q_Doc=(q₁q_2…q_m), где q_i₌, т.е. суммированием элементов столбца. Далее получаем окончательный поисковый результат K_n=(k_1…k_m), k_i равно либо 0 (q_i<m), документ не является аналогом,либо 1(q_i>=m), является аналогом.

32. Линейная модель механизма эвристического поиска.

Пользователь изначально указал некоторое множество релевантных документов.

Шаг 1. Построение словника терминов по множеству релевантных документов. Т.е. строится матрица L_Rel.

Шаг 2. Оценка терминов словника и построение Поискового Образа Темы (ПОТ).

Результатом оценивания должно быть выделение тех терминов, которые могут быть включены в ПОТ. Рекомендованный способ отбора терминов: точность термина (=частота термина в множестве релевантных документов/частота термина в информационном массиве) должна превышать параметр, вычисляемый как 1/ n_S. Эвристический параметр n_Sхарактеризует число ожидаемых документов.

Шаг 3. Построение матрицы «термин-документ» (получается вычеркиванием строк терминов, которые не попали в ПОТ). , гдеM – количество терминов в ПОТ, определяющее порог «близости» для следующего шага, n – число релевантных документов. //Столбец-термин, строка-документ

Шаг 4. Поиск аналогов с пороговым значением M. По матрице «термин-документ» формируется поисковый результат с учетом порога близости M. Если число документов полученного результата меньше, чем заданное в системе n_S, то пороговое значение M уменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-ой итерации пороговое значение равно M–i.

Цикл заканчивается: либо после выполнения очередной итерации число документов результата стало равно или превысило значение n_S , либо пороговое значение стало равно 0.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 2415 16 17 18 19 20 21 22 23 24 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.06.2015291.33 Кб14zapiska_2011.doc
#
27.03.2016918.46 Кб43Zhuravleva_Sbornik_dopolnitelnyh_grammaticheskih_2014.pdf
#
05.06.20153.11 Mб9ZinovyevBook.pdf
#
05.06.20152.61 Mб245zverkoff_otvet.pdf
#
05.06.2015263.06 Кб23[7 семестр] SAP (2014). Вопросы к зачёту.pdf
#
04.06.2015879.86 Кб22[7 семестр] Расписанные вопросы к экзамену.docx
#
05.06.20151.52 Mб10[7 семестр] Расписанные вопросы к экзамену.pdf
#
04.06.201594.72 Кб69_ДЗ№3.docx
#
21.11.201954.27 Кб11_ОИБ (2 к) л-3.doc
#
21.11.201974.75 Кб15_ОИБ (2 к) л-4.doc
#
25.11.201972.7 Кб7_ОИБ (2 к) л-6.doc