- •Информационные системы
- •ВВЕДЕНИЕ
- •1. Информация. Основные свойства и определения
- •1.1. Информация как основной предмет информатики
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.2.1. Информация
- •1.2.2. Данные
- •1.2.3. Знания
- •1.3. Свойства информации
- •1.3.1. Кумулятивность информации
- •1.3.2. Концентрация информации
- •1.3.3. Эмерджентность и неассоциативность информации
- •1.3.4. Стaрение информации
- •1.3.5. Межотраслевые свойства и рассеяние информации
- •1.4. Информационные единицы
- •Контрольные вопросы
- •2. Информационные системы и технологии обработки информации
- •2.1. Состав и структура информационной системы
- •2.1.1. Классификация информационных систем
- •2.1.2. Основные компоненты ИС
- •2.2. Информационные компоненты в системах управления
- •2.2.2. Информация в системах обработки и генерации знания
- •2.3. Информационные технологии
- •2.4. О реализации процесса поиска информации
- •Контрольные вопросы
- •3. Модели и структуры данных информационных систем
- •3.1. Семантика ИС, основанных на концепции баз данных
- •3.2. Идентификация и поиск информации
- •3.3. Представление предметной области и модели данных
- •3.4. Структура информации и структура данных
- •3.6.1. Преобразование представлений
- •Контрольные вопросы
- •4. Модели поиска и оценки эффективности
- •4.1. Оценка экономической и технической эффективности
- •4.1.1. Экономическая эффективность
- •4.1.2. Техническая эффективность
- •4.2. Математические модели оценки технической эффективности
- •4.3.2. Модель механизма поиска по совпадению терминов
- •4.3.3. Модель механизма поиска по логическому выражению
- •4.3.4.1. Модель механизма поиска документов-аналогов
- •4.3.4.2. Модель механизма эвристического поиска
- •4.5. Информационно-поисковый язык документальной ИПС
- •4.5.1. Предложение запроса
- •4.5.2. Условие поиска
- •4.5.3. Синтаксис и семантика использования дескрипторов
- •4.5.4. Использование ранее полученных результатов поиска
- •5. Лингвистическое обеспечение ИС
- •5.2. Состав и структура лингвистического обеспечения
- •Линейные
- •5.3. Классификации
- •5.3.1. Библиотечно-библиографические классификации
- •5.3.1.2. Алфавитно-предметные классификации
- •5.3.1.3. Фасетные классификации
- •5.3.2. Классификации изобретений
- •5.3.3. Отраслевые классификационные системы
- •5.4.1. Координатное индексирование
- •5.4.2. Семантическая сила дескрипторных ИПЯ
- •5.5.1. Линейные терминологические структуры
- •Рубрика
- •Слов
- •5.5.2. Иерархические терминологические структуры
- •6. Поисковые задачи и технологии информационного поиска
- •6.2. Поисковые задачи и виды информационного поиска
- •6.2.1. Типология поисковых задач
- •6.2.2. Типология информационных потребностей
- •7.3. Технология поиска и интерфейс АИПС
- •7.3.1. Творческий процесс и стереотипы мышления
- •7.3.2. Интерфейс пользователя
- •Таблица 7.1.
- •7.4.3. Типология и стереотипы поведения пользователей
- •7.5.1.1. Стратегия поиска и классификация АИПС
- •7.5.1.2. Методы поиска
- •7.5.3. Поисковые интерфейсы
- •7.5.3.1. Организация интерфейсных объектов
- •7.5.3.2. Роль системы в процессе взаимодействия
- •8. Интерфейсные средства информационного поиска
- •8.1.1. Формирование запроса «по образцу»
- •8.1.2. Конструктор запроса «по шагам»
- •8.1.3. Конструктор запроса «Логическое выражение»
- •8.1.4. Использование формулировок ранее сохраненных запросов
- •8.2.1. Поиск аналогов
- •8.2.2. Эвристический поиск
- •8.2.3. Поиск по обратной связи
- •8.3. Технологические объекты построения предложения запроса
- •8.3.1. Частотный словарь
- •8.3.2. Тематический рубрикатор
- •8.3.3. Тезаурус
- •8.3.4. Иерархический словник
- •Список сокращений
- •ЕЯ – естественный язык.
- •ИС – информационная система.
- •ТСС – тематико-статистический спектр множества документов.
- •Литература
- •Глоссарий
- •Приложения
терминов (ключевых слов) для отбора документов, содержащих эти ключевые слова [Озкарахан1989]. Условие частичного совпадения можно задать, используя в терминах поискового образа так называемый несущественный символ – символ маскирования (обычно для этого используется знаки «*», «?» и «%»). Такие символы могут начинать термин, заканчивать его или находиться в середине, причем их может быть фиксированное или переменное число.
Формирование ПОЗа – это выбор из матрицы L0 строк, соответствующих терминам, указанным в запросе. При этом, если некоторый термин не найден в словаре D, ему ставится в соответствие строка, состоящая из одних нулей (нулевая строка). Таким образом, для k терминов получаем подматрицу запроса (Lq), в которой отдельные строки могут быть нулевыми:
Λ Λ Λ Λ Λbi11bi1 2 Λ bi1n0Λ Λ Λ Λ Λ
Lq = bi21bi2 2 Λ bi2n0 Λ Λ Λ Λ Λ
bik 1bik 2 Λ bik n0Λ Λ Λ Λ Λ
Построим результирующий вектор запроса:
k |
k |
k |
|
(4.7) |
Q = ∑bil 1 |
∑bil 2 Λ ∑bil n0 |
|
||
l=1 |
l=1 |
l=1 |
|
|
Окончательный поисковый результат далее может быть сформирован по двум правилам: документ считается формально релевантным запросу, если содержит все k терминов, или документ считается формально релевантным запросу, если содержит хотя бы часть (один, два, три и т.д.) из k терминов.
При реализации первого правила получаем:
|
|
k |
Qk = (q1q2 Λ qn |
1, если∑bili = k |
|
), гдеqi = |
l=1 |
|
|
0 |
|
0 - впротивномслучае
Для реализации второго правила зададим порог m, определяющий минимальное количество терминов (из k терминов запроса, m ≤ k ), необходимое для отнесения документа к множеству формально релевантных запросу:
|
|
k |
Qk = (q1q2 Λ qn |
1,если∑bili ≥ m |
|
),гдеqi = |
l=1 |
|
|
0 |
|
0 - впротивномслучае
4.3.3. Модель механизма поиска по логическому выражению
110
Логическое выражение поискового условия – это синтаксическая конструкция языка, задающая порядок и способ вычисления величины, принимающей значение «0» или «1» («истина» или «ложь»).
В соответствии с правилами выражение представляет собой последовательность операндов, соединенных друг с другом знаками операций. Некоторые фрагменты выражения могут быть заключены в круглые скобки.
Нотация Бэкуса для такого выражения следующая:
<Выражение> ::= <Операнд> <Выражение><Операция><Операнд> <Операнд><Операция><Выражение> (<Выражение>)<Операция><Операнд>
<Операнд><Операция>(<Выражение>)
Вкачестве операнда в поисковом выражении обычно выступают термины (дескрипторы), а в качестве операции – одна из логических операций AND (И), OR (ИЛИ), XOR (ИСКЛЮЧАЮЩЕЕ ИЛИ) и NOT (НЕ).
Первый этап вычисления логического выражения может состоять
впостроении двоичного дерева операций. Исходя из того, что все логические операции (кроме операции НЕ, которая, по существу, представляет собой инверсию исходного значения) являются бинарными, можно представить любое логическое выражение запроса в виде несбалансированного двоичного дерева, прохождение по которому снизу вверх приводит к получению результата.
Вузлах такого дерева (рис.4.4), включая корневую вершину,
расположены логические операции (oi), а листья (конечные узлы) представляют собой строки матрицы L0, соответствующие терминам
запроса (ti = (bij , j =1, n0 )).
ok
|
|
ok-1 |
|
ok-2 |
|
|
|
… |
… |
… |
|
|
… |
|
o1 |
… |
… |
… |
|
oi k |
|
|
|
|
|
|
|
t1 |
t2 |
|
|
|
tl |
tk |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
oj k |
|
|
|
|
|
tm |
|
tn |
|
|
|
|
|
|
|
111
Рис. 4.4. Дерево структурных единиц запроса
Например, логическому выражению: t1 t2 t3 t4 , где ti – термины запроса, соответствует двоичное дерево, приведенное на рис. 4.5.
٧
٨٨
t1 |
t2 |
t3 |
t4 |
Рис. 4.5. Дерево логического выражения t1 t2 t3 t4
Будем далее называть операндом запроса отдельно вычисляемое выражение, соответствующее поддереву запроса.
Рассмотрим расширенную матрицу «термин-документ» L0′, строки
которой могут представлять собой не только показатели встречаемости терминов в документах информационного массива, но и результирующие векторы запросов (Qi)
|
|
b′ b′ |
Κ b′ |
|
|
|
||
|
|
11 |
12 |
|
1n0 |
|
|
|
L0 |
′ |
b′ b′ |
Κ b′ |
|
, где D′ = D + K , |
(4.8) |
||
= 21 |
22 |
|
2n0 |
|
||||
|
|
Λ Λ Λ Λ Λ |
|
|
|
|||
|
|
b′′ |
b′ |
′ |
Κ b′′ |
|
|
|
|
|
D 1 |
D 2 |
D n0 |
|
|
|
K – количество включенных в матрицу результирующих векторов запросов,
b , еслистрока принадлежитматрице L
аbij′ = q , еслистрока представляетсобойрезультатзапроса
ijij 0
Далее, поставим в соответствие каждой логической операции правило ее выполнения с использованием расширенной матрицы:
′ ′ |
′ ′ |
|
|
(4.9) |
|
||||
bi ok bm |
= (bij ok bmj , j =1,n0 ), |
|||
где ok |
из множества бинарных логических операций: |
|||
ok O,O = {o1 ,o2 ,...,os } |
(4.10) |
Для унарной операции NOT это правило реализуется следующим образом:
¬bi′ = (¬bij′, j = |
|
) |
(4.11) |
1, n0 |
Тогда алгоритм разрешения двоичного дерева поискового запроса состоит в последовательном выполнении снизу вверх логических операций и в пополнении на каждом шаге матрицы L0 очередной строкой-результатом.
112
Условием выполнения k-той операции служит наличие в матрице L0′ строк, соответствующих правому и левому операнду. После
выполнения k-той операции |
формируется результирующий вектор |
||
′ ′ |
|
′ |
+1)-й строкой матрицы. |
qk = bi ok bm , который становится ( D |
|
Модель механизма поиска с использованием контекстных операций. При контекстном поиске указываются структурная единица (абзац, предложение) и/или расстояние между поисковыми терминами, которым должен удовлетворять документ. То есть, кроме определения взаимосвязи между терминами в том смысле, что они должны встречаться в какой-либо логической комбинации, используются и другие аспекты, свойственные естественным языкам, например, взаимное расположение терминов.
В этом случае поисковый алгоритм может рассматриваться как последовательное выполнение двух задач:
1)замена в поисковом запросе контекстных операций на логическую операцию AND, построение дерева запроса и выполнение алгоритма, описанного выше;
2)реализация на полученном в результате множестве документов контекстных операций путем непосредственного сканирования документов и вычисления координат терминов.
4.3.4. Модели механизмов поиска по сходству
Работа ИПС основана на использовании дескрипторов, которые лишь приблизительно описывают тематическое содержание документов и запросов. Поэтому обычно выдача в ответ на тематический запрос не бывает полной и точной.
Кроме того, широко распространенный поиск с использованием булевой логики имеет ряд недостатков. Наиболее существенный из них - плохая усваиваемость многими пользователями семантики булевых операторов и синтаксиса выражений. Поэтому ИПС, основное назначение которых – поиск релевантной информации с использованием тематических дескрипторов, для повышения эффективности поисковых процессов предлагают технологию обратной связи, типичная реализация которой, например, следующая [Robertson1986]:
-пользователь формирует список терминов для поиска, в результате которого выдается набор документов;
-документы в выдаче упорядочиваются в соответствии с некоторым алгоритмом взвешивания и ранжирования;
-пользователь просматривает выдачу, отмечая релевантные документы;
113