
Информационные системы / ИС_Тема06
.pdf
Полнота поиска определяется отношением числа выданных релевантных документов (а) к общему числу релевантных документов массива (а + с)
Точность поиска - отношение числа выданных релевантных документов (а) к общему числу выданных документов (а + b)
Специфичность поиска — отношение числа невыданных нерелевантных документов (d) к общему числу нерелевантных документов (d + b)
Теоретически и экспериментально показано, что показатели полноты и точности поиска находятся в обратно пропорциональной зависимости, т. е. повышение полноты поиска в рамках данной ИПС всегда сопровождается снижением (по крайней мере неповышением) точности поиска. И наоборот.
Для определения релевантности документов в исходной базе данных используются различные методы, позволяющие оценить число релевантных (а + с) документов в БД, не прибегая к анализу всей БД:
•случайная выборка некоторой части документов. Определение доли релевантных документов в выборке и аппроксимация полученных данных на всю БД;
•использование запросов, ориентированных на поиск заранее заданных документов и определение в выдаче доли заданных документов. Этим методом можно непосредственно оценить полноту поиска.
•проведение серии поисков по последовательно модифицируемому запросу и определение накапливаемых в процессе модификации запроса релевантных документов выдачи.
6.8.Организация массивов и операции поиска информации
Организация информационно-поисковых массивов в существенной мере определяется механизмами поиска информации. Это естественно, поскольку любой поисковый алгоритм может быть эффективен с точки зрения полноты, точности и оперативности только при определенной организации массивов. Организация массивов в свою очередь оказывает большое влияние на объемы занимаемой памяти ЭВМ, оперативность, сложность реализации, полноту и точность поиска.
В зависимости от поставленных поисковых задач в АИПС могут быть реализованы различные информационно-поисковые операции.
Типология информационно-поисковых операций. В настоящее время разработаны и реализованы в действующих АИПС самые разнообразные информационно-поисковые операции (ИПО). Каждый разработчик закладывает в эти операции что-то свое. В результате число таких операций может достигнуть в ближайшие годы внушительной величины. В то же время анализ показывает, что каждую ИПО можно описать некоторой ограниченной совокупностью признаков, определяющих ее содержание, структуру и условия реализации в конкретных АИПС. Следовательно, любую ИПО можно рассматривать как операцию, характеризующуюся некоторой единой для всех ИПО совокупностью существенных признаков. Конечно, многие нюансы и тонкости индивидуальных ИПО при таком подходе могут быть утеряны, но в то же время появляется возможность проведения сравнительного анализа различных ИПО по тем или иным основаниям, анализа их достоинств, недостатков и, самое главное, условий реализации в конкретных АИПС и соответственно требований, предъявляемых к организации массивов,
21
методам доступа и т. д. Анализ показывает, что всю совокупность реальных ИПО можно характеризовать следующими наиболее существенными признаками:
•временной интервал накопленного массива, в котором проводится поиск;
•число одновременно обрабатываемых запросов;
•тип поисковых запросов;
•характер поисковых запросов;
•характер обратной связи;
•число используемых ИПЯ;
•тип используемых ИПЯ;
•способ корректировки поисковых предписаний в процессе поиска;
•характер семантической организации массива.
Сучетом сказанного можно дать следующую типологию информационно-поисковых
операций по совокупности предложенных признаков:
1. По временному интервалу накопленного поискового массива:
а) ретроспективный поиск - поиск в массиве, накопленном за некоторый период времени, превышающий интервал времени обработки последних поступлений в систему;
б) текущий поиск - поиск в массиве поступлений в АИПС.
2.По числу одновременно обрабатываемых поисковых запросов:
а) индивидуальный поиск - поиск по одному запросу; б) групповой поиск - поиск по нескольким запросам одновременно.
3.По типу поисковых запросов:
а) поиск по разовым запросам; б) поиск по постоянно действующим запросам.
4. По характеру поисковых запросов:
а) фактографический поиск - поиск, а точнее - выборка по заранее заданным признакам фактических данных, полностью соответствующих поисковому предписанию (100%-я полнота и точность);
б) текстовой поиск (семантический или документальный поиск) -поиск текстов (сообщений, документов), релевантных согласно заданному критерию смыслового соответствия поисковому запросу.
5. По характеру обратной связи:
а) поиск без обратной связи АИПС с пользователем; б) поиск с обратной связью - интерактивный или диалоговый поиск.
6. По числу используемых ИПЯ:
а) одноязычный поиск; б) многоязычный поиск - поиск с использованием нескольких типов ИПЯ.
7. По типу используемых ИПЯ:
а) жесткоконтролируемый поиск - поиск с использованием ИПЯ с жестким словарем (ключевых слов, словосочетаний, дескрипторов или иных лексических единиц);
б) слабоконтролируемый поиск - поиск с использованием ИПЯ со свободным словарем; в) неконтролируемый поиск - поиск с использованием ИПЯ без словаря.
8. По способу корректировки поисковых предписаний в процессе поиска (способу реализации обратной связи):
а) поиск без корректировки ПП; б) поиск с ручной корректировкой ПП, выполняемый лицом, проводящим поиск на основе
анализа промежуточных результатов поиска, использования тезауруса, словарей, справочников и
22
т. д.;
в) поиск с автоматизированной корректировкой ПП, выполняемый лицом, проводящим поиск на основе анализа промежуточных результатов поиска и информации, -выдаваемой для этой цели АИПС по заранее заложенным в нее алгоритмам реализации ИПО;
г) поиск с автоматической корректировкой ПП средствами ИПО.
9. По характеру семантической организации поискового массива:
а) поиск в семантически неорганизованных массивах - одноуровневый поиск - поиск в массиве, рассматриваемом как семантически однородный;
б) поиск в семантически организованном массиве - многоуровневый поиск - поиск в массиве, семантически организованном в некоторую иерархическую, сетевую, реляционную, гипертекстовую или иную структуру.
Приведенная типология видов информационного поиска позволяет детализировать реальные поисковые операции, вычленяя те из них, которые представляют интерес с точки зрения исследуемой проблемы, поскольку проведенные виды поиска являются составляющими ИПО.
Например, текстовый (2а) диалоговый (56) ретроспективный (2а) индивидуальный (2а) одноязычный (ба) поиск по разовым (За) запросам в семантически неорганизованном массиве (9а) с использованием неконтролируемого ИПЯ (76) с автоматизированной корректировкой поисковых предписаний (86) включает девять составляющих (1а, 2а, За, 46, 56, 6а, 76, 86, 9а), каждая из которых характеризует один из аспектов ИПО.
В действительности число ИПО меньше, поскольку реализация ИПО с заданной характеристикой предъявляет определенные требования к типу ИПЯ, структуре массивов и т. д., а сами требования могут оказаться противоречивыми для различных характеристик. Например, фактографический поиск (4а) не может проводиться с использованием ИПЯ без словаря (7в) или ИПЯ со свободным словарем (76).
Организация поисковых массивов. В современных ИПС могут использоваться три принципиально разных типа информационных массивов:
•пассивный массив или массив третьего контура АИПС. Это массив оригиналов документов или сообщений, отображающих предметную область АИПС;
•слабоактивный массив - массив второго контура АИПС - упорядоченная машиночитаемая копия документов (сообщений) пассивного массива;
•активный массив - массив первого контура АИПС или информационно-поисковый массив (ИПМ) - структурированный массив машиночитаемых поисковых образов документов и/или их библиографических описаний и/или рефератов и/или самих документов (сообщений) и т. д.
Иными словами, это база данных ИПС, структурированная в соответствии с заданными ИПЯ, т. е. совокупность элементов фотографической и/или документальной информации, представленных на машиночитаемых носителях. Собственно информационный поиск проводится только в активном массиве. Однако результатами этого поиска могут быть только коды документов, отдельные их фрагменты, рефераты, аннотации, заголовки и т.д, но не полнозначные копии документов и тем более не оригиналы. Массив второго контура необходим для получения копий документов в целом или их фрагментов. Обычно этот массив хранится на машиночитаемых носителях большой емкости. Массив третьего контура используется только при необходимости обращения к оригиналу документа (сообщения). Такая необходимость возникает в библиотечных, архивных, банковских и т. д. системах, где важен юридический статус получаемой в ИПС информации. Процедура поиска информации в трехконтурной ИПС состоит в проведении собственно информационного поиска в активном массиве (базе данных) АИПС, анализе релевантности результатов поиска и обращении (при необходимости) по найденным поисковым
23
ключам к документам второго или первого контуров АИПС.
Реализация информационного поиска в АИПС предполагает предварительное представление информационных массивов в соответствии с некоторой формальной структурой данных. Существует несколько различных структур данных. В документальных АИПС используется простейшая структура данных, включающая четыре типа элементов:
ПОЛЕ - ЗАПИСЬ - ФАЙЛ - НАБОР ФАЙЛОВ.
ПОЛЕ — наименьшая поименованная единица данных (информации). Данными могут быть: автор документа, название документа, реферат документа, часть документа или реферата документа, название дескриптора или иной лексической единицы и т. д. Иными словами, ПОЛЕ - любая поименованная единица информации (данных), которая может представлять интерес в процессе информационного поиска. Различают фиксированные и свободные (гибкие) поля данных.
Фиксированное поле данных — поле с заранее заданным (фиксированным) числом символов (байт), используемых при его заполнении. Например, поля "фамилия автора документа", "год издания документа". Свободные (гибкие) поля не предполагают явных ограничений на длину значений данных. Например, поля "реферат", "название документа" могут иметь разное число символов для различных документов.
ЗАПИСЬ - поименованная совокупность полей данных. Например, запись "документ" может включать поля: № документа, название документа, год издания, издательство, автор и т. д.
ФАЙЛ - поименованная совокупность экземпляров записей одного типа. НАБОР ФАЙЛОВ - поименованная совокупность файлов.
СХЕМА ЗАПИСИ - совокупность имени записи и имен составляющих ее ПОЛЕЙ. Например, ДОКУМЕНТ (№ документа, название документа, год издания, автор, дескриптор,
реферат). Схема записи определяет тип записи: задает порядок композиции схем типов полей и приписывает имя типу записи. Схема файла — совокупность имени файла, имени типа записи и имен составляющие ее полей. Схема базы данных — совокупность имени набора файлов и схем составляющих ее файлов.
24

Прямая схема организации массива
Инверсная схема организации массива
Рис. 1. Прямая и инверсная схемы организации массивов
База данных - совокупность состояний составляющих ее файлов. При предмашинном представлении информации схему базы данных отображают на бумажном носителе в виде, удобном для сбора и ввода информации. Такое представление носит название рабочего листа АИПС или формата ввода данных АИПС. Обратное отображение рабочего листа в схему базы данных выполняется компьютерной программой в процессе ввода информации в АИПС. Схема базы данных (схема организации информационно-поисковых массивов) оказывает существенное влияние на эффективность поисковых операций. Существуют самые разнообразные схемы организации поисковых массивов, отличающиеся между собой как наборами файлов, так и их схемами. Однако в основе любых схем БД лежат схемы файлов, а в более узком смысле - схемы записей, поскольку именно они определяют структуру организации массивов.
Рассмотрим наиболее важные в документальном поиске схемы организации массивов. Прямая схема организации массива. Схема записи представляет собой совокупность имен
интересующих пользователя полей, одним из которых обязательно является номер документа. Файл формируется как массив записей, упорядоченных по номерам документов (рис. 11).
Инверсная схема организации массива. Схема приемлема только для записей с фиксированными полями. Схема записи включает имя ключевого поля (поля, по которому предполагается проводить поиск) и поля "номера документов". Файл формируется как массив
25
упорядоченных по значениям ключевого поля записей, например по алфавиту, цифровым кодам и т. д.
Прямая схема организации массива требует минимальных объемов памяти для записи и хранения информации, позволяет легко вносить изменения и дополнения, учитывать синтагматические отношения в процессе поиска. Однако поиск требует много времени, так как каждый запрос предполагает просмотр всего файла. При групповом поиске этот недостаток частично снимается.
Инверсная схема организации массива требует создания инверсных файлов по каждому из полей, по которым производится поиск. Это существенно увеличивает объемы занимаемой памяти. Но время поиска при такой схеме минимально, поскольку обеспечивается прямой поиск по ключам. Недостатком инверсной организации массива является сложность корректировки записей и сложность учета синтагматических отношений в процессе поиска.
На практике приходится создавать массивы с прямой и инверсной организацией, т. е. использовать комбинированную схему организации массивов. Процесс поиска в этом случае состоит в том, что в инверсном массиве выбираются номера возможно релевантных в силу логики запроса документов, а затем просматривается выделенная часть прямого массива. Такой прием повышает оперативность поиска, особенно при конъюнктивной логике запросов.
Ключевые слова
Документальные и фактографические системы. Предметная область ИС.Документальные системы: информационно-поисковый язык, система индексирования, технология обработки данных, поисковый аппарат, критерии оценки документальных систем. Программные средства реализации документальных ИС.
Вопросы для проверки
1.Что называется Предметной областью?
2.Для чего предназначены Фактографические ИС?
3.Для чего предназначены Документальные ИС ?
4.Что называют информационно-поисковым языком?
5.Что называют Поисковым образом документа ?
6.Что понимают под релевантностью при поиске документов?
7.Что понимают под Парадигматическими отношениями слов естественного языка ?
8.Что понимают под Синтагматическими отношениями слов естественного языка ?
9.Что характеризует Семантическая сила информационно-поискового языка?
10.Укажите три основных требования, которым должен удовлетворять семантически развитый информационно-поисковый язык?
11.Какие типы информационно-поисковых языков вы знаете?
12.На чем основаны Предкоординируемые языки (классификационные языки)?
13.На чем основаны Посткоординируемые (дескрипторные языки) ?
14.Назовите три типа классификационных (предкоординируемых) информационно-поисковых языков?
15.Что называют Иерархической классификацией?
16.Назовите преимущество языков иерархического типа ?
17.Назовите недостатки языков иерархического типа ?
18.На чем основаны Информационно-поисковые языки фасетного типа?
19.В чем состоит преимущество информационно-поисковых языков фасетного типа по сравнению с информационно-поисковыми языками иерархического типа?
20.Что такое Алфавитно-предметная классификация ?
21.В чем состоит основной недостаток классификационных языков (иерархических, фасетных, алфавитно-предметных) ?
22.В чем состоит основной недостаток дескрипторных языков ?
26
23.Что называется Информационно-поисковым тезаурусом?
24.Что использует для выражения содержания документа и запроса при бестезаурусном индексировании?
25.Что использует для выражения содержания документа и запроса при индексировании с тезаурусным контролем лексики?
26.Для чего используются Информационно-поисковые тезаурусы ?
27.Что понимают под Индексированием документа в информационно-поисковых системах ?
28.Расскажите о процедуре построения информационно-поискового языка иерархического
типа?
29.Расскажите о процедуре построения информационно-поискового языка фасетного типа
30.Что лежит в основе построения дескрипторных информационно-поисковых языков?
31.Как формулируется поисковое предписание при координатном индексировании?
32.Назовите этапы построения тезауруса информационно-поисковых систем ?
33.Как ведется отбор ключевых слов (дескрипторов) при построении тезауруса информационно-поисковых систем?
34.Что такое Класс эквивалентности в информационно-поисковых системах?
35.Что объявляется дескриптором при построении информационно-поисковых тезаурусов
36.На чем основано большинство автоматизированных методов создания информационнопоискового тезауруса
37.Что фиксируется в словарной статье автоматического информационно-поискового тезауруса?
38.Какие этапы включает Процесс формирования поискового образа запроса ?:
39.Что такое критерий полнота поиска ?
40.Что такое критерий точность поиска ?
41.Что такое Критерий специфичность поиска ?
42.Что представляет Поисковый массив третьего контура (пассивный массив) информационно-поисковых систем (ИПС) ?
43.Что представляет Поисковый массив второго контура (слабоактивный массив) информационно-поисковых систем ?
44.Что представляет Поисковый массив первого контура (активный массив) информационнопоисковых систем представляет
45.Что лежит в основе прямой схемы организации информационно-поискового массива?
46.Что лежит в основе инверсной схемы организации информационно-поискового массива ?
47.Как организуется файл при использовании прямой схемы организации информационнопоискового массива?
48.Как организуется набор файлов пи использовании инверсной схемы организации поискового массива?
49.Три преимущества прямой схемы организации информационно-поисковых массивов?
50.Недостаток прямой схемы организации информационно-поисковых массивов?
51.Три недостатка инверсной схемы организации информационно-поисковых массивов?
52.Преимущество инверсной схемы организации информационно-поисковых массивов?
27