Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

8.3.4. Иерархический словник

Иерархические словники служат дополнительными терминологическими структурами на этапе формирования предложения запроса и могут быть использованы в технологиях поиска по образцу и поиска по логическому выражению.

Построенная для некоторой тематической области словарная иерархия может быть отображена в интерфейсном окне, поддерживающем возможности отбора терминов и включения их в текущее предложение запроса.

Такого рода словарные структуры обеспечивают альтернативный частотному словарю вход в терминологию информационного массива, расширяя для пользователя среду формирования ПОЗа, но не выводя его при этом за пределы лексики предметной области.

Так, например, окружение термина «ИПТ» (информационнопоисковые тезаурусы) выглядит по-разному в частотном словаре и в иерархическом словнике. Для частотного словаря, политематического и упорядоченного по лексикографическим признакам, имеем:

262 ИПТ

1ИПТ МАШИННЫЕ

138ИПЯ

2ИРАК

1

ИРАКСКАЯ АГРЕССИЯ

5

ИРАН

1

ИРАНСКИЙ УНИВЕРСИТЕТ

9

ИРБИС

1

ИРВИНА СЕМЕЙСТВО

96

ИРИ

Для иерархического словника, созданного по лексике тематической рубрики 201.23.15 «Информационно-поисковые языки» (включая подуровни), фрагмент, начинающийся термином «ИПТ», выглядит следующим образом:

ИПТ

ДВУЯЗЫЧНЫЕ ИПТ ИПТ МАШИННЫЕ МНОГОЯЗЫЧНЫЕ ИПТ ОДНОЯЗЫЧНЫЕ ИПТ ОТРАСЛЕВЫЕ ИПТ

ИПЯ

ДЕСКРИПТОРНЫЕ ИПЯ МЕЖДУНАРОДНЫЕ ИПЯ НАЦИОНАЛЬНЫЕ ИПЯ НЕКОНТРОЛИРУЕМЫЕ ИПЯ ОСОБЕННОСТИ ИПЯ

ПРЕДМЕТИЗАЦИОННЫЕ ИПЯ ФАКТОГРАФИЧЕСКИЕ ИПЯ

ИСПАНСКИЙ ВАРИАНТ ИСПАНСКИЙ ЯЗЫК

Если в частотном словаре пользователь может ориентироваться лишь по частоте употребления термина, то в иерархическом словнике рядом с термином представлены все его лексические расширения, что, с одной стороны, более удобно для пользователя, не вполне знакомого с лексикой темы, а с другой – позволяет сразу определиться в пространстве терминов для формулировки более точного поискового запроса (рис. 8.12).

Рис. 8.12. Отображение и использование иерархического словника (мини-тезауруса)

Использование таких словников выглядит в ряде случаев предпочтительнее использования тезаурусов, т.к. словники предполагается строить «на лету» по лексике тематической подборки актуального информационного массива, в то время как тезаурусы не всегда с терминологической точки зрения успевают отразить текущее состояние лексики быстро развивающейся предметной области. Так, например, Тезаурус по информатике (как проиллюстрировано в главе 5) уже не может считаться актуальным лингвистическим средством ввиду того, что довольно низкий процент его терминов в настоящее время используется при индексировании документов.

Для построения словников тематической области предусмотрена специальная функция формирования статистики по результату произвольного предложения поискового запроса. Статистика представляет собой словник терминов тематической выборки с частотами употребления терминов в ней. Выборка определяется как множество документов, полученных при поиске по предложению запроса. Словник в свою очередь может быть построен по любому полю документа.

Такой словник может быть, во-первых, исходным средством для построения иерархических словарных структур, а во-вторых – результатом количественного анализа распределения документов тематической выборки.

При проведении статистического анализа выборки можно дополнительно установить требуемый минимальный порог для частоты встречаемости термина и порядок сортировки («по алфавиту» или «по часто-

те»).

Результаты статистического анализа отображаются в интерфейсной форме и могут быть сохранены в файле для дальнейшего использования (рис. 8.13).

Рис. 8.13. Построения тематического словника по результату предложения запроса

8.4. Обобщеннаяхарактеристикаразвитияпоисковогопроцесса

С точки зрения взаимодействия «пользователь - система» процесс информационного поиска, в общем случае включает следующие этапы

(см. рис. 6.4):

1.определение темы запроса, ее локализация в предметной области и формализация на уровне понятий основной и смежных областей, а также идентификация ресурса.;

2.формирование, а также структурное и лексическое адаптирование выражения запроса;

3.отбор документов с помощью одного из механизмов поиска по критерию, адекватному степени неопределенности информационной потребности;

4.формирование и управление выдачей найденных документов;

5.оценку результата поиска на уровне отдельного документа, где система обеспечивает возможность фиксировать значение степени соответствия запросу пользователя и непосредственное использование лексики документов для непосредственной модификации выражения запроса;

6.итоговую оценку результатов поиска на уровне всего запроса или отдельных предложений с точки зрения принятия решения о завершении поискового процесса (например, исчерпывающее удовлетворение информационной потребности, или несоответствие цели поиска);

7.развитие запроса по технологии реформулирования по обратной связи по релевантности или использование каких-либо других ресурсов, например, ассоциированных баз данных вторичной или справочной информации.

Развитие запроса путем реформулирования запроса на основе лексики документов, релевантность которых подтверждена пользователем, реализуется двумя типами поисковых технологий.

1.Поиск по терминам отдельного документа, который реализуется либо на основе комбинативной схемы (поиск документованалогов, содержащих указанное количество терминов текущего – просматриваемого пользователем документа), либо «жестким» отбором - по терминам, указанным пользователем в текущем документе.

2.Поиск по терминам, статистически взвешенным на множестве документов, истинная релевантность которых была подтверждена пользователем. Статистически значимые термины, включенные системой в словник из текстов релевантных документов, ранжируются в соответствии с их весом. Далее - в случае эвристического поиска - автоматически кластеризуется и формируется документальная выдача, либо, в случае контекстного поиска, в сформированном словнике пользователь отмечает как релевантные наиболее информативные термины, которые система использует для генерации кластеров терминов, каждому из которых ста-

вится в соответствие кластер документов, представляемый в запросе как отдельный результат.

Таким образом, в процессе развития запроса используются два типа обратной связи: внешняя, отражающая оценку пользователя, и внутренняя, позволяющая выделять и ранжировать значимые поисковые термины.

Схема поиска, представленная на рис 7.6, отражает следующие требования к интерфейсным компонентам и организации процесса поиска в целом:

-подготовка следующего шага поиска выполняется непосредственно при обработке результата предыдущего: для развития поиска в качестве основного интерфейсного объекта в первую очередь используются документы;

-операционные объекты однородны на каждом шаге;

-на каждом шаге возможен возврат к ранее полученным результатам или оперативное переключение на другую тему и операцию;

-оценка степени завершенности (сходимости) процесса поиска возможна по критерию исчерпания как лексики, так и документального пространства темы.

Фактически классическая схема выдачи документов «по запросувыражению» расширена до динамически управляемого процесса кластеризации пространства документов и терминов. Процесс поиска может развиваться по принципу «расходящихся кругов», обеспечивая выявление «центров активации» искомого образа в семантической сети базы данных, т.е. построение множеств или цепочек документов, которые в свою очередь могут служить мостом к понятиям (документам), возможно, уже не содержащим терминов исходного запроса. При этом, для случая «проблемного» поиска, когда доказательство полноты не может быть сведено к формально вычисляемым показателям, оно компенсируется подтверждаемостью – получением результата другим путем, например, вхождением в информационное пространство БД через информационные объекты разной природы и/или использованием поисковых механизмов разного типа.

Процесс поиска построен симметрично и реализует двойственную задачу: при подготовке запроса можно формировать коллекцию документов (непосредственным включением документов, к которым можно обращаться через «прямые» входы, такие как, словари, рубрикаторы, указатели и т.д.), а при формировании поисковой выдачи – реформулировать запрос и формировать компоненты лингвистического обеспечения (словники, рубрикаторы и т.д.).

Пользователь может продвигаться по пути (реализовать навигацию), предлагаемому системой, или же изменять его, в том числе и вы-

бирая из сформированных системой альтернатив, либо инициируя новый путь через процедуру поиска или прямого отбора.

При этом, доказательство полноты, которое не может быть сведено к формально вычисляемым показателям, компенсируется подтверждаемостью – получением результата другим путем, например, вхождением в информационное пространство БД через информационные объекты разной природы и/или использованием поисковых механизмов разного типа.

Такие подходы в сочетании со средствами идентификации и избирательной обработки объектов не заставляет пользователя постоянно заботиться об отложенных действиях при оперативной работе с запросом и результатами.

Таким образом, процесс поиска – это итеративная последовательность создания и использования технологических объектов, реализующая целенаправленное и управляемое перемещение (навигацию) в документальном и лексическом пространстве базы данных и обеспечивающая оцениваемый уровень удовлетворения информационной потребности или объективно подтверждающая отсутствие информации.

Целенаправленность здесь предполагает представление некоторой цели (обычно в сфере основной деятельности), как комплекса информационных целей, имеющих тематический (многоаспектный поиск) и/или технологический характер. Это означает, что для того, чтобы обеспечить целенаправленность избирательного обращения к поисковым объектам, интерфейсные средства системы должны позволять фиксировать и идентифицировать цель в виде технологических объектов, используемых в процессе ее достижения.

Управляемость - это, с одной стороны, возможность выбора средств и/или параметров работы, а с другой – обоснованное обращение к технологическим объектам, в том числе повторное обращение к результатам и их обработка, например, статистическая или структурноформатная. Кроме того, поскольку выделенная последовательность результатов (физически соответствующая отдельным шагам, а логически – отдельной цели) образует ряд, то это позволяет использовать статистически вычисляемые показатели разностного типа, характеризующие сходимость процесса поиска и, в частности, обеспечивающие обоснованность решения об окончании процесса совершенствования запроса.

Контрольные вопросы

1.Перечислите основные технологические (интерфейсные) объекты при поиске информации.

2.Охарактеризуйте основные интерфейсные средства подготовки

имодификации поисковых запросов

3.Охарактеризуйте основные интерфейсные средства развития поисковых запросов

4.Приведите типологию сценариев формирования выражения поискового запроса на ИПЯ.

5.Охарактеризуйте сценарии типа «укажи и выбери».

6.Охарактеризуйте сценарии типа «укажи и получи».

7.Охарактеризуйте интерфейсные средства использования тезаурусных связей при модификации поисковых запросов.

8.Охарактеризуйте интерфейсные средства использования терминологических структур при подготовке и модификации запросов.

9.Дайте обобщенную характеристику поискового процесса.

Список сокращений

АИПС – автоматизированная информационно-поисковая система. АИС – автоматизированная информационная система.

БД – база данных.

ЕЯ – естественный язык.

ИД – информационная деятельность. ИП – информационная потребность.

ИПП – информационная потребность пользователя. ИПС – информационно-поисковая система.

ИПТ – информационно-поисковый тезаурус. ИР – информационный ресурс.

ИС – информационная система.

ИПЯ – информационно-поисковый язык. ЛО – лингвистическое обеспечение. ОД – основная деятельность.

ПО – поисковый образ.

ПОЗ – поисковый образ запроса. ПОД – поисковый образ документа. ПОТ – поисковый образ темы. ПрО – предметная область.

ТСС – тематико-статистический спектр множества документов.

Литература

1.Абдеев Р.Ф. Философия информационной цивилизации. - М.: Владос, 1994.

2.Аветисян Д.О., Аветисян Р.Д. Теоретические основы информатики. – М: РГГУ, 1999.

3.Аветисян Д.О. Проблемы информационного поиска. – М.: Финансы и статистика, 1981.

4.Афанасьев В.Г. Социальная информация и управление обществом. – М.: Политиздат, 1975.

5.Базмаджян Р.А. и др. Универсальная система «Кристалл». – Ереван: АрмНИИНТИ, 1969.

6.Белнап Н., Стил Т. Логика вопросов и ответов. – М.: Прогресс,

1981.

7.Белоозеров В.Н., Косарская Ю.П. Опыт разработки словаря с разветвленной системой тезаурусных связей // НТИ. Сер. 2, 2001. - N 8. -

С. 28-31.

8.Большая Советская Энциклопедия. – М.: Советская энциклопе-

дия, 1980.

9.Браславский П. И., Гольдштейн С. Л., Ткаченко Т. Я.. Тезаурус как средство описания систем знаний. //НТИ, Сер. 2, №11, 1997 г.

10.Брежнева В. В.; Минкина А. В. Современные информационные продукты и услуги: попытка классификации и анализа тенденций развития. Инф. ресурсы России Номер 6, 1995, С. 26-29.

11.Бриллюэн Л. Научная неопределенность и информация. - М.,

1966.

12.Винер Н. Кибернетика и общество. – М.:ИЛ, 1958.

13.Вирт Н. Алгоритмы и структуры данных: пер. с англ. – М.:

Мир, 1989.

14.Воробьев Г.Г. Проблема документальной информации / сб. Кибернетика и документалистика. Механизмы процесса накопления, хранения и поиска научной информации. - М.: Наука. –1966., с.5-34.

15.Голицына О.Л., Максимов Н.В. Человеко-машинный информационный поиск в документальных базах данных // Теория и практика общественно-научной информации. - Вып.12. - М.: ИНИОН РАН, 1996.

16.Горский Д. П.. Формальная логика и язык. В кн.: «Философские вопросы современной формальной логики». М., Изд-во АН

СССР, 1962, стр. 61.

17.Григорьев В.А. Стереотипы и фантазия в интеллектуальных системах. // НТИ, Сер.2 -1999, №7, стр.10-27.

18.Громов Г.Р. Национальные информационные ресурсы: проблемы промышленной эксплуатации. – М.: Наука, 1985, 240с.

19.Гультяев А.К., Машин В.А. Проектирование и дизайн пользовательского интерфейса. – СПб.: Коронапринт, 2000. –352с.

20.Дернер Д. Логика неудач. М.: Смысл, 1997.

21.Димитрова К. Стратегии информационного поиска // Библио-

тека, 1995, 3, №1, С.16-22.

22.Дорожкин А.М. Научный поиск как постановка и решение проблем. Н.Новгород: Нижегородский гуманитарный центр, 1995.

23.Дружинин В.В., Конторов Д.С. Проблемы системологии. - М.: "Советское радио", 1976.

24.Захаров В.П. Языковые средства современных информацион- но-поисковых систем. Автореферат дисс. на соискание ученой степени кандидата филологических наук по спец. 10.02.21. – СПб.: СПбГУ, 1997.

25.Зинченко В.П. От классической к органической психологии //

Вопр. психол. 1996, №6, стр. 6-25.

26.Информатика. Базовый курс. Учебник для ВУЗов / Симонович С.В. и др. – СПб.: «Издательство Питер», 1999.

27.Информатика. Энциклопедический словарь для начинающих.

/Под ред. Д.А. Поспелова -М.: Педагогика-Пресс, 1994.

28.Информационно-библиотечная деятельность, библиография. Термины и определения. / Межгосударственный стандарт ГОСТ 7.0-99 / Система стандартов по информации, библиотечному и издательскому делу. – Минск, 2000.

29.Информационно-поисковый тезаурус по информатике. / Сост. Пащенко Н.А., Ксенофонтова Е.Б.. Скоробогатая В.Ф., научный редактор Черный А.И. - М.:ВИНИТИ, 1987.

30.Карначук В.И. Классификация информационно-поисковых стратегий. – Новосибирск, 1986.

31.Кацнельсон С. Д. Содержание слова, значение и обозначение.

М.—Л., «Наука», 1965, стр. 6.

32.Козачук М.В. Концептуальный анализ текстов в системах автоматической обработки научно-технической информации. Дисс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. – М.: ВИНИТИ, 2002.

33.Колин К.К. Информационные проблемы социальноэкономического развития общества // Проблемы социальной информа-

тики. Вып.1. - М. 1995.

34.Котик М.А., Емельянов А.М. Природа ошибок человекаоператора. - М.: Транспорт, 1993.

35.Коутс Р., Влейминк И. Интерфейс «человек-компьютер». –

М.:Мир, 1990. - 501с.

36.Криницкий Н.А., Миронов Г.Д., Фролов Г.Д. Автоматизированные информационные системы /Под ред. Дородницына А.А. - М.:

Наука, 1982. –384 с.

37.Кулик А. Н. Информационные сети и языковая совместимость дескрипторных информационно-поисковых систем. М.: Сов. Радио, 1977 г.