Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты / Банки информации.doc
Скачиваний:
22
Добавлен:
09.06.2015
Размер:
114.18 Кб
Скачать

1.5.2. Информационно-поисковые системы.

1.5.2.1. Основные понятия.

В документальной информационно-поисковой системе  выделяются следующие компоненты:

1) массив документов (текстов), либо фактов, выступающих в качестве объектов хранения и поиска;

2) информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;

3) правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операции над ними

на информационно-поисковом языке;

4) комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;

5) обслуживающий персонал, включающий администратора банка документов, системных аналитиков, программистов и индексаторов.

Банки документов работают обычно в двух режимах:

1)  избирательного распределения информации , обеспечивающем регулярное текущее информирование пользователей банка о новых поступлениях документов;

2)  ретроспективного поиска информации  по разовым запросам во всем массиве документов.

Важнейший этап обработки нового документа при поступлении его в хранилище документальной информационно-поисковой системы  индексирование документа  - слагается из

1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных

потребностей пользователя системы);

2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получение соответствующего поискового образа документа (ПОД).

При выполнении ретроспективного поиска производится:

1) выявление смыслового содержания запроса;

2) получение поискового обзора запроса (ПОЗ) на информационно-поисковом языке системы.

Результатами индексирования документов и запросов являются их поисковые образы (ПОД и ПОЗ). Поиск документов по запросу означает сопоставление ПОД и ПОЗ. Качество поиска зависит от критериев смыслового соответствия документа запросу (критериев выдачи). Различают

- теоретико-множественные критерии, основанные на оценке степени совпадения лексических единиц ИПЯ (слов), используемых в ПОД и ПОЗ;

- критерии, учитывающие с помощью "весовых коэффициентов" относительную информационную значимость отдельных лексических единиц, входящих в ПОЗ;

- логические критерии, основанные на использовании логических операций (дизъюнкции, конъюнкции, импликации и др.).

Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы:

- классификационные языки;

- дискрипторные;

- комбинированные.

Языки классификационного типа в свою очередь делятся на

- ИПЯ иерархической структуры;

- ИПЯ фасетной структуры;

- эмпирические (неиерархические) языки.

1.5.2.2. Классификационные системы.

В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным. Существуют иерархические системы, в которых рубрики включают по 20 и более подклассов, рубрик и подрубрик в нисходящем порядке. Примером такой иерархической классификационной системы является универсальная десятичная классификация (УДК), широко используемая в библиотечном деле и документальных поисковых системах. УДК охватывает весь спектр знаний.

Шифры УДК, которые можно увидеть на обороте титульного листа всех книг, перед заголовками статей в журналах и сборниках, имеют почти столетнюю историю. В 1905 г. в Брюсселе на французском языке вышло первое сводное издание таблиц десятичной классификации. Эти таблицы были созданы на основе таблиц десятичной классификации Мельвиля Дьюи, впервые изданных в 1876г.

Каждый класс (первая ступень деления) в УДК содержит группу более или менее близких наук, например, класс 5 - математику и естественные науки, класс 6 - прикладные науки: технику, в т.ч. информатику, сельское хозяйство, медицину. Каждая последующая присоединяемая цифра не меняет значения предыдущих, а лишь уточняет их, обозначая более частное понятие. УДК настоящего текста: 681.3:62-52.

В основе фасетной классификации лежит многоаспектное распределение понятий какой-либо отрасли науки или техники по однородным взаимно исключающим друг друга фасетам.

Примером эмпирической (неиерархической) классификации может быть алфавитно-предметная классификация. Словарный запас такой классификации состоит из упорядоченного по алфавиту множества слов, словосочетаний и фраз естественного языка, обозначающих предметы какой-либо отрасли науки или практической деятельности. Каждому предмету или вопросу при этом отводится только один индекс, собирающий всю информацию относительно данного предмета или вопроса независимо от аспекта рассмотрения. В предметных классификациях используются следующие термины:

- предметная рубрика (заголовок) - слово или фраза естественного языка, используемая для обозначения основного предмета документа (или запроса);

- предметный подзаголовок - слово или фраза, обозначающая аспект рассмотрения предмета, указанного в предметном заголовке, или подкласе предметов, входящих в класс, обозначенный предметным заголовком;

- предметный словник - упорядоченное по алфавиту множество предметных заголовков, используемых для построения какого-либо каталога или указателя.

Система предметных заголовков и подзаголовков и более мелких разделов создает сложную предметную классификацию по аспектам рассмотрения предмета, т.е. имеет некоторые черты фасетных классификаций.