Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационно - поисковые системы.docx
Скачиваний:
7
Добавлен:
17.11.2019
Размер:
34.21 Кб
Скачать

Информационно поисковые системы

Бокучава Татьяна Петровна

Тема: Виды информационно – поисковых систем

ИПС – это информационная система с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.

По виду единичных элементов данных ИПС делятся на:

  1. Фактографические

  2. Документальные

Фактографические ПС – это системы в которых единичным элементом данных является запись, образуемая конечной совокупностью полей – атрибутов (в базе данных это столбцы).

Недостатки фактографических ПС:

  • Требуются изначально структурированные данные

  • Дополнительное время

Документальные ПС – это системы в которых единичным элементом данных является документ, не структурированный на более мелкие элементы. Это могут быть текстовые, звуковые, графические файлы. Основная задача документальных ИПС – это предоставление пользователю документов, которые соответствуют его информационным потребностям.

Информационная потребность – это осознанное понимание различия индивидуального знания от знаний, накопленных обществом.

Пертинентность – это соответствие найденных документов информационным потребностям пользователя.

Особенности реализации хранилища документов и механизмов поиска

В зависимости от этих особенностей ИПС делятся:

  1. Системы на основе индексирования

  2. Семантически – навигационные системы

В семантически – навигационных системах создаются навигационные конструкции, соответствующие смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют семантическую семантическую сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС (пример www).

В системы на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но смысловое содержание каждого документа отображается в некоторое поисковое пространство.

Процесс индексирования заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве.

Индексирование – описание содержания документа посредством формализованного информационного языка.

Поисковым образом документа ПОД называется формализованное описание индекса документа.

Поисковым образом запроса ПОЗ к базе документа называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.

На примере поисковых системе в интернете ПОД и ПОЗ это поиск по ключевым словам. ИПС в интернете с помощью специальных программ – роботов просматривают весь интеренет и по каждому сайту (документу) собирает множество ключевых слов. Это и есть индексирование интернета. ПОД – это ключевые слова и адреса соответствующих сайтов. Внутри ИПС типа Рамблер или Яндекс хранится множество этих ПОД – это и есть поисковое пространство.

Пользователь обычно пишет несколько ключевых слов – это и есть поисковый образ запроса ПОЗ. В поисковом пространстве документа ПОД ищутся соответствующие запросу ПОЗ полностью или частично. Степень этого соответствия и есть релевантность. Релевантностью называется соответствие найденных документов запросу пользователя.

10.09.2012

Информационное оповещение

Поисковый профиль пользователя ППП – это отображение в поисковом пространстве информационных потребностей пользователя.

ИПС по мере поступление и индексирования новых документов сравнивает их ПОД с имеющимся ППП и принимает решение о соответствующем оповещении.

Информационно – поисковый язык

Поисковое пространство, отображающее ПОД и реализующее механизмы поиска документов, строится на основе языков баз данных называемых информационно поисковыми языками т.е. ИПЯ.

Составляющие ИПЯ

Структурна

Поисковая (манипуляционная)

Тезаурус

Информационно – поисковый каталог

Генеральный показатель

Дескрипторные языки

Семантические языки

Предикатные

Реляционные

Информационно – поисковые каталоги представляют собой классификационную систему знаний по определенной предметной области. Индексирование документа заключается в присвоении документу специального кода соответствующего по содержанию класса каталога и создания на этой основе специального индексного указателя.

Тезаурусы представляют собой специальным образом организованную совокупность лексических единиц (понятий) предметной области (словаря терминов) и описания отношений между ними.

Генеральный указатель (глобальный словарь – индекс или конкорданс) в общем виде является перечислением всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова ( № документа - № абзаца - № предложения - № слова).

В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей.

Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ).

Из – за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 большие группы:

  • Предикатные языки

  • Реляционные языки

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов.

Предикат – это логическая функция с одним или несколькими документами.

В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.

В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны в таблице:

Классы

Комментарий

Понятия - классы

Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятии – классы отделять от других

Понятия - действия

Лексический элемент, выражающий динамику реального мира, содержит уникальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д.

Понятия - состояния

Лексические элементы, фиксирующие состояние объектов

Имена

Лексические элементы, идентифицирующие понятия - классы

Отношения

Лексические элементы, служащие для установления связей на множестве понятий и имен

Квантификаторы

Всеобщности, существования и т.д.

17.09.2012

Классификационные системы поиска документов:

  • Библиотечные алфавитно – предметные каталоги

  • Автоматизированные информационно – поисковые каталоги

  • Информационно – поисковые тезаурусы

Для поиска в классификационных системах поиска документов осуществляется индексирование документов.

Виды индексирования представлены в таблице:

Классификационное индексирование документов

По принципу организации

По операциям над классами (понятиями)

Перечислительная классификация

Систематизированная классификация

С операциями над классами (понятиями)

Без операций над классами (понятиями)

Иерархическая классификация

Фасетная классицикация

Логические операции над классами

Грамматические отношения классов (понятий)

С предкоординацией (понятий)

С посткоординацией (понятий)

Перечислительная классификация:

Первоначальные подходы к классификации документов основывались на формировании спичка заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно – цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Основной недостаток перечислительной классификации: отсутствие систематизированных связей и отношений между предметными рубриками.

Иерархическая классификация:

Фасетная классификация:

Классификация, дающая возможность классифицировать объекты одновременно по нескольким различным признакам.

Основное достоинство: Небольшим перечнем фасетных рубрик возможно сконструировать огромное количество узких специализированных рубрик, точно и полно проиндексировав содержание документа.

Недостаток: влияние на эффективность поиска документов порядка следования рубрик фасет.