Информационно поисковые системы
Бокучава Татьяна Петровна
Тема: Виды информационно – поисковых систем
ИПС – это информационная система с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.
По виду единичных элементов данных ИПС делятся на:
Фактографические
Документальные
Фактографические ПС – это системы в которых единичным элементом данных является запись, образуемая конечной совокупностью полей – атрибутов (в базе данных это столбцы).
Недостатки фактографических ПС:
Требуются изначально структурированные данные
Дополнительное время
Документальные ПС – это системы в которых единичным элементом данных является документ, не структурированный на более мелкие элементы. Это могут быть текстовые, звуковые, графические файлы. Основная задача документальных ИПС – это предоставление пользователю документов, которые соответствуют его информационным потребностям.
Информационная потребность – это осознанное понимание различия индивидуального знания от знаний, накопленных обществом.
Пертинентность – это соответствие найденных документов информационным потребностям пользователя.
Особенности реализации хранилища документов и механизмов поиска
В зависимости от этих особенностей ИПС делятся:
Системы на основе индексирования
Семантически – навигационные системы
В семантически – навигационных системах создаются навигационные конструкции, соответствующие смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют семантическую семантическую сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС (пример www).
В системы на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но смысловое содержание каждого документа отображается в некоторое поисковое пространство.
Процесс индексирования заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве.
Индексирование – описание содержания документа посредством формализованного информационного языка.
Поисковым образом документа ПОД называется формализованное описание индекса документа.
Поисковым образом запроса ПОЗ к базе документа называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.
На примере поисковых системе в интернете ПОД и ПОЗ это поиск по ключевым словам. ИПС в интернете с помощью специальных программ – роботов просматривают весь интеренет и по каждому сайту (документу) собирает множество ключевых слов. Это и есть индексирование интернета. ПОД – это ключевые слова и адреса соответствующих сайтов. Внутри ИПС типа Рамблер или Яндекс хранится множество этих ПОД – это и есть поисковое пространство.
Пользователь обычно пишет несколько ключевых слов – это и есть поисковый образ запроса ПОЗ. В поисковом пространстве документа ПОД ищутся соответствующие запросу ПОЗ полностью или частично. Степень этого соответствия и есть релевантность. Релевантностью называется соответствие найденных документов запросу пользователя.
10.09.2012
Информационное оповещение
Поисковый профиль пользователя ППП – это отображение в поисковом пространстве информационных потребностей пользователя.
ИПС по мере поступление и индексирования новых документов сравнивает их ПОД с имеющимся ППП и принимает решение о соответствующем оповещении.
Информационно – поисковый язык
Поисковое пространство, отображающее ПОД и реализующее механизмы поиска документов, строится на основе языков баз данных называемых информационно поисковыми языками т.е. ИПЯ.
Составляющие ИПЯ
Структурна
Поисковая (манипуляционная)
Тезаурус
Информационно – поисковый каталог
Генеральный показатель
Дескрипторные языки
Семантические языки
Предикатные
Реляционные
Информационно – поисковые каталоги представляют собой классификационную систему знаний по определенной предметной области. Индексирование документа заключается в присвоении документу специального кода соответствующего по содержанию класса каталога и создания на этой основе специального индексного указателя.
Тезаурусы представляют собой специальным образом организованную совокупность лексических единиц (понятий) предметной области (словаря терминов) и описания отношений между ними.
Генеральный указатель (глобальный словарь – индекс или конкорданс) в общем виде является перечислением всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова ( № документа - № абзаца - № предложения - № слова).
В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей.
Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ).
Из – за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.
Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 большие группы:
Предикатные языки
Реляционные языки
В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов.
Предикат – это логическая функция с одним или несколькими документами.
В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.
В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны в таблице:
Классы |
Комментарий |
Понятия - классы |
Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятии – классы отделять от других |
Понятия - действия |
Лексический элемент, выражающий динамику реального мира, содержит уникальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д. |
Понятия - состояния |
Лексические элементы, фиксирующие состояние объектов |
Имена |
Лексические элементы, идентифицирующие понятия - классы |
Отношения |
Лексические элементы, служащие для установления связей на множестве понятий и имен |
Квантификаторы |
Всеобщности, существования и т.д. |
17.09.2012
Классификационные системы поиска документов:
Библиотечные алфавитно – предметные каталоги
Автоматизированные информационно – поисковые каталоги
Информационно – поисковые тезаурусы
Для поиска в классификационных системах поиска документов осуществляется индексирование документов.
Виды индексирования представлены в таблице:
Классификационное индексирование документов
По принципу организации
По операциям над классами (понятиями)
Перечислительная классификация
Систематизированная классификация
С операциями над классами (понятиями)
Без операций над классами (понятиями)
Иерархическая классификация
Фасетная классицикация
Логические операции над классами
Грамматические отношения классов (понятий)
С предкоординацией (понятий)
С посткоординацией (понятий)
Перечислительная классификация:
Первоначальные подходы к классификации документов основывались на формировании спичка заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно – цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.
Основной недостаток перечислительной классификации: отсутствие систематизированных связей и отношений между предметными рубриками.
Иерархическая классификация:
Фасетная классификация:
Классификация, дающая возможность классифицировать объекты одновременно по нескольким различным признакам.
Основное достоинство: Небольшим перечнем фасетных рубрик возможно сконструировать огромное количество узких специализированных рубрик, точно и полно проиндексировав содержание документа.
Недостаток: влияние на эффективность поиска документов порядка следования рубрик фасет.