Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lk_poisk_ex.doc
Скачиваний:
372
Добавлен:
04.06.2015
Размер:
1.39 Mб
Скачать

1. Основные принципы технологии поиска информации

1.1 Понятия и определения

Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам. Теория информационного поиска оперирует несколькими ключевыми понятиями, определения которых даны ниже.

Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. По форме различают текстовые (книги, журналы, рукописи), графические или изобразительные (чертежи, схемы, графики, планы, карты, диаграммы), аудио-визуальные (звукозаписи, видеозаписи, фильмы) информационные ресурсы

Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать. ИПС оперируют электронными документами, т.е. представлениями документов на машиночитаемых носителях в ЭВМ.

С понятием документа тесно связаны метаданные и суррогаты. Метаданные (метаинформация) – это структурированная информация о документе, например, библиографические сведения, информация о качестве документа, отзывы других пользователей. Под суррогатом понимают представление документа в виде заголовка, имени автора, аннотации, ключевых слов и т. д.

ИПС представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям.

На рис. 1 представлена общая схема работы информационно-поисковой системы.

Рис. 1. Информационно-поисковые системы

ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.

1.2 Информационная потребность пользователя

Итак, в определенный момент времени у некоторого пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка.

В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов.

Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой.

Выделяют четыре этапа представления информационной потребности:

−реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи);

−осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается от реальной, более того, пользователь может понимать имеющуюся проблему неправильно);

−выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка;

−формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС.

На рис. 2 показана эволюция представлений информационной потребности. По мере переходов от одного представления к другому отличие от первоначальной реальной потребности увеличивается.

Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом.

Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью.

Релевантность– это фундаментальное понятие теории информационного поиска. Тем не менее, оно не является специфичным для информационно-поисковых систем, и изучается многими направлениями науки: философией, психологией, теорией искусственного интеллекта, теорией обработки естественных языков и т. д.

Понятие релевантности возникло одновременно с появлением первых библиотек, посетителям которых требовалось найти книги для удовлетворения информационной потребности. Стимулом для детального анализа релевантности послужило появление в середине ХХ века информационно-поисковых систем. Обсуждение понятия релевантности продолжается уже более полувека, но, несмотря на это, его единого общепринятого определения до сих пор не существует.

Рис.2. Информационные потребности.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]