
- •Курс лекций
- •Технологии поиска информации
- •Иркутск 2012 Оглавление
- •Введение
- •1. Основные принципы технологии поиска информации
- •1.1 Понятия и определения
- •1.2 Информационная потребность пользователя
- •1.3 Релевантность
- •1.4 Общая схема процесса поиска
- •2. Представление информации в ипс
- •2.1. Индексирование документов
- •2.2. Векторная модель текста
- •2.3. Статистический анализ текстов. Закон Ципфа
- •2.4. Анализ информационных массивов
- •2.4.1. Понятие относительной частоты
- •2.4.2 Распределение частоты встречаемости терминов
- •2.4.3 Определение весов терминов
- •2.4.4 Частотная модель
- •2.4.5 Вероятностная модель
- •2.4.6 Латентно-семантический анализ
- •2.5 Хранение индексированных документов
- •3 Модели поиска информации
- •3.1 Булева модель поиска
- •3.2 Функции подобия "документ-запрос"
- •3.2.1 Алгоритм расширенного булевого поиска
- •3.2.2 Алгоритм наибольшего цитирования
- •3.2.3 Векторный алгоритм поиска
- •3.2.4 Расширенный векторный алгоритм поиска
- •4. Классификация документов
- •4.1. Основные свойства классификации
- •4.2 Формирование рубрик
- •5 Эффективность поисковых систем
- •5.1 Критерии эффективности
- •5.2. Полнота и точность поиска
- •5.3. Недостатки основных характеристик
- •6 Современные информационно-поисковые системы
- •6.1. Словарные информационно-поисковые системы
- •6.2 Классификационные информационно-поисковые системы
- •6.3. Метапоисковые системы
- •Заключение
- •Список рекомендуемой литературы
- •Экзаменационные вопросы
1. Основные принципы технологии поиска информации
1.1 Понятия и определения
Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам. Теория информационного поиска оперирует несколькими ключевыми понятиями, определения которых даны ниже.
Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. По форме различают текстовые (книги, журналы, рукописи), графические или изобразительные (чертежи, схемы, графики, планы, карты, диаграммы), аудио-визуальные (звукозаписи, видеозаписи, фильмы) информационные ресурсы
Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать. ИПС оперируют электронными документами, т.е. представлениями документов на машиночитаемых носителях в ЭВМ.
С понятием документа тесно связаны метаданные и суррогаты. Метаданные (метаинформация) – это структурированная информация о документе, например, библиографические сведения, информация о качестве документа, отзывы других пользователей. Под суррогатом понимают представление документа в виде заголовка, имени автора, аннотации, ключевых слов и т. д.
ИПС представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям.
На рис. 1 представлена общая схема работы информационно-поисковой системы.
Рис. 1. Информационно-поисковые системы
ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.
1.2 Информационная потребность пользователя
Итак, в определенный момент времени у некоторого пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка.
В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов.
Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой.
Выделяют четыре этапа представления информационной потребности:
−реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи);
−осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается от реальной, более того, пользователь может понимать имеющуюся проблему неправильно);
−выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка;
−формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС.
На рис. 2 показана эволюция представлений информационной потребности. По мере переходов от одного представления к другому отличие от первоначальной реальной потребности увеличивается.
Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом.
Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью.
Релевантность– это фундаментальное понятие теории информационного поиска. Тем не менее, оно не является специфичным для информационно-поисковых систем, и изучается многими направлениями науки: философией, психологией, теорией искусственного интеллекта, теорией обработки естественных языков и т. д.
Понятие релевантности возникло одновременно с появлением первых библиотек, посетителям которых требовалось найти книги для удовлетворения информационной потребности. Стимулом для детального анализа релевантности послужило появление в середине ХХ века информационно-поисковых систем. Обсуждение понятия релевантности продолжается уже более полувека, но, несмотря на это, его единого общепринятого определения до сих пор не существует.
Рис.2. Информационные потребности.