
- •Национальный исследовательский
- •Аннотация
- •The annotation
- •Введение
- •1. Анализ предметной области
- •1.1. Основные понятия информационного поиска
- •1.2. Задачи информационного поиска
- •1.3. Методы информационного поиска
- •1.4. Адаптивный поиск информации
- •1.5. Проблемы адаптивного поиска
- •Выводы по главе 1
- •2. Алгоритм адаптивного поиска информации
- •Выводы по главе 2
- •3. Разработка программной библиотеки
- •3.1. Проектирование
- •3.2. Системные требования
- •3.3. Настройка параметров адаптивного поиска
- •3.4. Тестирование
- •Выводы по главе 3
- •Заключение
- •Приложения Приложение 1. Исходный код библиотеки
- •Приложение 2. Значения кодов состояний
- •Национальный исследовательский университет «мэи»
- •Задание н а в ы п у с к н у ю р а б о т у
- •Содержание разделов задания и исходные данные
- •Перечень графического материала
- •Рекомендуемая литература
- •Библиографический список
- •Содержани
1.2. Задачи информационного поиска
Центральная задача ИП – помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.
Классическая задача ИП, с которой началось развитие этой области, – это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает: вопросы моделирования, классификацию и фильтрацию документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации, построение языков запросов и др.
Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.
1.3. Методы информационного поиска
Говоря о поиске в базах данных Web-приложений особое внимание необходимо уделить понятиям полнотекстового, семантического, документального, фактографического поиска и поиска по метаданным.
Полнотекстовый поиск – автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. Пример системы полнотекстового поиска – любой интернет-поисковик, например Яндекс или Google. Пример результатов полнотекстового поиска в поисковой системе Google представлен на рисунке 1.1.
Рис. 1.1. Пример полнотекстового поиска в поисковой системе Google.
Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал бы очень много времени (в зависимости от размера базы), а в Интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс – словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются. Наиболее распространённой технологией для индексов полнотекстового поиска являются инвертированные индексы.
Семантический поиск – процесс поиска документов по их содержанию. Для реализации механизма семантического поиска необходимо осуществить перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. При семантическом поиске находится множество документов без указания адресов. Пример результатов семантического поиска в поисковой системе Ask Jeeves представлен на рисунке 1.2. В Ask Jeeves пользователь задаёт вопрос на естественном языке, а система отвечает, как это делается при общении между людьми.
Рис. 1.2. Пример семантического поиска в поисковой системе Ask Jeeves.
Документальный поиск – процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя. Существуют два вида документального поиска: библиотечный, направленный на нахождение первичных документов, и библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей. Пример результата документального поиска по электронному каталогу НТБ МЭИ можно увидеть на рисунке 1.3.
Рис. 1.3. Поиск по электронному каталогу НТБ МЭИ.
Фактографический поиск – процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлечённые из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения. Различают документально-фактографический и фактологический поиск. Документально-фактографический поиск осуществляет нахождение в документах фрагментов текста, содержащих факты. Фактологический поиск предполагает создание новых фактографических описаний в процессе поиска путём логической переработки найденной фактографической информации. Примером фактологической поисковой системы является Wolfram Alpha. Данная ИПС способная формировать результаты «на лету», решая различные математические задачи. На рисунке 1.4 можно увидеть результат решения квадратного уравнения в поисковой системе Wolfram Alpha.
Рис. 1.4. Решение квадратного уравнения, полученное с помощью поисковой системы Wolfram Alpha.
Поиск по метаданным – это метод информационного поиска, при котором активно используются дополнительные данные объектов поиска (документов), поддерживаемые системой [2]. Метаданные – это дополнительная информация об используемых данных: название документа, дата создания, размер, автор и т. п. Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные, могут спасти пользователя от лишней ручной работы по фильтрации. Если известно, какие элементы данных связаны, и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковой системе известно о том, что Ван Гог является голландским художником, то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если фраза «голландский художник» не встречается на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.