Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хайретдинов_Лекции_СИТ-n.doc
Скачиваний:
2
Добавлен:
01.04.2025
Размер:
13.84 Mб
Скачать

7.4. Интеллектуальные поисковые системы: принцип организации, сравнительный анализ. Введение

Активный рост Всемирной паутины превратил Internet в огромное информационное пространство с разнообразным и зачастую плохо организованным содержимым. Пользователи сталкиваются с быстрым ростом объемов информации, нашедшим отражение в термине «информационная перегрузка». И если для просмотра отдельных Web-страниц достаточно минимального набора навыков, то поиск по запросам и навигация в Web-пространстве требуют большего.

Исследования поискового поведения опытных и начинающих пользователей Сети позволяют сделать несколько практических выводов. В частности, модель поискового поведения может послужить основой для улучшения интерфейсов и расширения функциональности существующих поисковых систем. В будущем они смогут полнее удовлетворять разнообразные потребности, как экспертов, так и новичков. Кроме того, глубокое понимание трудностей, с которыми сталкиваются потребители в процессе поиска, необходимо при построении справочных систем.

Поведение Web-пользователей привлекает к себе внимание исследовательского сообщества. Теза Лоу и Эрик Хорвиц, например, предложили задействовать байесовские сети для моделирования последовательных запросов, с которыми пользователи обращаются к поисковой машине. Эти сети могут дополнить поисковую машину назначенными вручную категориями предполагаемых информационных целей, позволяющими предсказывать модификации запросов. Ингрид Цукерман с коллегами говорят о возможности применять Марковские модели для предугадывания следующего запроса потребителя на основе предыдущих. Однако в этих исследованиях не принимаются во внимание персональные характеристики пользователя и его опыт.

Разумеется, традиционные информационно-поисковые системы, основанные на использовании ключевых слов, могут обеспечить первый шаг в процессе поиска. Однако проблема состоит в том, чтобы выполнять поиск более точно и интеллектуально на основе знаний о пользователе, его намерениях, целях и т.п., чтобы улучшать результаты поиска, обходясь минимумом уточнений.

Наше исследование предполагает, что обратная связь с потребителем при таком общении может сыграть ключевую роль в уменьшении информационной перегрузки и получении искомой информации. Базовая лингвистическая эрудиция сделает поисковую систему более точной благодаря сужению запросов и идентификации намерений пользователя. Соответственно, мы исследуем генерацию интерактивных диалогов на естественном языке для библиографического поиска в Сети с целью улучшения процессов поиска и отбора информации при минимальном взаимодействии с потребителем. Основное внимание в нашем подходе уделяется совершенствованию парадигмы поиска с помощью методов компьютерной лингвистики и применения более подходящего поискового агента.

Проблемы поиска

Полнота и точность. Под полнотой и точностью понимают релевантность результатов поиска поисковому предписанию и наличие в этих результатах информационного шума. Так, стопроцентная полнота достигается, когда в выборке присутствуют все имеющиеся документы, релевантные поисковому предписанию. Стопроцентная точность — это отсутствие в выборке документов, нерелевантных поисковому предписанию.

Cтопроцентных полноты и точности удается достигнуть только в рамках одной базы данных, а поиск по разрозненным источникам информации неминуемо приводит к снижению этих показателей. Наличие информационного шума обуславливает необходимость вторичной идентификации выбранных по запросу документов: нужно вручную отобрать только релевантные документы и уже потом продолжить их обработку, в полной мере используя естественный интеллект. На показатели полноты и точности можно влиять с помощью алгоритмов идентификации и индексирования (синтаксический и морфологический анализ русскоязычных текстов, синонимия, служба ведения словарей имен собственных и т.д.).

Исторически наибольшую потребность в поиске документов, поступивших из разных источников, испытывали спецслужбы. Для них, в первую очередь, и создавались системы, способные обрабатывать и находить документы на разных языках. Сегодня эти разработки становятся доступными и на ИТ-рынке.

Актуальность и достоверность. Своевременное обновление быстро изменяющихся данных — требование бизнеса, а удаление неактуальной информации позволяет защитить его от риска случайного использования таких данных. Современные программы сканирования Сети в поисках нужной информации (crawler) отслеживают обновление источников данных с заранее заданной периодичностью. Важно, чтобы при вводе в корпоративное хранилище новых (обновленных) данных происходила автоматическая идентификация подобных, но уже устаревших данных, и в этом случае вновь требуется вторичная идентификация.

Проблема достоверности данных напрямую связана с источником их происхождения. Распыление информации по Сети привело к изменению отношения к проблеме доверия и в дальнейшем существенно повлияет на разработку новых поколений информационных систем. Сегодня достоверными принято считать источники, доступные в пределах корпоративной сети, а также сайты крупнейших компаний. Для остальных данных, как и прежде, существует процедура проверки с использованием нескольких независимых источников.

Фрагментарность. Пополнение традиционной базы данных новым документом обычно сопровождается контролем над заполнением минимально необходимого состава реквизитов. Это продиктовано желанием однозначно идентифицировать реальные объекты в конкретной информационной системе и стремлением к устранению информационного шума. Если в традиционной базе данных выполняется операция пополнения/изменения какого-либо документа, то изменяемый фрагмент может быть сколь угодно малым (например, всего один реквизит). В информационных хранилищах индексируются все документы первоисточников, независимо от состава данных и полноты реквизитов, описывающих тот или иной объект.

Как правило, документы содержат только фрагменты этих описаний. То, что считается «мусором» в традиционных базах данных, в информационных хранилищах является «сырьем» для сведения в единое целое фрагментов описания объектов, поступивших из различных источников. Процесс сведения фрагментов — это интеллектуальный процесс выявления тождеств, связанный с сопоставлением подобий. Поиск подобных фрагментов осуществляется поисковой машиной, а их сведение, отождествление описания реального объекта, как правило, выполняется человеком в процессе вторичной идентификации.

Безопасность. Теоретически, информационные хранилища могут сохранять схему разграничения прав доступа как совокупность (суперпозицию) схем разграничения, заимствованных из первоисточников. Так, некоторые документы не будут участвовать в поиске при выполнении запроса, не допущенного к ним пользователя. На практике выявление устаревших и дезинформирующих документов может потребовать наделения некоторого количества специалистов полномочием чтения всех документов для выполнения вторичной идентификации. Эти специалисты могут не иметь полномочий удаления устаревших, на их взгляд, документов. Однако эту особенность информационных хранилищ неформатированной информации, поступившей из разрозненных источников, следует учитывать при работе с заказчиками.

Поиск информации

Многие поисковые машины, такие как Google и AltaVista, просматривают содержимое каждого Web-сервера, создавая индексированные базы данных по мере обнаружения документов. Однако при обращении к этим огромным БД пользователи встречаются с хорошо известными проблемами. В том числе они вынуждены тратить много времени на проверку того, содержат ли полученные результаты именно необходимые сведения. Кроме того, они часто получают столь значительное количество информации, охватывающей весьма широкую область, что отказываются от большей ее части и ограничиваются лишь небольшим набором документов.

Недавние исследования поведения Web-пользователей и связанных с ним практических проблем показывают, что для эффективного поиска информации в Сети требуется преодолеть множество препятствий. Как показано на рис. 1, они могут иметь самую разную природу — от недостатка опыта (неумения получать существующие страницы) до проблем дизайна (браузер плохо спроектирован либо его трудно эффективно применять). Значительной части Web-пользователей требуется слишком много времени, чтобы найти конкретный документ или Web-страницу. Другие проблемы связаны с трудностями получения полезной и понятной информации. Анализ этих препятствий позволяет выявить две конкретные проблемы:

  • современные поисковые системы не могут исследовать поведение пользователя, его намерения или профиль, чтобы собрать информацию, которая была бы полезной, например, для автоматизации рутинных задач;

  • представление на базе ключевых слов, которое используют поисковые машины и информационно-поисковые системы, накладывает слишком много ограничений.

Рис. 1. Препятствия к поиску в Web-пространстве могут иметь самую разную природу — от недостатка опыта до проблем дизайна

Действительно, многие поисковые системы не могут собрать базовые сведения о пользователе — отчасти потому, что для них не характерно получение неявной информации на уровне языкового общения, к которому часто прибегают потребители. Например, если в запросе на естественном языке используются неявные предположения или местоимения («Найти документы, которые содержат ...» или «Каковы планы путешествий Ее Величества на следующий год?»), то поисковая машина не найдет нужной информации. Что же касается точности и полноты поиска, система пропустит тысячи относящихся к делу документов, если запросы не содержат достаточного количества ключевых слов, позволяющих судить о подобии. Первая проблема относится к интеллекту поисковой машины и ее способностям адаптации, а вторая связана с представлением запроса, взаимодействием с пользователем и способностью системы воспринимать основообразующую (в том числе неявную) информацию, выраженную на естественном языке.

Чтобы справиться с этими проблемами, исследователи обратились к разработке интеллектуальных поисковых агентов. Такие агенты по-новому применяют традиционную «паучью» технологию поиска и обычно являются «роботами», которых можно обучить поиску в Сети определенных типов информационных ресурсов. Владелец интеллектуального агента способен персонализировать его так, чтобы тот создавал индивидуальные профили или удовлетворял конкретные информационные потребности. Агент может быть автономным, т.е. самостоятельно судить о вероятной уместности материала. И чем чаще он служит инструментом поиска, тем выше становится его «мастерство» — агент учится на прошлом опыте. Потребителю предоставлены возможности пересмотра результатов поиска и отклонения любых информационных источников, не относящихся к делу или бесполезных. Агент хранит эту информацию в пользовательском профиле, чтобы задействовать ее при обучении и поиске.

Но даже современные подходы не позволяют устранить ряд проблем, включая информационную перегрузку, затраты времени на поиск и получение необходимых сведений. Некоторые поисковые системы не могут выполнить углубленный лингвистический анализ запроса и контекста, помогающий качественно осуществить поиск информации, которую пользователь действительно хочет найти. Для того чтобы справиться с этими ограничениями, отдельные системы теперь включают в процесс поиска как статистические переменные, так и лингвистические параметры. Однако данный подход все еще остается на стадии опытных разработок и базируется преимущественно на документах, представленных в рамках парадигмы «мешка слов», которая является базисной для многих информационно-поисковых систем.

В отличие от поиска, фильтрация подразумевает отбор документов на основании их содержимого. В качестве примера можно указать предложенную в когнитивную систему фильтрации сведений со скрытой семантической индексацией для отбора новостных статей. Другой пример — система Infoscope, которая задействует агентов на основе правил, чтобы следить за поведением пользователя и предлагать варианты.

Преодолевая трудности создания подходящих профилей в ходе диалога, некоторые современные системы фильтрации позволяют пользователям выбирать в качестве типовых один или несколько релевантных документов, вместо того чтобы требовать прямого и явного определения области интересов. Другие системы пытаются построить профили по поведению потребителя. Однако этот подход недостаточно практичен, поскольку пользователи не всегда фокусируются на реальных целях и порой путешествуют по Сети без явного направления, что может привести поискового агента к неверным выводам об их предпочтениях.

С точки зрения языка эти проблемы можно в какой-то мере преодолеть, либо извлекая больше знаний из того, что ищут пользователи, либо генерируя в интерактивном режиме более внятные запросы, побуждающие потребителя сосредоточиться на своих интересах. Некоторые исследователи для построения пользовательских профилей применяют технологию обработки естественного языка (natural-language processing, NLP), но лишь в ограниченных областях, в случае привлечения WordNet или более простых ресурсов. Их усилия сосредоточены на проблемах доступа и обобщения концепций, решение которых позволит с упреждением отвечать на нужды пользователей.

К задачам NLG относятся:

  • определение содержания высказывания, влияющее как на макроуровень (определение содержания высказывания или реплики в диалоге), так и на микроуровень (определение содержания соответствующих ссылочных выражений);

  • структурирование текста — идентификация наиболее подходящих структур для использования при конкретных обстоятельствах;

  • внешняя реализация — отображение содержания предложения в морфологически и грамматически правильно построенные слова и предложения.

Конструкция системы NLG предполагает генерацию текста на естественном языке на уровне диалога, причем сложные задачи типа планирования беседы играют ключевую роль в синтезе эффективного текста. Эти усилия позволяют ввести теорию речевых актов в компьютерные системы, планирующие речевые последовательности. Если обработка беседы включает в себя управление диалоговыми взаимодействиями с пользователем, системы NLG могут получать базовые сведения о коммуникативных шагах, чтобы синтезировать ответы в соответствии со знаниями и целями потребителя, реагировать на его ошибки или справляться с его неожиданной реакцией.