Тема 18. Поиск информации в Интернете

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Ульяновский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ИТ в психологии / 1 / учебники / Н.В. Максимов, Л.И. Алешин - Информационные технологии - 2004.pdf

Скачиваний:

1183

Добавлен:

18.04.2015

Размер:

8.03 Mб

Скачать

☆

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 2324 / 4124 25 26 27 28 29 30 31 32 33 34 35 36 > Следующая >>>

в форму сжатых, систематизированных фактов остаётся уделом естественного интеллекта далеко не всякого индивидуума. Методы сжатия текстовой информации (выделение наиболее важных фрагментов с соответствующей систематизацией их) пока не имеют простой и понятной технологии.

Вопросы для самопроверки:

1.HTML (свойство, назначение).

2.Создание и публикация (размещение) электронных документов (особенности).

3.Создание веб-страниц и веб-сайтов (принципы).

4.Сопровождение сайтов (варианты).

5.Индексация, метаданные (характеристика и назначение).

6.Автоматическое реферирование электронных данных в Интернете (характеристика и назначение).

одновременно:

Ответственность:

Иванов А.И.

Иванов А.И.

Поиск информации: основные понятия, виды и формы организации

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им, чему свидетельством являются, например, наскальные рисунки. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств его организации. Совокупность названных факторов обуславливает постановку большинства задач общества, его отдельных групп и личностей в любой период их существования, ибо в социуме передатчиками и приёмниками любых сведений являются индивидуумы. В данном процессе они могут представлять собственные интересы, а также потребности социальной микро (отдельных групп людей) и макросреды (общества в целом).

Конец XX – начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоёв социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам.

Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для: повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

350

Всё возрастает важность этих процессов, особенно теперь , когда информация влияет практически на все стороны жизни общества.

По оценке специалистов в Интернете работает 30 и более миллионов пользователей. Из них десятки тысяч – в режиме онлайн (англ. «on-line» – интерактивный доступ в любой момент времени) и количество таких пользователей постоянно (ежедневно) растёт. Всё это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. В этой связи возникает спектр проблем, обусловленных разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д. Игнорирование этих аспектов приводит разработчиков к созданию малоэффективных поисковых систем (ПС), а пользователей – к разочарованию в возможностях подобных систем по удовлетворению их информационных потребностей, к неуверенности в собственных знаниях и возможностях работы с ПС и др. Последнее обстоятельство способствует появлению «психологического барьера» (Тема 1) и других негативных проявлений, порой вызывающих у пользователей неприятие НИТ или неуверенность в собственных силах.

Некоторые специалисты предполагают, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учётом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им не только релевантную, но и пертинентную информацию. В этом направлении постоянно ведутся работы. Однако ещё видимо не одно десятилетие потребуются интеллект и знания конкретных пользователей ИПС или их посредников для эффективного достижения поставленных целей – поиска необходимой информации.

Это вызывает потребность у широкого круга пользователей ПС достаточно хорошо владеть данной предметной областью. Рассмотрим терминологический аппарат, относящийся к проблемам поиска информации.

Существуют различные толкования термина «поиск информации» или «информационный поиск».

Термин «информационный поиск» (англ. «information retrieval»)

ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность, выраженная в форме информационного запроса. При этом к объектам информационного поиска К. Муэрс относит документы, сведения об их наличии и (или) местонахождении, фактографическую информацию.

Отметим, что решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название «справочно-поисковый

351

аппарат» (каталоги, библиографические указатели и др.) [86]. В профессиональной отечественной печати данный термин используется с

1970-х годов.

В«Библиотечной энциклопедии» «информационный поиск» определяется как нахождение в информационном массиве документов,

соответствующих информационному запросу пользователей [86].

С точки зрения использования компьютерной техники под «информационным поиском» подразумевается совокупность логических и технических операций, имеющих конечной целью

нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя19.

Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью ПС оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные носители информации

Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы.

В1945 годы американский учёный и инженер В. Буш в статье «Возможный механизм нашего мышления» впервые широко поставил вопрос о необходимости механизации информационного поиска. Затем, начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

«Поисковые системы» осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова.

Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Существуют и другие дефиниции. В любом случае поисковые системы

19 Информатика: Учебное пособие/Под ред. К.И. Тараканова.–М.: Книга, 1986.–304

с. [С. 62].

352

позволяют осуществлять только поисковые процедуры и связанные с ними процессы.

Информационно-поисковые системы

ПС с бóльшим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете.

Терминологически «информационно-поисковая система» (англ. «information retrieval system», IRS) – представляет систему,

предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

В толковом словаре по вычислительной технике информационнопоисковая система трактуется как «система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска», а база данных – как «совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними». В этой связи нелишне рассмотреть дефиниции, связанные с библиографическими базами и банками данных.

Библиографические базы и банки данных – библиографическая информация на машиночитаемых носителях, которая обрабатывается, хранится и выдается с помощью средств вычислительной техники.

Библиографический банк данных (ББнД) – одна или несколько библиографических баз данных, имеющих общее лингвистическое и программное обеспечение. Библиографические данные представляются в формате, образующем набор полей для записи отдельных элементов библиографического описания, сведений о содержании документа (аннотаций, рефератов, классификационных индексов, предметных рубрик, ключевых слов), адресно-справочных данных (сигл, шифров хранения и др.).

Библиографические БД по видам отражаемых документов

подразделяются на: книги, сериальные издания, статьи, диссертации, патенты и т.д., а по тематике на: универсальные, многоотраслевые, отраслевые, тематические, персональные и др. Крупными являются ББнД национальной библиографии, международных и национальных многоотраслевых и отраслевых информационных систем, а также электронные каталоги (ЭК) национальной и крупной научной библиотек, национальные каталоги.

К числу крупнейших универсальных библиографических БнД

353

всемирного характера относятся электронные информационные ресурсы (ЭИР) Библиотеки Конгресса США. В России ББнД создаются с 1980 года во Всесоюзной книжной палате (ВКП, ныне Российская книжная палата, РКП), с середины 1980-х годов – в таких отраслевых библиотеках, как ЦНСХБ, ГЦНМБ, ГПНТБ. Универсальные национальные и научные библиотеки приступили к формированию ЭК в начале 1990-х годов.

Более подробно вопросы, связанные с БД, рассматриваются в теме 13. Вернёмся к ИПС.

Функционирование современных ИПС основано на двух предположениях:

1)документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

2)пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, отыскав дополнительные сведения, либо организовав процесс таким образом, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля, а в случае, если они являются «информационно-ориентированными», то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, «самостоятельный» проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Особенность работы пользователя в режиме «самообслуживания», в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку не только функций потребителя по обработке найденной информации и тех функций, которые традиционно относились к функциям

354

информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие «обеспечивающие» функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причем на уровне как отдельного документа, так и информационных ресурсов в целом. Отметим, что технические возможности, которыми ныне располагает пользователь, позволяют ему создавать информационный ресурс – формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).

Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям.

Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих, как бы, одну строку таблицы и называются записью. При этом, например, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нём – одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных.

Структурно-методологические основы информационно-поисковых систем

В задачах информационного поиска качественно различают две составляющие: концептуальную и технологическую.

К концептуальным составляющим относятся, прежде всего,

системы представления собственно информации (знаний), а также средства представления информации об обрабатываемой информации, используемые в качестве основы как механизма информационного поиска, так и организации процессов взаимодействия пользователя с АИПС. К технологическим составляющим можно отнести средства пользовательского интерфейса, алгоритмы обработки информации, индексирования и поиска, интеграцию информации из различных источников, языки запросов и др.

С точки зрения «интеллектуальности» средств поиска и в зависимости от характера информации (и возможностей разработчика) в основу конкретной более или менее сложной АИПС может быть положена одна из следующих технологий поиска: литеральный поиск –

355

поиск подстроки, происходящий без привлечения знаний о лексической, грамматической и семантической структуре обрабатываемого материала; поиск, в ходе которого используется лексико-грамматическая информация, то есть привлекаются лингвистические словари, программы морфологического анализа текста; семантический поиск, осуществляющийся на основании знания об отношениях между понятиями предметной области, выраженными посредством слов естественного языка.

В последнем случае носителями такого рода информации, в частности, являются тезаурусы, уже более трех десятилетий использующиеся для информационного поиска. Кроме того, огромную роль в организации диалога между пользователем и информационнопоисковой системой играют хотя и менее сложные, но разнообразные словарные структуры. Используя их, пользователь может развивать поиск, модифицируя запрос (выражение его информационной потребности) согласно особенностям представления объекта поиска средствами конкретной ИПС и БД.

ИПС отличаются друг от друга по логике работы и техническим параметрам. К логике относится выделение единицы хранения, язык запросов, представление исходных и выходных документов, а также – адресная информация. К параметрам – время индексации и поиска, объем индекса, поддержка существующих платформ, совместимость с другими системами.

Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Рассмотрим эти понятия.

Стратегия поиска – общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными «стратегическими» решениями – архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска – совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи.

Механизмы поиска – совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Средства поиска, с одной стороны, – взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков

356

определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, – объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.

С точки зрения взаимодействия пользователя с системой средства поиска воплощаются в поисковых технологиях – унифицированных (оптимизированных в рамках конкретной АИПС) последовательностях использования отдельных средств системы для устойчивого получения конечного и, возможно, промежуточных результатов.

По используемым поисковым технологиям ПС можно разбить на 4 категории:

1.Тематические каталоги.

2.Специализированные каталоги (онлайновые справочники).

3.Поисковые машины (полнотекстовый поиск).

4.Средства метапоиска.

В Интернете ИПС размещаются на серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков. ИПС может размещаться на нескольких серверах. Так, популярная поисковая машина AltaVista с этой целью использует шесть компьютеров.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически либо вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Например, в ИПС «Yahoo» каталог построен на основе фасетноиерархической классификации. Иерархически организованный тематический каталог веб генерируется полуавтоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами-роботами, считывающими новые ссылки из известных источников. Тематика каталога разделена на большие классы, например, Компьютеры, Правительство, которые далее детализируются по иерархическому принципу.

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска) реализуют технологию полнотекстового поиска. Индексируются тексты,

357

расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС «AltaVista» более 56 млн. URL-адресов (данные 1999

г.)

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами, результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, это позволяет значительно расширить базу поиска. К подобному классу можно также отнести «персональные программы поиска», позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Реализуется процесс поиска информации и управления им в БД с помощью «навигационных» приёмов. Навигация – целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации представляют интерфейс, позволяющий организовать достаточно эффективный процесс взаимодействия пользователя с БД. Средства интерфейса помогают пользователю ориентироваться в системе при реализации процесса поиска.

Базы информационных данных могут содержать различные (практически любые) виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки. Определение данному понятию представлено в теме 13.

ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их «релевантности», то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких «по смыслу» к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п.

Субъектом информационного обеспечения является специалист-

информатик, любой потребитель информации.

«База данных» – поименованная совокупность взаимосвязанных данных, находящихся под руководством систем управления базами

358

данных (СУБД).

«Банк данных» – логическая, тематическая или иная совокупность баз данных.

«СУБД» позиционируется как совокупность языковых и программных средств, обеспечивающих выполнение процедур, связанных с организацией ввода, корректировки, хранения, удаления и поиска данных, а также доступа к ним. СУБД образуют ИПС. Реально большинство нынешних ИПС позволяют искать информацию в виде документов. Такие ИПС можно назвать документо-поисковыми или

документно-поисковыми системами (ДПС).

Логическое, эмпирическое и эвристическое в поиске

Если простой поиск не удовлетворяет пользователя, он может использовать методы логического поиска, включающие булевы операции «и», «или», «не» и любые их сочетания. При этом применяют запросы с логическими операторами и метасимволами, примерно следующего вида.

В этом случае пользователь может максимально точно задать параметры интересующего его документа. Для поиска учебника по информатике или информационным технологиям, выпущенного в 2004 году издательством Наука, поисковый запрос будет иметь следующий вид:

учебник AND (информатик* OR (информационны* AND технологи*)) AND Наука* AND 2004

Эмпирический поиск

Эмпирический – полученный на базе обыденного опыта, в результате экспериментов и наблюдений, методом перебора или последовательных приближений. Обычно запрос в таком поиске состоит из одной фразы, по которой система пытается найти наиболее похожие документы.

Эмпирический метод обеспечивает приближённое решение различных задач. На эмпирическом уровне познания широко используются методы: сравнения, измерения, индукции, дедукции, анализа, синтеза и др.

Можно характеризовать эмпирический поиск в ИПС, как поиск «слепым» перебором поисковых значений. В этом случае его результаты не могут удовлетворять пользователей, либо его применение требует длительных и малоэффективных итераций.

Эвристический поиск

Удовлетворительный эмпирический поиск возможен лишь в ограниченном пространстве вариантов. При росте числа возможных

359

вариантов решений используют эвристики – методы, делающие поиск более целенаправленным. Эвристическая стратегия – возможный рациональный способ достижения цели. Суть эвристического поиска заключается в сокращение числа перебираемых вариантов без потери качества решения, благодаря содержащейся в задаче дополнительной информации. Он позволяет определить, какую дополнительную информацию следует использовать, чтобы уменьшить общее число перебираемых вариантов.

Большинство ИПС предлагают несколько вариантов (видов) проведения поиска. Обычно они называются «простой поиск» («simple search») и «расширенный поиск» («advanced search»). Порой к ним добавляется стратегия организации поиска, получившая название «профессиональный поиск» («professional search»). Первый из них обычно не требует умений логического построения запросов и доступен любым пользователям в виду своей интуитивной понятности, особенно при поиске документов по авторам, названию и т.п. Его ещё порой именуют «демократическим». Второй и третий дают возможности выполнять сложные поиски, поэтому их иногда классифицируют как

экспертный, специальный и даже «элитарный» поиск.

360

Организация поиска

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

•Определение области знаний;

•Выбор типа и источников данных;

•Сбор материалов необходимых для наполнения информационной модели;

•Отбор наиболее полезной информации;

•Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);

•Выбор алгоритма поиска закономерностей;

•Поиск закономерностей, формальных правил и структурных связей в собранной информации;

•Творческая интерпретация полученных результатов;

•Интеграция извлеченных «знаний».

Последний этап работы подразумевает консолидацию данных с ранее полученной информацией. Иными словами, «старые» и «новые» знания требуется согласовать между собой, а возможные противоречия – устранить или иметь соответствующие им объяснения.

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. В последнем случае она может загружаться из Интернета в процессе ввода соответствующего адреса сайта или портала, а также актуализации соответствующей ссылки. В открывшейся странице БД ИПС пользователям, порой предлагается зарегистрироваться или ввести необходимые идентификационные данные (логин и пароль). В открытых ИПС это обычно не требуется и на первой же их странице пользователь может водить свой запрос.

Для этого он выбирает критерии поиска. Их может быть несколько. Первоначально следует определиться с видом поиска, если таковой предлагается (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы «И», «ИЛИ», «НЕТ».

Технологии поиска информации

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс

361

взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» – информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) «профессионализма».

Функционирование современных ИПС базируется на двух предположениях:

1)документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

2)пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно носит эмпирический характер и представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может отыскав дополнительные сведения, или организовав процесс таким образом, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля, а в случае, когда они являются «информационно-ориентированными», то им также свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь по существу создаёт новый, «самостоятельный» проблемно-ориентированный, индивидуально обновляемый и пополняемый информационный ресурс, включающий как подборку документов, так и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Следовательно, можно утверждать, что современные технические возможности и технологии фактически позволяют любому пользователю создавать информационный ресурс – формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

Упомянутая ранее особенность работы пользователя в режиме

362

«самообслуживания» в контексте задачи автоматизации совокупной деятельности означает, что система должна представлять собой среду, обеспечивающую поддержку функций:

●традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационнопоисковый язык – ИПЯ, выбор ИР, автоматизированный поиск и ручной отбор материалов);

●потребителя по обработке найденной информации;

●обеспечивающих структурирование информационной потребности, лексическую адаптацию запросов, оценку, систематизацию

иобработку результатов поиска на уровне как отдельного документа, так и информационных ресурсов в целом.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются ПОД и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Установление истинного соответствия предполагает соотнесение содержания на смысловом уровне: пользователь практически реконструирует возможное содержание запроса по перечислению основных понятий и далее полученный образ соотносит с реальной потребностью. При этом адекватность образа действительному содержанию документа определяется не только качеством процесса свертки информации, но и уровнем знания субъектом средств отражения – концептуальной схемы предметной области и возможностей ИПЯ.

Заметим, что в контексте последнего фактора, оценка реальной эффективности средств поддержки диалога «человек-компьютер» связана с необходимостью учёта фактора субъективности «видения» пользователем особенности своей работы за компьютером, так как пользователь должен уметь оценить свое представление об искомой информации и знаниях в области формирования запросов.

Определение нужного источника

Поскольку в АИПС можно задавать и получать в результате поиска материалы в различной форме, рассмотрим, как это отражается в различных видах ИР. Для текстовых документов они характеризуются:

●местом хранения материалов: ссылка на адрес в Интернете; адрес и другие реквизиты организации, частного лица и т.п.;

●их состоянием: дата создания и (или) обновления, создатель, формат хранения, полнота отображения, доступность и др.;

●видом источника: библиографическое описание документа, реферат, краткая или расширенная аннотация, полный или сокращенный вариант текста документа, в том числе включающий графические и иные машиночитаемые материалы или нет.

363

Графические материалы, кроме того, включают сведения об их типе: чёрно-белые или цветные; с определённым разрешением; рисунки, диаграммы и графики, схемы, фотографии и т.д. Зная названные характеристики ИР, хранящихся в базах и банках данных, пользователи при составлении запросов могут их учитывать. Привёдем несколько примеров. В ИПС системах «Консультант+», «Гарант» и им подобные пользователям при составлении запросов предлагается выбрать с текстом или без него они хотят получить тот или иной документ. Можно даже произвести поиск с целью отобрать все ссылки на документы, содержащие полные тексты.

Выбор оптимального пути

Для пользователя имеет значение лишь та информация, которая соответствует его пониманию (рефлексии) недостающего знания. То есть, полученную информацию можно оценить как релевантную только тогда, когда пользователь уже обладает достаточными знаниями в предметной области. При этом, как было отмечено ранее, особенностью работы с информационными ресурсами является то, что деятельность пользователя складывается из двух составляющих – выполнения основной задачи (поиск документов, содержащих информацию, способствующую решению прагматической проблемы в сфере его основной деятельности), и явно или неявно осознаваемого освоения средств взаимодействия с системой. Кроме того, следует учитывать, что разнообразие ситуаций, возникающих во время взаимодействия человека с АИПС, достаточно велико и эффективность поиска достигается, как правило, достаточным опытом в данной области.

В соответствии с характером задач основной деятельности пользователя по степени соотношения известного/неизвестного в предмете поиска выделяют три типа поисковых задач.

К задачам первого типа относится поиск объекта, когда известно, что этот объект существует, например, поиск фактографических данных или конкретных названий трудов конкретного автора. Знания пользователя о существе искомого объекта полные, цель поиска – найти его документальное представление.

Второй тип задач – подбор информации по некоторой теме, например, для обзора научной проблемы или для обоснования или поиска метода решения практической задачи. В этом случае пользователь, обладая знаниями, определяет место задачи (как вновь вводимое понятие в системе уже известных понятий). Это поиск документов, в совокупности содержащих материал, с необходимой полнотой раскрывающий вводимое новое понятие или дающий возможность построения метода решения задачи.

Третий тип задач представляет проблемный поиск, который

364

является основной составляющей творческого процесса определения путей решения профессиональной задачи пользователя. Здесь изначально, как правило, отсутствуют четкие знания (возможно, пользователь располагает отдельными фактами, не имеющими между собой доказанных связей).

Первоначально пользователь, находящийся в проблемной ситуации, имеет ещё не вполне осознанную потребность в информации, отражающей проблемную ситуацию – так называемую реальную информационную потребность. В процессе восприятия и понимания она преобразуется в осознанную информационную потребность, представленную в виде вопроса или задачи, выраженную пользователем на привычном ему языке. В результате он формирует запрос на естественном языке, который переводит в поисковый запрос,

представленный в терминах ИПЯ – ПОЗ. Для подобного запроса характерно, что вопросы типа «как» и «почему» преобразуются в вопрос типа «ли». Такая форма представления потребности – гипотетическая, является наиболее адекватной теоретико-множественной модели поиска. Отметим, что преобразование вопроса в запрос имеет по существу качественный характер.

Переход от реальной к осознанной информационной потребности тем сложнее, чем менее определена задача пользователя. Для поисковых задач проблемного типа этот переход наиболее труден, так как пользователь не представляет, какая именно информация нужна для решения его задачи.

Особенности представления информации на разных уровнях человеко-машинной среды обусловливают различные типы неопределенности, поскольку каждое из состояний информационной потребности есть результат отражения вопроса, характеризующегося своей степенью формализованности и привносящего свою составляющую неопределенности – семантическую, лингвистическую, метаинформационную (последняя относится как семантику, так и синтаксис). В этом смысле процесс поиска можно определить как последовательность шагов, задачи которых снять семантическую, языковую (для ИПЯ дескрипторного типа – в значительной степени лексическую неопределенность) и метаинформационную неопределённости.

Семантическая неопределенность связана с формализацией запроса. Формируя запрос, пользователь явно или неявно синтезирует ту информацию, которая, возможно, есть в отыскиваемом тексте. Сначала определяются понятия, затем связи между ними, то есть пользователь реконструирует гипотетический текст, предположительно совпадающего в известной части проблемы с возможно уже существующим текстом, и обозначение связи известного знания с выявленным неизвестным.

Лексическая неопределенность связана с формулировкой ПОЗа.

Формулируя запрос, пользователь должен знать и учитывать, что его

365

представление об информативности термина необязательно совпадает с представлениями индексатора. Это означает, что термины, используемые в ПОД могут не совпасть с теми, которые он предполагает включить в ПОЗ.

Метаинформационная неопределенность связана с тем, что пользователь должен иметь адекватное представление о самой системе и способе представления информации в ней. Например, как и по каким полям проводить поиск.

Кроме того, большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС зачастую изначально позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.

С точки зрения структурной полноты представления поискового объекта, можно ввести типологию видов поиска, представленную в табл. 19-1.

		Типология видов поиска				Таблица 19-1
		Типология видов поиска

Вид	Логическая		Логическая			Состав ПОЗ
Вид	модель		модель
поиска	модель		модель
поиска	объекта поиска		механизма поиска
	объекта поиска		механизма поиска			Термины
Предметны	Объем	понятия,	Поиск		по	Термины
й	задаваемого		логическому			документов,
(атрибутив	именем		выражению		над	отнесенные	к
ный) поиск			именами	понятий,		семантически
			задаваемыми			заданным полям
			терминами или их
			комбинацией
			(значениями
			определенного
			характеристическо
			го признака)			Термины
Тематическ	Определение		Поиск	по части		Термины
ий поиск	нового	понятия	известного			документов	и
	или понятийных		понятия	(или		термины
	связей, косвенно		связям),	частично		дополнительных
	определенного		задаваемым			поисковых
	объемом	этого	комбинацией			структур	–
	понятия		характеристически			тематических
			х признаков,		с	рубрикаторов,
			использованием			тезаурусов и т.п.,
			накопленных			отнесенные	к
			366

ранее результатов семантически заданным полям.

367

Реализация поиска

Что обычно ищут в Интернете:

●персональные данные об индивидуумах и организациях;

●различные адресные данные;

●конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения;

●где и сколько стоят те или иные материалы, услуги, продукты и

т.п.;

●информационные сайты и порталы и др.

За рубежом выделяют две особенность проведения поисковых операций. Первая называется «white-поиск» и означает, что пользователю точно известны параметры поиска, например, он ищет где можно купить и сколько стоит некоторый конкретный продукт. Второй тип поучил название «yellow-поиск». Понятно, что граница между этими типами поиска весьма условна, но подобное выделение бывает весьма важным для выявления представления пользователя об искомом им объекте и, следовательно, для организации и проведения эффективного поиска.

Большинство систем предлагают выбрать один из 2–4-х вариантов поиска, зависящий от квалификации пользователя (простой, стандартный, сложный и др.). Простой поиск порой называется «демократическим», поскольку он организован таким образом, чтобы любой неподготовленный пользователь мог без особых усилий сформировать запрос и получить за приемлемое время ответ. В сложных вариантах поиска используют операторы булевой алгебры, одновременно несколько поисковых терминов и даже возможность искать одновременно в нескольких БД.

В большинстве библиографических систем пользователю предоставляется возможность осуществлять поиск по элементам БО, например, автору, коллективному автору, заглавию, году издания, некоторым кодам и шифрам, классификационным индексам и др. Кроме атрибутов БО, достаточно часто документы разыскиваются по смыслу содержащейся в них информации (по теме, термину и др.). Для этого используются тематические классификаторы (рубрикаторы), ключевые слова и др. При этом пользователь должен обладать навыками для подготовки такого рода запросов.

Запрос может содержать до 3-х строк терминов, соответствующих выбранным поисковым полям, соединяемым логическими элементами «И» или «ИЛИ», «НЕТ» как в строке, так и между строчками.

«И» означает, что будут найдены документы, в которых одновременно присутствуют заданные для поиска термины (ключевые слова) в одном или нескольких предоставляемых для поиска полях. Например, предполагается найти все документы, вышедшие в

368

издательстве «Мир» за 2003 г. В этом случае запрос будет выглядеть следующим образом:

Издательство:	Мир	И	Дата издания:	2003

«ИЛИ» предполагает нахождение хотя бы одного из заданных для поиска терминов. Например, поиск автора (Александр Иванович Иванов) осуществляется в поле «Авторы» следующим образом:

Иванов А.И.		ИЛИ		Александр Иванов

Автор может оказаться одновременно или только составителем, иллюстратором, редактором и др. В этом случае запрос на поиск данного автора осуществляется по полям «Автор» и «Ответственность»

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова «библиотечный» можно ввести его фрагмент «библиоте*». При этом будут найдены документы, в которых содержится не только слово «библиотечный», но и «библиотека», «библиотекарь», «бибилотековедение» и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

Оформление результатов

С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Подобный список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если таковая возможность предоставляется данной ИПС и пользователь подключен к Интернету.

Пользователь может получить найденные БО в виде текстового материала или формата описания документов, принятого в различных системах. Как правило, в последнее время большинство АИПС предлагают пользователям некоторый набор MARC-форматов и собственный формат, если такой отличается от предыдущих. В России

369

наибольшее распространение получили следующие MARC-форматы: UNIMARC, RUSMARC и USMARC. В ряде случаев АИПС позволяют выгружать отдельные БО или их подмножество на компьютеры пользователей для включения этих данных в АИПС пользователей. Последний вариант получил распространение при корпоративной обработке поступающих в библиотеки документов, а также как услуга по включению БО в ЭК библиотек и других организаций.

Наконец, графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причём полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF – фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные.

Полученные в результате поиска документы сохраняют.

Критерии оценки поиска

Критерием результата проведённого поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС общепринято формировать список полученных в результате поиска документов по их релевантности.

Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

«Релевантность» – устанавливаемое при информационном поиске

соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию [72].

Эффективность информационного поиска определяют показатели, характеризующие нахождение релевантных документов. Они делятся на семантические (точность и полнота поиска, коэффициент информационного шума и коэффициент потерь) и технико-экономические (оперативность поиска, стоимость и трудоемкость поиска).

Коэффициент точности поиска определяется отношением количества выданных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.

Коэффициент полноты поиска – отношением количества выданных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.

Коэффициент потерь характеризует отношение количества невыданных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве. Величина, обратная коэффициенту полноты поиска.

Полнота и точность поиска являются взаимосвязанными

370

показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%.

При этом следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.

Технико-экономические показатели характеризуют качество организации информационного поиска, а оперативность информационного поиска – показатель времени выполнения поисковых операций. Стоимость информационного поиска отражает денежные и иные затраты на выполнение поиска, а трудоемкость информационного поиска показывает затраты труда на поисковые операции.

Оценка и обработка результатов поиска

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако, только для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. Результат тематического поиска в этом смысле множественен и, соответственно, требует последующей систематизации – ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определенного явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.

Соответственно, такая дополнительная, и отдельная во времени, обработка требует наличия в системе средств идентификации получаемых объектов (как отдельных элементов, так и их композиций, возможно, связываемых с методами их получения), а также средств их выборочного использования.

Развитие процесса поиска осуществляется путём модификации выражения ПОЗ, путём реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.

Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов – отдельные документы или коллекции документов. Особенностью предложенной схемы является функциональное подобие интерфейсных блоков и то, что, помимо функций обработки материала документов, система предоставляет средства развития процесса поиска путём модификации

371

выражения, или путём реформулирования запроса по обратной связи по релевантности.

Интернет-поисковые системы

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.).

Кроме того, поисковые машины бывают библиографические, фактографические, полнотекстовые, смешанные и др.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций.

Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. «Робот» – автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну–две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета (киберпространстве), ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать вебстраницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах.

Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц, зачастую не только полный текст, но и наличие иллюстраций, аудио и видео файлов, Java-приложений. Индексации подвергаются все слова в документе, что даёт возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ

372

(сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

Следует отметить, что «роботы» имеют ряд разновидностей, одной из которых является «паук» (англ. «spider»). Он непрерывно «ползает по сети», переходя с одной веб-страницы к другой с целью сбора статистических данных о самой «паутине» (Web) и (или) формирования некоторой БД с индексами содержимого веб.

Автоматизированные агенты «спайдеры» регулярно (постоянно или в установленные периоды времени) сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем. В разных системах эта цель достигается различным образом.

Одни посылают «агентов» на каждую попадающуюся вебстраницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти вебстраницы в различной степени индексируются (только заголовки вебстраниц и ссылки, включая автоматическое аннотирование документов или весь текст).

Все чаще применяются «интеллектуальные агенты» – небольшие программы, обладающие способностью самообучаться, и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень её смыслового соответствия поставленной задаче.

Существуют программы разработки уникальных роботов, выполняющих в сети заданные задачи. Методика их разработки, например, представлена в документе «Guidelines for Robot Writers» по адресу: http://info.webcrawler.com/mak/projects/robots/guidelines.html.

В качестве примера таких систем приведём программу «MeltingPoint» выпущенную в апреле 1997 года компанией Docuwork Ltd. (http://www.docuwork.com/) для поддержки исследований в Интернете, а также анализа получаемой информации и принятия на его основе управленческих решений (Internet Research Manager). Программа,

373

работая совместно с браузером, обеспечивает перекрестные ссылки, «захват» и моментальную загрузку материалов, связанных с установленными пользователем правилами и темой для поиска. Пользователь может создавать в этой программе собственную базу знаний, добавляя ссылки и комментарии к включаемым в неё вебстраницам. При этом не ограничивается размер комментариев к конкретному универсальному указателю интернет-ресурсов (URL). MeltingPoint использует в среде Интернет/Интранет технологию

«активного управления знаниями» (Active Knowledge Management).

Приведём наиболее популярные зарубежные и отечественные поисковые машины.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста

(AltaVista), «Yahoo», «Google», «OpenText», «WebCrawler» и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,

AltaVista имеет одну из самых крупных индексных баз и всемирную зону охвата. Сервер расположен в США и имеется ряд зеркальных серверов в других странах. Данная система обрабатывает и русские серверы. AltaVista поддерживает полный булев поиск, поиск по фразам. Результаты ранжируются по релевантности.

Эти и другие узлы поисковых машин используют «пауков» для создания веб-каталогов. Интернет-справочные системы Yahoo, LookSmart, About и другие представляют подход, предполагающий вовлечение человеческого интеллекта в процессы отбора и аннотирования веб-сайтов. Каждая система имеет свои принципы и алгоритмы отбора и индексации веб-страниц и серверов. Так, например, Alta Vista даже в идеале берёт не более 60% информации с отдельного сервера, всё остальное остаётся неучтённым.

К отечественным поисковым машинам относятся: Апорт

(«Aport» АО Агама), Rambler (фирма Stack Ltd.), Яндех («Yandex»

фирма CompTek Int), «Русская машина поиска», «Новый русский поиск», и др. Их адреса в Интернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно)

и др.

Поисковая система Rambler появилась в конце 1996 года, а Апорт работает с лета 1997 года и поддерживает все кириллические кодировки, выполняет поиск с учётом морфологического анализа, имеет гибкий язык запросов, возможность перевода запроса с русского на английский язык и наоборот. Поисковая система Яndex начала работать с конца сентября 1997 года. Она индексирует содержание российских и зарубежных веб-узлов. Нормализация слов происходит на основе специального алгоритма, что позволяет не хранить все словоформы в словаре. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких

374

как анализатор документов, языки разметки, конверторы форматов, сетевой «паук».

Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надёжного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно 9одновременно) различные ИПС.

Поисковые машины создаются разработчиками и представляют различное специальное ПО. Выделим отечественную документофактографическую ИПС «Артефакт» (агентство «Integrum Techno», www.integrum.ru). В ней используются оригинальные идеи и методы. ИПС «Артефакт» позволяет учесть в запросе любые факты, связанные с естественной структурой текста и дают возможность пользователям для формирования их запросов использовать необходимые логические операторы.

Поисковые машины производят автоматический поиск заданных пользователем параметров, как правило, ключевых слов. В результате их работы на компьютер пользователя передаётся первая группа (порция) обнаруженных ссылок, ранжированная (отсортированная) с учётом лучших показателей найденных вхождений (совпадений) искомых слов. Часто с ссылкой отражается краткая информация по документу или часть строки, в которой присутствуют заданные ключевые слова. Обычно общее число найденных ссылок на документы исчисляется тысячами. Если в первой порции пользователь не обнаруживает нужных ему документов, то он, нажав на специальную кнопку, может перейти к следующей группе и т.д. Конечно, перелистывать сотни страниц с найденными ссылками весьма утомительно и малопроизводительно (продуктивно). К сожалению, необходимые пользователю данные могут оказаться не на первых страницах с ссылками, полученными в результате проведённого поиска. Более того, нужных материалов может и вовсе не оказаться, что свидетельствует не только о том, что их попросту нет в Интернете. В подавляющем большинстве случаев это не так. Более вероятно, что пользователю не удалось правильно (точно) сформировать ПОЗ.

В этом случае можно предложить несколько стратегий, осуществляемых как отдельно, так и в совокупности:

1)повторно более точно сформировать ПОЗ (использовать несколько других ключевых слов, наиболее полно характеризующих объект поиска);

2)сузить зону поиска с учётом таких параметров, как: страна, язык, тема и др.;

3)активно использовать логические операции, например, ПОЗ

375

«слово-1»& «слово-2» означает, что будут найдены в первую очередь веб-страницы, на которых одновременно присутствуют оба термина. При этом они могут быть как рядом, так и на некотором удалении друг от друга;

4) поиск по всем известным поисковым системам, ибо абсолютно аналогичные поиски приводят к различающимся результатам.

Несмотря на общие принципы построения, поисковые системы отличаются тематикой, её объёмом, классификацией и интерфейсами. Для удобства перемещения (навигации) по имеющимся на поисковых машинах разделам некоторые из них используют специальный раздел «Карта».

Важной особенностью (и одновременно, предоставляемой возможностью) многих поисковых машин является тематическая (тематические путеводители по Интернету) и иная классификации ИР, предоставляемая пользователям для более целенаправленного и быстрого поиска необходимых им данных. Как правило, тематическая классификация на них строится по иерархическим принципам, содержит несколько уровней вложения, позволяющих более детально идентифицировать ИР и, следовательно, более точно и быстро находить нужные пользователям данные. Ещё одной полезной сервисной функцией подобных классификаций является возможность увидеть подрубрики и суммарное количество ссылок, соответствующих той или иной теме, предлагаемой поисковой машиной. Например, на Яндексе тематическая рубрика «Наука и образование» (первый уровень вложения), включает подрубрику «Науки» (второй уровень вложения), а та, в свою очередь, – содержит подрубрики «Технические, Естественные, Гуманитарные…» (третий уровень вложения).

Тематические путеводители по ресурсам Интернета разрабатываются многими создателями поисковых машин, информационных и библиотечных сайтов и т.п. Библиотеки университета Ратгерс предлагают на веб-сайте комплекс путеводителей по отраслям и темам от искусства, бизнеса и медицины до математики и социальных наук. Крупный проект библиотек США в области создания онлайновых путеводителей по Интернету – INFOMINE

(http://infomine.ucr.edu/Main.html). Кооперативный проект возглавляет библиотека университета Калифорнии и его поддерживают более 30 библиотек. Он включает веб-ресурсы, ориентированные на преподавателей, исследователей университетского уровня и студентов (описания БД, электронных журналов, электронных книг, списков рассылки и групп новостей, онлайновых библиотечных каталогов, статей, указателей и многих других видов электронных ресурсов). Ресурсы систематизированы по десяти основным разделам: пять имеют отраслевую направленность: 1) биология, земледелие, медицинские науки; 2) правительственная информация; 3) физические науки,

376

инженерное дело, компьютеры и математика; 4) социальные и гуманитарные науки; 5) пространственное и исполнительское искусство). Два – посвящены учебно-методическим ресурсам школьного и высшего образования, остальные три – поисковые средства Интернета, карты и электронные журналы. В состав сведений о ресурсе входят: его название, аннотация, Интернет-адрес, предметные рубрики и ключевые слова, количество которых достаточно велико. Предметные рубрики и ключевые слова в полях (тэгах) «Related Subjects» и «Related Keywords»

являются работающими ссылками, что позволяет вести поиск даже из структуры записи20.

Интерфейс поисковых систем, как правило, содержит инструкции по проведению поиска, поля ввода ключевых слов и других поисковых параметров, а также всплывающие меню для выбора предлагаемых системой опций поиска. Напомним, что используются различные стратегии поиска: «простой», «расширенный» («дополнительный»), «профессиональный» («полный») и др. Практически все системы позволяют формировать запросы с включением в них логических операторов «AND», «OR» и «NOT».

При проведении поиска поисковые серверы обычно используют данные, хранящиеся в веб-страницах в тегах метаданных: <title>, <meta name=”keywords”> и <meta name=”description”>. Формируя свои страницы, следует отражать в этих тегах сведения о назначении сайта и его тематике.

При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска пользователю обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Так, если задать слово «аудио» (подразумевая аудиоинформацию), то в результате поиска можно получить значительное количество документов, не имеющих отношение к такому запросу, например, содержащих слово «аудит» или «аудиторию» и др. Легко заметить, что в данном случае многое зависит не только от того сколь грамотно был сформулирован запрос, но и от

20	Thesaurus	Information.	American	Society	of	Indexers/–

http://www.asindexing.org/site/thesauri.shtml.

377

возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется «лесной синдром» (из-за леса не видно дров), заключающийся в том, что в полученных данных можно пропустить главные, необходимые сведения. Очевидно, никакие меры не являются исчерпывающими в условиях постоянного расширения среды и появления новых разнообразных ИР, что подтверждают, например, трудности поиска в WWW.

Простые запросы в виде отдельных достаточно распространённых терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум). Например, при поиске по слову «библи» можно получить сведения о библиотеках, библиотечном деле, библиографии, библиях, библиотеках компьютерных программ и др. В данном случае это свидетельство неверно сформулированного запроса.

Важным аспектом также является возможность таких систем поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Пользователям предлагаются двуязычные словари, например, англо-русский/русско-английский «МультиЛекс»

(www.medialingua.ru/ russian/ multilexonline), электронный переводчик на сервере public.elvis.ru и др. Кроме того, появились системы, осуществляющие мгновенный («на лету») перевод информационных ресурсов, найденных пользователем в Интернет и копируемых на его компьютер.

При создании собственных библиографических, полнотекстовых и иных информационных ресурсов следует обращать пристальное внимание на контроль за создаваемыми поисковыми инструментами (ключевыми словами, дескрипторами, тезаурусами, рубрикаторами). Важно определить, как и какие подобные элементы создаются, выявить возможность использования их опыта, а также чужих данных (в первую очередь – БО). Особенно это актуально при создании корпоративных ресурсов. Здесь приходится учитывать местные особенности, ориентированные на пользователей, определяющих тематику наиболее спрашиваемых ИР и глубину их рубрицирования. Фиксируя используемую пользователями терминологию, можно совершенствовать создаваемый поисковый аппарат.

Всё более актуальным является использование машиночитаемых тезаурусов. Зарубежные специалисты дают следующее определение этому термину: «электронный тезаурус – это словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами»21. При этом дискуссируется потребность параллельно создавать аппарат ключевых слов. С.В. Жмайло ссылается на мнение

21 Жмайло С.В. К вопросу об определении тезауруса//НТИ.–Сер.1.–2003.–№12.–С. 20–25 [C. 24].

378

зарубежных специалистов, утверждающих, что перспективы тезаурусов зависят от их интеграции в системы, осуществляющие полнотекстовый поиск [Там же].

Создаются системы, позволяющие эффективно вести поиск в полнотекстовых БД. Они базируются на использовании технологий синтаксического и морфологического анализа текста (разбивка на элементы, распознаваемые программой) и оперативной обработки текстов на естественных языках. В качестве примера можно привести упомянутую ранее отечественную систему «Артефакт».

Разработчики поисковых систем пытаются адаптировать их под начинающих и «средних» пользователей Интернета, количество которых неуклонно растёт. С этой целью ряд поисковых машин (Ask Jeeves, Alta Vista, Яндекс и др.) предлагают пользователям вводить некоторый вопрос. В канадской системе (www.web-help.com), пользователям предлагается набор ссылок, подготовленных сотрудниками интернеткомпании. При этом окно веб-браузера делится на три части: для показа найденных сайтов, размещения рекламного банера и обмена информацией между сотрудником компании и пользователями (аналогично чату). На запрос пользователя сотрудник в реальном режиме времени находит и подключает на экран пользователя соответствующий (по его мнению) сайт. Метод удобен для нахождения конкретных фактов, статистики и т.п., которые другими способами непросто найти.

Система WWW содержит в себе разнообразные справочные данные и одновременно обеспечивает возможность доступа к каталогам крупнейших библиотек мира, а также позволяет «скачать» нужные программы, текстовые, графические и иные файлы. Так, Оксфордский каталог English language teaching обеспечивает пользователей сведениями о словарях, учебниках, программных средствах, которые могут быть полезны им, например, при изучении английского языка. При этом точность и скорость проведения поиска зависят от правильного определения поисковых терминов и умения формировать запрос. Это же обстоятельство касается и количества получаемых данных, многие из которых могут оказаться бесполезными. Напомним, что для работы в англоязычных системах необходимо знание английского языка.

При организации одинакового запроса на разных поисковых машинах возможно получение различных по содержанию и широте охвата материалов.

Для начала самостоятельного поиска информационных ресурсов следует выбрать соответствующую поисковую машину. Для этого в браузере в строку записи адреса (англ. «Location» – местоположение) вводят электронный адрес поисковой машины и нажимают клавишу «Ввод». Например, «galaxy.einet.net» – старейшая справочная система в Интернете. Целесообразность обращения к специализированным

379

поисковым машинам объясняется их способностью разыскивать актуальную, поддерживаемую ими, тематическую информацию.

Обычно на первой странице поисковой машины имеется некоторый список (перечень, меню, разделы) тем различных областей деятельности социума, по которым предлагается осуществлять поиск (например: наука, образование, искусство, техника, политика, бизнес и др.). Выбрав любую из них, пользователь попадает в новый перечень, детализирующий тему. Например, выбрав раздел «Искусство», можно перейти в меню, содержащее подразделы: литература, театр, музыка, кино и др. Таких вложений может быть несколько, и они образуют иерархическую структуру предметной области.

Можно не обращаться к тематическому поиску, а в специальной строке поиска (Search), расположенной, как правило, на первой Webстранице, задать ключевые слова, отражающие тему, материалы по которой разыскиваются. При этом на экране отображаются списки адресов ИР с названиями и краткими описаниями содержания каждого найденного сайта, то есть те страницы, на которых есть введенные в

запросе слова.

Если необходимо найти ссылки на определённое словосочетание, поисковые сервера, например, Яндекс и Апорт предлагают заключить это словосочетание в кавычки и тогда поиск осуществляется лишь тех материалов, где оба слова стоят рядом.

Искусство построения запроса требует знаний особенностей каждой конкретной поисковой системы и наличия опыта работы с Интернетом вообще. Хотя некоторые поисковые машины предлагают квазиинтеллектуальные средства, позволяющие менее опытному пользователю, традиционно задавая вопросы на естественном языке, получать достаточно релевантные данные.

В строку запроса можно вводить и несколько слов, например, «библиотечное дело» и т.д. Таким образом, организация поиска данных в Интернете – творческий процесс, базирующийся на достаточном знании особенностей формирования поискового запроса и возможностях поисковых систем.

Поисковые системы позволяют формировать и достаточно сложные запросы. Можно подготовить запрос: найти документы некоего автора, изданные в период с… по… и содержащие некоторое ключевое слово в тексте искомых документов, например, «информацион*».

Обычно поиск в полнотекстовых БД осуществляется с использованием морфологических22 анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки. В этом случае одной из

22 Морфологическая обработка заключается в выделении основы слова, которая называется ядерной частью слова, т.е. без словоизменительных морфем (окончаний).

380

лучших отечественных систем с широкими возможностями составления поискового предписания является «Артефакт».

Результаты поиска отображаются на экране монитора компьютера порциями в виде нумерованного списка, содержащего ссылки на найденные веб-страницы. Количество одновременно выводимых страниц может вирироваться в определённых пределах (обычно от 10 до 100). В ряде случаев пользователь устанавливает их сам. В других случаях это осуществляется системой автоматически.

Важнейшими критериями релевантности (а тем более пертинентности) полученных в результате поиска данных (ссылок) являются полнота и точность. Большинством поисковых машин точность поиска игнорируется в виду сложности решения данной проблемы. Некоторые специалисты утверждают, что эта задача практически неразрешима на данном этапе. «Улучшение точности

поиска является главной информационной проблемой следующего столетия»23.

Результаты поиска могут визуализироваться на экране дисплея ПК в краткой (автор, заглавие, вид документа, возможна ссылка на местонахождение этой информации) или полной форме (дополнительно остальные элементы БО, рубрики, сиглы хранения и др.). Вариант полной формы полученного в результате поиска БО представлены на Рис. 18-1.

23 Жмайло С.В. К вопросу об определении тезауруса//НТИ.–Сер.1.–2003.–№12.–С. 20–25 [C. 21]

381

Рис. 18-1. Вариант отражения полученной в результате поиска полной формы БО

Ряд поисковых систем предлагают варианты вывода результатов поиска на экран или принтер в различных форматах представления данных (dbf, MARC-подобные и др.).

Для решения задачи используются другие (метапоисковые) системы, обеспечивающие в результате получение суммарных данных с десятка поисковых систем, но при этом объём информации может быть весьма значительным. Частично данная проблема решается предоставлением ими общего списка, в начале которого будут данные, наиболее релевантные запросу. Другим способом удовлетворения потребностей пользователей явилось создание тематически узконаправленных поисковых систем на веб-сайтах – порталов.

Важность проблемы информационного поиска в Интернете породила целую отрасль, задача которой заключается в том, чтобы помочь пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые инструменты. Условно их можно разделить на поисковые средства справочного типа или просто справочники (directories) и поисковые системы в чистом виде (search engines).

Крайне важно уметь точно определять вид конкретного поискового средства и не путать их, поскольку от выбора "оружия" во многом зависит стратегия поисковой деятельности и, в конечном итоге, результат.

Поисковые средства справочного типа, называемые еще каталогами или рубрикаторами представляют собой электронные справочники, имеющие привычную для информационных работников иерархическую систематическую или логико-тематическую структуру, несколько напоминающую структуру систематического каталога библиотеки. Работа со справочниками позволяет ориентироваться в ресурсах Интернета в пределах отдельных отраслей знания, углубляясь от общего к частному, менять иерархические ветви и т.д. Они позволяют описать незначительную часть ресурсов Сети, да и то только весьма крупные объекты, такие как, например, отдельные сервера организаций и учреждений. Поэтому «справочники» отражают незначительную часть ресурсов Сети, в первую очередь наиболее заметные серверы. Основными критериями оценки справочников являются:

•объем;

•оперативность отражения новых или изменившихся источников;

•продуманность схемы классификации;

•перекрёстность структуры.

Объёмом справочника определяется уровень его надежности или «информационную прочность». От этого зависит степень доверия, которую пользователи питают к каждому конкретному каталогу.

382

Поскольку материалы в Интернете появляются и изменяются ежедневно, важно насколько актуально содержание справочника, как быстро появляются ссылки на новые сайты и исправляются старые. Логичностью применяемой схемы классификации определяется степень легкости, с которой пользователи могут находить требуемые сведения. Система же перекрестных ссылок позволяет находить информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска не был выбран.

Метапоисковые системы

Увеличение числа поисковых систем в Интернете обусловило появление «метапоисковых систем». Они дают возможность пользователю одновременно в едином пользовательском интерфейсе, используя индексы обычных поисковых систем, работать с несколькими БД. Пока ещё «метапоисковые системы» не позволяют реализовать все возможности отдельных поисковых систем («поисковиков»), но в большинстве своём он обладают существенными быстродействием и степенью охвата Web-пространства, что определяет их всё более возрастающие значение и популярность.

Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии.

«Технология поиска (англ. «Search Technology») означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. (Целью технологии Интернет является доступ пользователя к базам данных и использование его ресурсов). При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, то есть соответствием ответа вопросу (запросу).

Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе поисковых систем обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате

383

проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии даёт возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата.

Дополнительные возможности этих систем – поиск похожих документов, поиск по датам и серверам, удобный интерфейс поисковой машины, и возможность его персонализации.

Вопросы для самопроверки:

1.Информационно-поисковые системы (характеристика).

2.Виды информационного поиска (основные понятия).

3.Этапы информационного поиска (основные понятия и примеры).

4.Реализация поиска (основные понятия и примеры).

5.Оформление результатов поиска (примеры).

6.Организация информационного обеспечения.

7.Информационные системы (характеристика).

8.Базы и банки данных (основные понятия).

9.Организация поиска в Интернете.

10.Поисковые и метапоисковые системы в Интернете (характеристика).

384

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 2324 / 4124 25 26 27 28 29 30 31 32 33 34 35 36 > Следующая >>>

Соседние файлы в папке учебники

#
18.04.201511.87 Mб290Майер Р.В. - Как стать компьютерным гением или книга о информационных системах и технологиях - 2008.pdf
#
18.04.20158.03 Mб1183Н.В. Максимов, Л.И. Алешин - Информационные технологии - 2004.pdf
#
18.04.201513.09 Mб134Романова Ю. и др. - Информатика и информационные технологии. Конспект лекций - 2009.djvu