Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Н.Н. Шаховалов интернет-технол.в туризме.rtf
Скачиваний:
309
Добавлен:
04.03.2016
Размер:
12.64 Mб
Скачать

2.3.3 Поиск информации в Интернете

Поиск необходимых сведений в большом объеме достаточно разнообразной информации – задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов Интернета были разработаны достаточно эффективные поисковые средства и приемы, позволяющие найти необходимый документ. Эффективность поисковых средств определяется системой семантических показателей, в основе которых – оценка релевантности между документами и запросами.

Релевантность – объективно существующее семантическое или смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи, потери информации, точность выдачи и информационный шум.

Другой группой показателей оценки эффективности являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации поисковой информационной системы.

Пертинентностъ – это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой.

Информационно-поисковые системы

Основными поисковыми средствами в Интернете являются информационно-поисковые системы (ИПС) трех типов: классификационные, словарные и предметные.

Классификационные ИПС используют иерархическую организацию информации, которая описывается с помощью классификатора. Разделы классификатора называются рубриками. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых систематизаторами, которые, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, к каким разделам классификатора эти документы соответствуют.

Примеры классификационных ИПС: Excite, Look Smart Yellow Web, «Созвездие Интернет» и др.

Недостатки классификационных ИПС. Классификаторы созданные разными коллективами в разных странах, сильно различаются. Кроме того, у систематизаторов возникают сложности с интерпретацией материалов, написанных на иностранных языках. Поскольку абсолютно строгой классификации не удается сделать никому, всегда существуют документы, которые можно отнести к нескольким разделам классификатора.

Словарные ИПС используют базу данных, построенную из слов, встречающихся в документах Интернета. В такой базе пpи каждом слове хранится список документов, из которых оно взято. Поскольку все морфологические единицы в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро, без последовательного просмотра. Каждая словарная ИПС имеет свой язык запросов, позволяющий комбинировать слова наиболее полно характеризующие искомую информацию. К словарным ИПС Интернета относятся :AltaVista, Rambler, Яндекс, Апорт.

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже простой просмотр таких списков затруднителен. Поэтому многие словарные ИПС предоставляют возможность ранжирования результатов поиска – наиболее важные документы помещаются в начало списка. Rambler и Яндекс позволяют указать вес каждого из терминов, что позволяет довольно точно настраивать порядок следования найденных документов.

В предметных ИПС с поисковым образом связаны списки ресурсов Сети, содержащих нужную информацию и ссылки на близкие по тематике сайты. В таких ИПС создаются кольцевые ссылочные структуры. Так, сервер www.webring.org содержит несколько десятков тысяч тематических колец. Пока кольца были небольшими, поиск информации трудностей не представлял. Для облегчения поиска на указанном сервере используются свои классификационная и словарная ИПС, помогающие найти необходимую информацию.

Для решения проблемы поиска нужной информации в Интернете существует отдельный вид сетевого сервиса. Речь идет о поисковых серверах, или поисковых машинах.

Поисковые серверы достаточно многочисленны и разнообразны. Принято различать поисковые индексы и каталоги.

Серверы-индексы работают следующим образом: регулярно прочитывают содержание большинства web-страниц Сети («индексируют» их), и помещают их полностью или частично в общую базу данных. Пользователи поискового сервера имеют возможность осуществлять поиск по этой базе данных, используя ключевые слова, относящиеся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов (URL), оформленных в виде гиперссылок. Работать с поисковыми серверами этого типа удобно в том случае, если имеется четкое представление о предмете поиска.

Серверы-каталоги по сути дела представляют собой многоуровневую классификацию ссылок, построенную по принципу «от общего к частному». Иногда ссылки сопровождаются кратким описанием ресурса. Как правило, возможен поиск в названиях рубрик (категориях) и описаниях ресурсов по ключевым словам. Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут. Переходя от самых общих категорий к более частным, можно определить, с каким именно ресурсом Сети следует ознакомиться. Поисковые каталоги уместно сравнивать с тематическими библиотечными каталогами или классификаторами. Ведение поисковых каталогов частично автоматизировано, но до сих пор классификация ресурсов осуществляется главным образом вручную.

Поисковые каталоги бывают общего назначения и специализированные.

Поисковые каталоги общего назначения включают в себя ресурсы самого разного профиля. Специализированные каталоги объединяют только ресурсы, посвященные определенной тематике. Им часто удается достичь лучшего охвата ресурсов из своей области и построить более адекватную рубрикацию.

В последнее время поисковые каталоги общего назначения и индексирующие поисковые сервера интенсивно интегрируются, успешно сочетая их преимущества. Поисковые технологии тоже не стоят на месте. Традиционные индексирующие сервера ищут в базе данных документы, содержащие ключевые слова из поискового запроса. При таком подходе очень сложно оценить значение и качество ресурса, выдаваемого пользователю. Альтернативный подход – искать такие web-страницы, на которые ссылаются другие ресурсы по данной тематике. Чем больше ссылок на страницу существует в Сети – тем больше шансов, что вы ее найдете. Такой своеобразный мета-поиск осуществляет поисковый сервер Google (http://www.google.com/), появившийся совсем недавно, но уже отлично себя зарекомендовавший.