Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информ сист и технолог, Соловецкий, для ПИ.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
3.14 Mб
Скачать

2.9.6. Основы информационного поиска в интернете

Для примера в качестве основной будем использовать поисковую систему Google и в качестве дополнительной - Altavista. Вы можете спросить «Почему именно Altavista?». Altavista появилась в конце 1995 года и на тот момент была тем, чем сейчас для всех пользователей интернета является Google – наиболее совершенной системой текстового поиска в интернете. Она представляет собой систему интеллектуального поиска с очень гибким и обширным языком запросов. И поэтому многие сложные запросы невозможны в Google, но легко осуществимы в Altavista. Кроме того, никакая, даже самая лучшая, поисковая система не может вобрать в себя весь интернет. Упущенное в одном индексе может отыскаться в другом.

Разумно поэтому использовать, по крайней мере, две системы: основную (бесспорно, сейчас это Google) и дополнительную (ею может быть Altavista). Знакомство с системой Altavista начнем с поиска текста шекспировского "Гамлета". Для этого используем отрывок из "Макбета" - другой трагедии Шекспира. Это может показаться странным, но большой сайт, посвященный Шекспиру, должен хранить тексты обеих пьес - и, найдя текст "Макбета", можно быть уверенным, что "Гамлет" где-то рядом.

Естественно, можно было бы взять текст другой трагедии, но в моем книжном шкафу стоит именно "Макбет". Итак, открываем книгу на первой попавшейся странице и берем такую цитату: "Be innocent of the knowledge dearest chuck". Теперь соединяемся с Altavista (www.altavista.com), набираем фразу в поле поиска, обрамляем ее кавычками и жмем кнопку Search. Как видим, уже первая найденная страница содержит требуемый текст. Об этом говорят: ее заголовок Macbeth: Entire Play ("Макбет", вся пьеса), название страницы full.html ("full" - "полный") и, наконец, путь к ней /Shakespeare/macbeth/, подразумевающий, что на сайте tech-two.mit.edu есть раздел, посвященный Шекспиру, а в нем - отделение для "Макбета".

О том, что перед нами "Макбет", говорит и размер страницы - 127 Кбайт, вполне достаточный, чтобы вместить всю пьесу. Обратите внимание: второй найденный документ macbeth.3.2.html показан с отступом вправо, потому что находится на том же сайте. По всей видимости, это фрагмент третьего действия пьесы. Выбрав ссылку Macbeth: Entire Play, увидим начало пьесы "Макбет". И теперь - барабанная дробь и пауза, как в цирке перед финальным трюком, - подводим указатель мыши к адресу, выделяем его левой кнопкой мыши, нажимаем клавишу -", чтобы выделение исчезло, и стираем в адресе название папки makbeth и самого документа - full.html. Остается вот что: http://tech-two.mit.edu/Shakespeare/ Нажимаем теперь клавишу Enter, и в окне браузера появляется главная страница сайта, посвященного Шекспиру. А там есть текст не только "Макбета", но и "Гамлета", и "Короля Лира", и многие другие.

"Ну и что, - скажете вы, - неужели для поиска хорошего сайта нужны такие трюки? Не проще ли поискать слово "Shakespeare" в индексе Теоmа или каталоге Lii.org?" Конечно, проще. Но системы начального поиска (неважно, Теоmа это, Lii.org или что-то еще) выдают нам то, что уже выбрали другие. Altavista позволяет искать и выбирать нам самим. Это другой стиль жизни и другой стиль мысли.

Чтобы лучше понять этот стиль, попробуем найти документы с обзором разных поисковых систем. Обращаясь к тематическому каталогу dmoz.org, можно искать раздел или фразу "Search Engines" и дальше смотреть описания сайтов.

Ясно, что такой подход не годится для Altavista, потому что поиск фразы "Search Engines" даст слишком много случайных страничек, где есть общие слова о поисковых системах, но нет подробного их описания. Вместо этого полезно задуматься, как может выглядеть тот документ, который мы ищем. Очевидно, в нем должны быть упомянуты уже известные нам поисковые системы. Но в документе может быть несколько страниц; тогда часть известных нам систем будет упомянута на одной странице, а часть - на другой. В таком случае поиск ничего не даст. Поэтому стоит подумать о названиях похожих систем - чтобы их можно было найти на одной странице, а затем, возможно, по этой странице отыскать и весь большой документ.

Итак, будем искать страницы, где есть названия систем, пригодных для начального поиска: "Google", "Wisenut", "Teoma", "Guidebeam". Из фрагмента результатов поиска видно, что система Altavista вполне оправдала ожидания: первым в результатах оказался обзор, сделанный Гэри Прайсом (Gary Price) - одним из ведущих специалистов в области поиска. Очень хороша и страница How to Choose a Search Engine or Directory (ее адрес - library.albany.edu/internet/choose.html), показанная в результатах поиска второй. В ней формулируются задачи (например, найти документ по заголовку) и перечисляются поисковые системы, способные эти задачи выполнить. Но самое приятное в том, что этот документ (сам по себе хороший) - всего лишь часть обширного собрания документов, где говорится об исследованиях в интернете, выборе поисковых систем, оценке качества найденного и о многом другом. Чтобы в этом убедиться, достаточно направить браузер по адресу library.albany.edu/internet/.

Итак, у нас появились документы, где описываются поисковые системы, - в том числе и те, чьих названий не было в первоначальном запросе к Altavista. Что делать дальше, зависит от цели и темперамента. Можно просматривать выданные адреса, их всего 33. Можно взять в одном из найденных документов названия других поисковых систем и добавить их к списку уже известных. Лучше всего использовать редкие названия, потому что они могут встретиться только в самых полных обзорах, и, что самое важное, их не может быть в "мусорных", не относящихся к делу документах.

В этом смысле слова "Google" и "Altavista" не очень подходят, потому что могут встретиться практически на любой странице. Но, выбирая для поиска редкое название, можно наряду с ненужными отсеять и часть нужных страниц, в которых есть адреса и обзоры только лучших поисковых систем. Важно понимать, что не существует идеального запроса к поисковой системе. Запрос всегда либо слишком широк (и тогда вместе с хорошими страницами выдаются "плохие"), либо запрос слишком узок (и тогда вместе с "плохими" страницами пропадает часть "хороших"). И если поставлена цель охватить как можно больше документов по данной теме, необходимо всячески менять запросы, чтобы не пропустить нужную информацию и одновременно не получить лишнюю.

Для этого в Altavista есть свой язык запросов, гораздо более мощный и гибкий, чем у Google. По умолчанию ищутся все введенные в поле поиска слова. Естественно, в языке запросов есть возможность явно задать поиск всех введенных слов. Для этого используется оператор +: +google +wisenut +teoma +guidebeam. Вместо "плюсов", поставленных перед каждым словом, можно соединить слова логическими операторами AND (прописные буквы нужны, чтобы отличить слова от операторов): google AND wisenut AND teoma AND guidebeam. Если перед заданным словом поставить знак "минус", то найдутся лишь те документы, где этого слова нет. По следующему запросу Altavista найдет документы, где есть все четыре слова: "google", "wisenut", "teoma", "guidebeam" - и нет слова "excite": +google +wisenut +teoma +guidebeam –excite.

Исключать слова можно, чтобы отсеять какие-то ненужные документы. В нашем случае слово "Excite" полезно исключить потому, что это название уже "погибшей" поисковой системы и содержащие его обзоры, скорее всего, просто устарели. Знак "минус", стоящий перед неугодным словом, можно заменить логическим оператором AND NOT.

Предыдущий запрос на языке логических операторов записывается так: google AND wisenut AND teoma AND guidebeam AND NOT excite. Казалось бы, AND NOT гораздо длиннее, чем "минус", и нет никакого смысла применять логические операторы там, где есть простые "плюсы" и "минусы". Но бывают запросы, которые на языке "плюсов" и "минусов" не напишешь. Для примера попробуем изменить наш первоначальный запрос google wisenut teoma guidebeam, чтобы он стал более "объективен", то есть, чтобы в ответ на него система Altavista выдавала по возможности все хорошие обзоры поисковых систем, а не только какие-то случайные документы.

Чтобы написать новый запрос, нужно нащупать "узкие" места предыдущего. Для этого обратимся к числу найденных Altavista слов, показанному после первых результатов поиска. Как видим, в индексе Altavista слово "google" встречается почти 5 миллионов раз, слово "teoma" - 20 тысяч, а слово "guidebeam" - всего 494 раза. Значит, "изюминка" запроса именно в слове "guidebeam". Не будь его, число результатов увеличилось бы в десятки раз, а качество выданных документов в той же мере ухудшилось. Действительно, слова "google", "teoma" и "wisenut" известны многим, а систему Guidebeam знают лишь те, кто серьезно интересуется поиском в интернете. Слово "guidebeam" можно встретить лишь в основательных документах, где разбираются как сегодняшние фавориты, так и малоизвестные, но уже заслуживающие внимания системы.

Итак, слово "guidebeam" отфильтровывает ненужные документы, но "вместе с водой можно выплеснуть и ребенка". Разумно предположить, что далеко не все серьезные обзоры поисковых систем содержат слово "guidebeam". Кто-то из авторов отметил систему Guidebeam, кто-то - другую малоизвестную, но тоже симпатичную систему. Поэтому лучше составить запрос таким образом, чтобы нашлись документы, обязательно содержащие слова "google", "wisenut", "teoma" и одно из редких слов на выбор. Таким редким словом может быть имя поисковой системы, почерпнутое из уже найденных документов. Выберем такие имена: "vivisimo" и "info-netware".

Теперь наш запрос будет выглядеть так: google AND wisenut AND teoma AND guidebeam AND (guidebeam OR infonetware OR vivisimo). В ответ на такой запрос Altavista покажет документы, где обязательно есть: слова "google", "wisenut", "teoma", "guidebeam"; или слова "google", "wisenut", "teoma", "infonetware"; или слова "google", "wisenut", "teoma", "vivisimo". В нашем новом запросе слова, соединенные оператором OR, заключены в круглые скобки, чтобы система Altavista смогла понять, к чему относятся операторы OR, а к чему - AND. Кроме логических операторов, в новом запросе можно применить и другие конструкции языка запросов Altavista. Вполне возможно, что документ с обзором поисковых систем называется engines.html. Для поиска документов по имени в Altavista есть специальный префикс url: url:engines. По этому запросу Altavista выдаст документы, в адресах которых есть слово "engines". Можно пытаться угадывать название документа. Например, доменные имена сайтов, посвященных поиску, могут содержать фрагмент "searcher" (искатель), который можно искать с помощью префикса url: url:searcher.

Другой замечательный способ "очистки" - поиск слов только в заголовках документов, часто отражающих их суть. Можно, например, искать документы, в заголовках которых есть фраза "search engine" или "search engines". Делается это с помощью префикса title: title:"search engine*". Звездочка в конце слова "engine" поставлена для того, чтобы система Altavista искала как слово "engine", так и слово "engines". Эта звездочка - очень важная мелочь, ее надо ставить, когда нет уверенности в том, как выглядит слово. Встретив звездочку, замыкающую слово "engine", Altavista будет, конечно, искать не только слово "engines", но и все слова, в начале которых стоит "engine".

Полезен и префикс anchor, командующий Altavista искать только среди ссылок, которые (если их выбрать мышью) переносят нас к другим страницам и сайтам. Поиск среди ссылок может быть полезен, потому что ссылки невелики, и тот, кто их создает, часто вынужден в немногих словах отразить суть документа, на который ссылка указывает. В этом смысле ссылка похожа на заголовок. Если, скажем, нас интересуют лекции по игре на барабанах, то можно искать их с помощью префикса anchor: anchor:"drum lessons".

Может помочь и префикс 1ink, который заставляет Altavista искать все страницы, ссылающиеся на данную. Например, по следующему запросу будут показаны многочисленные адреса страниц, где есть ссылки на поисковую систему Altavista: link:www.altavista.com. Префикс link полезен, прежде всего, владельцам сайтов, потому что позволяет понять, кто на них ссылается. Но его можно использовать и для поиска схожих сайтов. Если найденный сайт посвящен какой-то специальной теме, то можно предположить, что сайты, которые на него ссылаются, тоже имеют отношение к этой теме.

Нам пока удалось лишь бегло ознакомиться с языком запросов Altavista. Чтобы лучше почувствовать преимущества этого языка, полезно сравнить его с языком запросов Google. Самое важное преимущество языка Altavista - его изначальная продуманность и цельность. Язык Altavista - классический язык запросов, созданный скорее для профессионалов, чем для простых "искателей". В то же время языка запросов Google как чего-то цельного, заранее продуманного, никогда не существовало. Язык создавался и латался "на ходу", поэтому он напоминает костюм, где каждый рукав, каждая штанина сшиты разными портными.

Возьмем, к примеру, логический оператор OR. Он есть сейчас как в языке запросов Google, так и в языке запросов Altavista. Но в языке Google пока нет скобок, поэтому далеко не каждый запрос, возможный в Altavista, возможен в Google. Грег Нотесс (Greg R. Notess) составил небольшую таблицу, где запросы, сделанные на языке Altavista, переводятся на язык Google .

Второй пример - звездочка, которой можно пометить любую последовательность букв в середине или в конце слова. В Altavista она есть, в Google - нет. Поэтому Google понимает любое слово буквально, и для поиска слова во множественном числе нужен дополнительный запрос или оператор OR. Между тем обе системы могут использовать звездочку внутри фразы - здесь она обозначает любое слово. Например, по запросу "* bush" и Altavista, и Google найдут фразы и "Barbara Bush", и "President Bush", и "Laura Bush", потому что звездочка заменяет любое слово.

Третий пример посвятим различным префиксам, которые есть как в Altavista, так и в Google. Если в Altavista смысл префиксов довольно прозрачен и их можно друг с другом комбинировать, то в Google одни префиксы не могут существовать в одиночку, а другие - вместе с любой другой конструкцией языка. Пусть, например, у вас есть сайт www.mysite.com и хочется посмотреть, кто на него ссылается.

В системе Google для этого есть префикс link, и весь запрос будет выглядеть так: link:www.mysite.com. Увы, в результатах поиска будут показаны и ссылки, сделанные со страниц самого сайта www.mysite.com. Эти ссылки нельзя, к сожалению, убрать, потому что префикс link в языке запросов Google ни с чем не сочетается.

В Altavista префикс link сочетается с чем угодно, и запрос, исключающий внутренние ссылки, может выглядеть так: +link:www.mysite.com -url:mysite. Пусть теперь нам захотелось посмотреть, каков объем чужого сайта, сколько в нем страниц. Поиск на конкретном сайте задает в Altavista префикс host, и по следующему запросу Altavista выдаст все проиндексированные страницы: host: www. hersite.com.

В Google, как мы уже знаем, поиск в пределах сайта задает префикс site, но соответствующий запрос ничего не даст: site:www.hersite.com Причина - вместе с префиксом site язык запросов Google требует указать еще какой-нибудь оператор. Поэтому приходится хитрить и записывать запрос так: site:www.hersite.com inurl:hersite . Префикс inurl ничего не добавляет к запросу, он - чистая формальность, необходимая для удовлетворения вздорных требований языка запросов Google.

И, наконец, последний пример, на этот раз показывающий непоследовательность языка запросов Altavista. Когда-то система Altavista учитывала при поиске регистр букв. Слова "google" и "Google" были для Altavista разными. Теперь Altavista не различает большие и малые буквы в отдельно введенных словах или словах, выделенных "плюсами" и "минусами". Следующие запросы эквивалентны: +google +wisenut +teoma +guidebeam -excite +Google +wisenut +teomA +guidebeam -exCite. Но стоит заключить слово (или несколько слов) в кавычки, как Altavista начинает отличать прописные буквы от строчных. Если все буквы в словах строчные, Altavista найдет любые слова (как с большими, так и с малыми буквами). Но стоит сделать одну букву прописной, и Altavista будет искать слово в точности такое, как указано. Если, скажем, указано слово "Bush", то слово "bush" уже найдено не будет. Чувствительность к прописным буквам проявляется у Altavista не только при поиске фраз (слов, обрамленных кавычками), но и при использовании логических операторов. Следующие запросы не эквивалентны: google AND wisenut AND teoma AND guidebeam google AND wisenut AND teoma AND guidebeaM По второму запросу вообще ничего найдено не будет, потому что слова "guidebeaM" просто нет в индексе Altavista