
- •Введение
- •Краткая история развития поисковых систем
- •Состав и принцип действия поисковых систем
- •Классификация поисковых систем
- •Поиск информации в Google
- •Поиск информации в Yandex
- •Сервисы Google
- •Пользовательские сервисы Поиск
- •Картинки
- •Карты Google
- •Новости
- •Переводчик
- •Сайты Google
- •Примеры запросов
- •Стандартные запросы
- •Ограниченный поиск
- •Специализированные запросы
- •Альтернативные запросы
- •Ограниченный поиск по сайту, где встречаются искомые слова
- •Ограниченный поиск по Google Groups
- •Вопросы к защите лабораторной работы:
Классификация поисковых систем
По своей сути поисковые системы, каталоги и метапоисковые системы являются специализированными базами данных, в которых хранится информация о других сайтах Internet. От традиционных информационных систем они отличаются тем, что хранят не сами документы, а информацию о документах и ссылки на них. В ответ на запрос пользователя выдается список адресов, где может присутствовать запрашиваемая информация. Обычно поиск производится по словам и фразам, однако в некоторых «продвинутых» системах и каталогах можно составлять весьма сложные запросы на специальном языке.
Для простоты восприятия информации о классификации поисковых систем была составлена следующая схема:
Ранжирование по группа производилось по следующим признакам: форма и способ занесения информации о сайтах и возможности, предоставляемые для нахождения необходимой информации.
В самую обширную зону А входят сайты с примитивными каталогами. Сайты в этих каталогах либо вообще не сортированы, либо сортировка производится по нескольким общим группам.
В каталогах (зона В) информация о сайтах Internet, так же как в подборках, упорядочена по категориям специально разработанного дерева-рубрикатора, но, в отличие от предыдущего случая, в них имеются механизмы поиска информации по запросам. В основную массу каталогов информация заносится авторами сайтов, сообщающими о себе при регистрации необходимые сведения. Как правило, работа поисковых механизмов ограничивается поиском лишь в кратких аннотациях сайтов.
Особого внимания заслуживают современные каталоги (зона С), отличающиеся расширенной, а иногда и полной индексацией содержимого сайтов и мощными механизмами контекстного поиска в индексных базах.
Основное отличие поисковых систем (зона D) от каталогов - автоматический «робот», или «паук», который постоянно сканирует Internet, ищет в нем новые сайты, накапливает эту информацию в индексных файлах базы данных. Информация в Internet-каталоги, так же как в традиционные библиотечные, заносится либо авторами новых сайтов, либо обслуживающим персоналом каталога. Пользование поисковыми системами и каталогами абсолютно бесплатно, вот почему в настоящее время это самый доступный и демократичный вид информационных ресурсов.
Поиск информации в Google
Звучит банально, но многие пользователи сети Интернет, проведя не один месяц или год на просторах Всемирной Паутины, так и не научились правильно и быстро искать информацию с помощью поисковых машин. Каждый "поисковик", будь то российский Yandex или зарубежный Google, имеют свои особенности и определенный набор команд, облегчающий и упрощающий поиск запрашиваемой информации в сети. В данной главе будут рассмотрены некоторые возможности поисковой системы Google, которые значительно облегчат и упростят поиск.
Система Google осуществляет поиск по запросам пользователей в основном, используя описание ссылок на сайтах (анкор), содержимое тегов <title></title> (заголовки), ключевые слова. Кроме всего прочего в памяти поисковой системы хранятся сведения о размере шрифта и положении слов относительно начала документа HTML. То есть, если вы сделали запрос, например, "Компьютер", поисковая система в первую очередь выдаст страницы, где это слово написано крупным или выделенным шрифтом, к тому же располагается ближе к началу документа. Поэтому, многие веб-мастера стараются выделять ключевые слова и размещать их как можно выше к началу документа. Таким образом, возрастает вероятность того, что документ будет участвовать в выдаче поисковой системы по определенным запросам.
Переизбыток информации, которую выдает поисковая система на запрос пользователя, сводит на нет попытку, что-либо найти. Такую ситуацию можно ознаменовать, как поиск в пустую или отсутствие результатов. Поисковики работают по определенным алгоритмам и подчиняются им. Поэтому, использую их можно подчинить себе строптивую поисковую систему. Важным аспектом при поиске является, какой логический оператор использует система при обработке запроса. Такими логическими операторами могут быть AND (поиск словосочетаний целиком) либо OR (поиск слов по отдельности). По умолчанию в поисковой системе Google используется логический оператор AND, например, если вы напишите запрос "Купить компьютер", то Google будет искать это словосочетание целиком. Если вы примените к данному запросу логический оператор OR, например, "Купить OR компьютер", то дополнительно к результатам поиска будут найдены страницы, где встречаются слова по отдельности, например, "Купить жесткий диск", "Персональный компьютер" и т.д. Поиск начинает напоминать программирование. Если провести аналогию с языком программирования C, то вы вполне можете использовать вместо логического оператора OR символ |. Например, запрос "Купить смартфон или ноутбук" можно записать следующим образом: "Купить смартфон | ноутбук". Так же в запросах можно использовать кавычки и знак "минус". Кавычки нужны для того, чтобы найти словосочетание или фразу целиком, например, ("Толковый словарь русского языка"), по запросу будут отображены только страницы, где это словосочетание встречается целиком. Таким образом, вы значительно сузите круг поиска. Теперь рассмотрим применение знака "минус". Пример, запрос "Дмитрий - Медведев", в данном случае будут найдены страницы, где встречается "Дмитрий". Все страницы, где встречается "Медведев" не будут отображаться в результате поиска. Благодаря знаку "минус", сузился круг поисков, убрав популярные, но не нужные ответы на поисковые запросы.
Существуют иные способы улучшения поиска. Google поддерживает ряд команд с помощью которых можно осуществлять более качественный поиск.
intitle: - записывается следующим образом: intitle:поисковый запрос (пробел между командой и запросом не допустим). В этом случае Google будет искать только по заголовкам страниц.
inurl: - записывается следующим образом: inurl:поисковый запрос (например, слово info). Теперь Google, будет искать слово info в адресах сайтов. Такого вида команда используется в связке с другими инструкциями.
intext: - при использовании этой инструкции поиск будет осуществляться только по тексту документа HTML расположенному между тегами <body></body>. Все виды ссылок, заголовков не учитываются. Обычно используют такой способ для поиска фрагментов текста, когда ссылки и заголовки не имеют для пользователя никакого значения.
site: - очень полезная команда. Работает эта инструкция следующим образом, предположим, мы обратились к домену narod.ru. На этом домене огромное количество поддоменов. Команда site: позволить сузить круг поиска только до поддоменов основного домена narod.ru. Теперь более доходчиво. Вы решили узнать все о персональном компьютере, для этих целей сформировали запрос типа "Персональный компьютер", чтобы найти интересующие вас страницы на помощь приходит инструкция site:. Формируем поисковый запрос следующим образом: Персональный компьютер site:narod.ru/. Теперь Google найдет все материалы, по персональному компьютеру имеющиеся на поддаменах основного домена narod.ru/.
cache: - благодаря этой команде можно найти уже не существующие страницы. Например, страница стала недоступной по основному запросу, но ее копия бережно хранится в кэше поисковой машины Google. Такое может происходить из-за динамического обновления контента. Записывается команда следующим образом: cache:www.адрес сайта.ru/.
В данной главе были рассмотрены несложные варианты инструкций, которые воспринимает Google. Конечно, есть и другие параметры, например, указать максимальный возраст найденной информации в месяцах (http://www.google.com/search?as_qdr=m1 заданные значения могут быть от 1 до 12) или отфильтровать информацию сексуального характера (http://www.google.com/search?safe=on включает систему фильтров safe search). Так же можно изменить язык интерфейса Google, добавив к адресу hl=en (английский) или hl=ru (русский), записывается следующим образом: http://www.google.com/search?hl=en и т.д.