Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТвЮД к сессии.docx
Скачиваний:
38
Добавлен:
07.09.2022
Размер:
2.5 Mб
Скачать

8. Основные поисковые системы в Internet: Google, Rambler, Yandex, msn Web Search. Наиболее популярные поисковые системы

  • Яндекс (Компания «Яндекс») — средство полнотекстового поиска информации с учетом морфологии русского языка; поиск по сайтам, своему каталогу, новостям, товарам, географическим картам, словарям, блогам, картинкам, документам Microsoft Office и Adobe Acrobat PDF

    • Яндекс: Расширенный поиск

    • Яндекс — краткий вариант страницы поиска

    • Все сервисы Яндекса

Поисковая машина состоит из трех основных компонентов:

  • Агент — это поисковый робот. Он обходит сеть, скачивает и анализирует документы. В случае обнаружения новой ссылки при анализе сайта она попадает в список веб-адресов робота. Поисковые роботы бывают следующих типов: пауки (англ. Spider) — загружают сайты подобно браузерам пользователя; «путешествующие» пауки (англ. Crawler) — обнаруживают новые, ещё неизвестные ссылки на основе анализа уже известных документов; индексаторы — занимаются анализом обнаруженных веб-страниц и добавляют данные в индекс. Множество выкачанных документов разбивается на непересекающиеся части и очищается от разметки.

  • Индекс — база данных, собранная роботами-индексаторами поисковых машин. По индексу и осуществляется поиск документов.

  • Поисковый механизм.

Поисковый запрос от пользователя после анализа загруженности поисковой системы отправляется на наименее загруженный сервер[4][5]. Для обеспечения такой возможности серверы «Яндекса» объединены в кластеры и даже кластеры кластеров. Затем пользовательский запрос обрабатывается программой под названием «Метапоиск». Метапоиск осуществляет анализ запроса в реальном времени: определяет географическое положение пользователя, проводит лингвистический анализ и т. д. Также программа определяет, относится ли запрос к категории наиболее популярных или недавно заданных. Выдача на такие запросы некоторое время хранится в памяти (кэше) метапоиска, и в случае совпадения показываются заранее сохранённые результаты[5]. Если запрос является редким и совпадений в кэше не найдено, система перенаправляет его на программу «Базового поиска». Тот анализирует индекс системы, также разбитый по разным дублирующимся серверам (это ускоряет процедуру). Затем полученная информация снова попадает на метапоиск, данные ранжируются и показываются пользователю в готовом виде[4].

Индексирование[править | править код]

В целом «Яндекс» индексирует следующие типы файлов[6]: html, pdf, rtf, doc, xls, ppt, docx, odt, odp, ods, odg, xlsx, pptx.

Поисковая система способна также индексировать текст внутри объектов Shockwave Flash (если текст не помещен на само изображение), если эти элементы передаются отдельной страницей, имеющей MIME-тип application/x-shockwave-flash, и файлы с расширением .swf[7].

В «Яндексе» работают 2 сканирующих робота — «основной» и «быстрый». Первый отвечает за интернет в целом, второй индексирует сайты с часто меняющейся и обновляемой информацией (новостные сайты и информационные агентства). В 2010 году «быстрый» робот получил новую технологию под названием «Orange», разработанную совместно калифорнийским и московским подразделениями «Яндекса»[7].

  • Rambler (ОАО «Рамблер Интернет Холдинг») — поиск по сайтам с учетом морфологии русского и английского языков; имеет и каталоговую систему поиска.

    • Rambler Lite: поисковая система — краткий вариант страницы поиска

    • Все проекты Рамблера

«Рамблер» содержит ряд сервисов и инструментов:

  • «Рамблер/поиск» — поиск по Интернету. С 2011 года используется технология «Яндекс»[167].

  • «Рамблер/почта» — бесплатный почтовый сервис для работы с письмами[168].

  • «Рамблер/погода» — прогноз погоды в 197 странах мира. Сервис умеет сравнивать погоду с предыдущим днем и пишет, потеплело или похолодало на улице[169].

  • «Рамблер/новости» — подборка новостей страны и мира[170].

  • «Рамблер/финансы» — новости экономики и финансов, аналитика, анализы и прогнозы экономических событий[171].

  • «Рамблер/тoп-100» — рейтинг-классификатор русскоязычного интернета. Тематический каталог популярных ресурсов и аналитический инструмент для владельцев сайтов[167].

  • «Рамблер/софт» — браузер, панель инструментов для браузера и приложения «Рамблера» для мобильных устройств. Приложение «Рамблер/почта» вошло в список лучших приложений App Store в 2015 году[168].

  • Авторамблер — автомобильные новости, изменения в законодательстве, новинки авторынка, тест-драйвы, каталог автомобилей и список официальных дилеров[172].

  • Рамблер/радио — популярные радиостанции в прямом эфире.

  • Рамблер/видео — сайт с подборкой видероликов: новости, клипы, фильмы, трейлеры, лекции, видео про науку, блоги, обзоры и многое другое[173]. Формирует «Картину дня» — актуальные видеоролики, которые регулярно обновляются в течение суток. Есть подробная телепрограмма.

  • Рамблер/гороскопы — сайт об астрологии для любителей предсказаний. Астрологические прогнозы на каждый день, месяц и год, лунный календарь, китайский и зодиакальный гороскопы, сонник, статьи, гадания и тесты. Есть мобильное приложение[174].

  • Рамблер/семья — ответы на вопросы о семье и детях[175].

  • Рамблер/субботний — агрегатор развлекательного контента по разным тематикам[142].

  • Рамблер/недвижимость — сервис, позволяющий размещать и искать объявления о продаже и аренде объектов недвижимости по всей России[176].

  • Рамблер/путешествия — сервис подбора туров по самым популярным направлениям[177].

  • Рамблер/касса — онлайн-сервис, где можно купить билеты в кино, театры, на концерты и спортивные мероприятия в Москве, Санкт-Петербурге и ещё 90 городах России. Есть электронные билеты, которые не нужно распечатывать[178].

  • Рамблер/знакомства — партнёрский продукт Рамблера. Место знакомств и общения для пользователей из разных стран и городов.

  • Рамблер/ассистент — панель инструментов для браузеров Firefox, Internet Explorer, Chrome и Рамблер/браузер с сервисами Рамблера[179].

  • Рамблер/браузер — браузер с сервисами Рамблера[180].

  • Рамблер/лайки - бесплатный сервис для создания кнопок социальных сетей для сайтов[181].

  • Google — поиск по сайтам (есть возможность поиска по русскоязычным сайтам); поиск документов в форматах Adobe Acrobat PDF, Microsoft Office, PostScript, Corel WordPerfect, Lotus 1-2-3 и др.; поиск картинок, видео, новостей, поиск по картам; возможность поиска по русскоязычным и российским сайтам; есть система перевода текста на др. языки (49 языков)

Google использует алгоритм расчёта авторитетности PageRank. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Основная идея — чем больше ссылок на страницу, тем она важнее и соответственно попадает в число первых результатов поиска.

Основная статья: Пузырь фильтров

Google учитывает персональные данные пользователей для выдачи только тех результатов, которые ему нужны. Это явление имеет негативные стороны, например, если пользователь критикует президента в социальных сетях, то на запрос о гражданском мнении о президенте он получит только результаты с негативными характеристиками последнего, вообще на любой запрос пользователь будет получать не противоречащую его мнению информацию, что разумеется не очень хорошо влияет на его гражданское мнение. Илай Парайзер назвал это пузырём фильтров.

Сейчас в Google возможна функция отключения просмотра персональных результатов при просмотре сайтов.