ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»
(СПбГУТ)
Кафедра безопасности информационных систем
ОТЧЁТ
по практической работе №1 на тему: «Поиск информации в сети Интернет. Браузеры»
по дисциплине «Основы интернет-технологий»
Выполнил: студент группы ИСТ-114, Медведева С.Г.
«» 2022 г. ___________/Медведева С.Г
Принял: Исупова Е. А.
« » 2022 г. ___________/Е.А. Исупова
СОДЕРЖАНИЕ
1 Цель работы
Ознакомиться с принципами работы поисковых систем, выявить основные
закономерности их работы. Исследовать функциональные характеристики web-браузеров. Выполнить сравнительную оценку web-браузеров по предлагаемым критериям качества.
2 Ход работы
2.1 Поисковые системы: классификация, назначение, принципы работы
Поисковая система – алгоритмы и реализующая их совокупность компьютерных программ, предоставляющая пользователю возможность быстрого доступа к необходимой информации при помощи поиска в обширной коллекции доступных данных.
Поисковые системы можно классифицировать с учетом географического признака.
Глобальные. Поиск ведется по всему миру.
Региональные. Поиск осуществляется по стране или группе стран, которых объединяет один язык.
Местные. Поиск ведется в конкретном городе.
Так же поисковые системы можно классифицировать по месту поиска, например, поиск в интернет-магазинах, на форумах и блогах, на информационных ресурсах.
Общий принцип работы поисковых системы можно разделить на следующие этапы:
Поиск и обход сайтов.
Загрузка и обработка данных (индексирование).
Определение релевантности.
Ранжирование.
Для более глубокого анализа назначения, устройства и принципов работы была выбрана поисковая система от компании Яндекс, по причине личного использования.
Назначением поисковой системы Яндекс является нахождение нужной информации в интернете, при этом подстраиваясь под каждого пользователя.
В устройстве работы есть несколько основных этапов, а именно: нахождение и просмотр сайтов, загрузка и обратка данных(индексирование), определение релевантности, ранжирование. О каждом из этих этапов подробнее дальше.
Первым этапом, как было отмечено выше, является нахождение и обход сайтов. Узнать о существование какого-либо сайта это отдельная задача, которую компания Яндекс решает путем пользование услуг регистраторов, у которых они получают полный список сайтов. После чего в ход идет робот-паук и кравлер, задача которых обойти сайт c главной страницы или скачать технический документ Sitemap, тем самым узнав его содержание. Так как загрузить в базы все сайты технически невозможно, существует машинное обучение (Selection Rank), задача которого попытаться предсказать какая страница с больше вероятность будет полезна пользователю и загрузить ее в первую очередь.
Следующий этап — это индексирование. Его задача создание индекса, который используется для быстрого нахождения запрашиваемой информации на ресурсе. Компания пользуется алгоритмом «Палех». Задача этого алгоритма переводить текст в последовательность чисел ограниченной длинны. То есть поиск ищет не только по соответствию слов и синонимов, но и по смыслу.
После того, как пользователь вводит свой запрос, программа предоставляет перечень сайтов, которые по результатам индексирования содержат запрашиваемую информацию. Этот и есть определение релевантности страниц.
Последним этап происходит ранжирование ссылок, которые будут показаны пользователю. Ссылки на сайты выстраиваются в определенном порядке.
2.2 Поисковая выдача. Релевантность и её оценка.
Релевантность — это соответствие результата ожиданиям. В контексте поисковой выдачи релевантность демонстрирует, насколько точный развернутый ответ пользователь получил на свой запрос.
В результатах поиска наиболее релевантные страницы расположены наверху. То есть, чем лучше, по мнению поисковой системы, ресурс отвечает запросу пользователя — тем более высокую позицию он занимает.
Есть три типа релевантности, которые зависят от поведения конкретных лиц или программ:
Формальная — означает, что решение принимает робот. Он автоматически сравнивает страницы в поисковой выдаче со своими представлениями об идеальном ответе на запрос. Таким образом на основе полученных данных он создает «рейтинг релевантных страниц».
Содержательная — за релевантность отвечает живой человек — асессор. Он заходит на сайт, проводит аудит и выносит вердикт, насколько та или иная страница подходит запросу.
Пертинентная — здесь за удовлетворение запросов людей отвечают непосредственно пользователи. Алгоритм простой — если люди переходят по запросу на страницу, значит, она подходит.
Поисковая выдача – веб-страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя.
Первый запрос «как сварить !гречку».
В поисковой системе Яндекс было выдано 5 тысяч результатов. Время – меньше секунды. Все сайты на первой старице выдачи соответствовали запросу, с критерием точность все хорошо. Так же были выданы различные сайты, что говорит о том, что с полнотой тоже все хорошо. Запрос без восклицательного знака нашел равное количество сайтов и выдал аналогичный сайты, из чего можно сделать вывод, что восклицательный знак роли не сыграл.
Рис. 1 Поисковый запрос Яндекс
Рис. 2 Запрос Яндекс
Поисковая система Гугл нашла примерно 229 тысяч результатов за 0.51 секунд. Все сайты соответствовали запросу и были различны. На странице выдачи не было повторяющихся сайтов. Без восклицательного знака было найдено на 24 тысячи сайтов больше, следовательно восклицательный знак влиял на поиск.
Рис. 3 Запрос Гугл
Рис. 4 Запрос Гугл
У поисковой системы Майкрософт Бинг было выдано 200 тысяч результатов. Время выдачи составило аналогично меньше секунды. Все сайты были посвящены теме запроса и так же были разнообразны. Без восклицательного знака количество найденных страниц не изменилось.
Рис. 5 Запрос Бинг
Второй запрос «расписание -сфу +спбгут»
Яндексом было найдено 3 тысячи результатов, время поиска составило меньше секунды. Без знаков было найдено 5 млн результатов. Так же система уведомляет, что из-за знака «-» было исключено слово «сфу»
Рис. 6 Второй запрос Яндекс
Системой Гугл было выдано 0 результатов за 0.20 секунд. При этом без знаков было найдено только 649 сайтов.
Рис. 7 Второй запрос Гугл
Поисковой системой Бинг было выдано 14 тысяч результатов. Без знаков количество сайтов составило приблизительно 6 млн.
Рис.8 Второй запрос Бинг
Третий запрос «И скучно и грустно»
Поиск этой строчки из стихотворения Лермонтова с кавычками и без в Яндекс выдал одинаковое количество результатов, 4 тысячи.
Рис. 9 Третий запрос Яндекс
Поисковая система Гугл повела себя более предсказуемо. При поиске с кавычками нашла 80 тысяч результатов, а без 2 млн.
Рис. 10 Третий запрос Гугл
Бинг выдал 36 тысяч сайтов без кавычек и аналогичное количество без.
Рис. 11 Третий запрос Бинг