Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практическая 1 с картинками.docx
Скачиваний:
15
Добавлен:
24.01.2023
Размер:
2.8 Mб
Скачать

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»

(СПбГУТ)

Кафедра безопасности информационных систем

ОТЧЁТ

по практической работе №1 на тему: «Поиск информации в сети Интернет. Браузеры»

по дисциплине «Основы интернет-технологий»

Выполнил: студент группы ИСТ-114, Медведева С.Г.

«» 2022 г. ___________/Медведева С.Г

Принял: Исупова Е. А.

« » 2022 г. ___________/Е.А. Исупова

СОДЕРЖАНИЕ

1 Цель работы

Ознакомиться с принципами работы поисковых систем, выявить основные

закономерности их работы. Исследовать функциональные характеристики web-браузеров. Выполнить сравнительную оценку web-браузеров по предлагаемым критериям качества.

2 Ход работы

2.1 Поисковые системы: классификация, назначение, принципы работы

Поисковая система – алгоритмы и реализующая их совокупность компьютерных программ, предоставляющая пользователю возможность быстрого доступа к необходимой информации при помощи поиска в обширной коллекции доступных данных.

Поисковые системы можно классифицировать с учетом географического признака.

  1. Глобальные. Поиск ведется по всему миру.

  2. Региональные. Поиск осуществляется по стране или группе стран, которых объединяет один язык.

  3. Местные. Поиск ведется в конкретном городе.

Так же поисковые системы можно классифицировать по месту поиска, например, поиск в интернет-магазинах, на форумах и блогах, на информационных ресурсах.

Общий принцип работы поисковых системы можно разделить на следующие этапы:

  1. Поиск и обход сайтов.

  2. Загрузка и обработка данных (индексирование).

  3. Определение релевантности.

  4. Ранжирование.

Для более глубокого анализа назначения, устройства и принципов работы была выбрана поисковая система от компании Яндекс, по причине личного использования.

Назначением поисковой системы Яндекс является нахождение нужной информации в интернете, при этом подстраиваясь под каждого пользователя.

В устройстве работы есть несколько основных этапов, а именно: нахождение и просмотр сайтов, загрузка и обратка данных(индексирование), определение релевантности, ранжирование. О каждом из этих этапов подробнее дальше.

Первым этапом, как было отмечено выше, является нахождение и обход сайтов. Узнать о существование какого-либо сайта это отдельная задача, которую компания Яндекс решает путем пользование услуг регистраторов, у которых они получают полный список сайтов. После чего в ход идет робот-паук и кравлер, задача которых обойти сайт c главной страницы или скачать технический документ Sitemap, тем самым узнав его содержание. Так как загрузить в базы все сайты технически невозможно, существует машинное обучение (Selection Rank), задача которого попытаться предсказать какая страница с больше вероятность будет полезна пользователю и загрузить ее в первую очередь.

Следующий этап — это индексирование. Его задача создание индекса, который используется для быстрого нахождения запрашиваемой информации на ресурсе. Компания пользуется алгоритмом «Палех». Задача этого алгоритма переводить текст в последовательность чисел ограниченной длинны. То есть поиск ищет не только по соответствию слов и синонимов, но и по смыслу.

После того, как пользователь вводит свой запрос, программа предоставляет перечень сайтов, которые по результатам индексирования содержат запрашиваемую информацию. Этот и есть определение релевантности страниц.

Последним этап происходит ранжирование ссылок, которые будут показаны пользователю. Ссылки на сайты выстраиваются в определенном порядке.

2.2 Поисковая выдача. Релевантность и её оценка.

Релевантность — это соответствие результата ожиданиям. В контексте поисковой выдачи релевантность демонстрирует, насколько точный развернутый ответ пользователь получил на свой запрос.

В результатах поиска наиболее релевантные страницы расположены наверху. То есть, чем лучше, по мнению поисковой системы, ресурс отвечает запросу пользователя — тем более высокую позицию он занимает.

Есть три типа релевантности, которые зависят от поведения конкретных лиц или программ:

  1. Формальная — означает, что решение принимает робот. Он автоматически сравнивает страницы в поисковой выдаче со своими представлениями об идеальном ответе на запрос. Таким образом на основе полученных данных он создает «рейтинг релевантных страниц».

  2. Содержательная — за релевантность отвечает живой человек — асессор. Он заходит на сайт, проводит аудит и выносит вердикт, насколько та или иная страница подходит запросу.

  3. Пертинентная — здесь за удовлетворение запросов людей отвечают непосредственно пользователи. Алгоритм простой — если люди переходят по запросу на страницу, значит, она подходит.

Поисковая выдача – веб-страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя.

Первый запрос «как сварить !гречку».

В поисковой системе Яндекс было выдано 5 тысяч результатов. Время – меньше секунды. Все сайты на первой старице выдачи соответствовали запросу, с критерием точность все хорошо. Так же были выданы различные сайты, что говорит о том, что с полнотой тоже все хорошо. Запрос без восклицательного знака нашел равное количество сайтов и выдал аналогичный сайты, из чего можно сделать вывод, что восклицательный знак роли не сыграл.

Рис. 1 Поисковый запрос Яндекс

Рис. 2 Запрос Яндекс

Поисковая система Гугл нашла примерно 229 тысяч результатов за 0.51 секунд. Все сайты соответствовали запросу и были различны. На странице выдачи не было повторяющихся сайтов. Без восклицательного знака было найдено на 24 тысячи сайтов больше, следовательно восклицательный знак влиял на поиск.

Рис. 3 Запрос Гугл

Рис. 4 Запрос Гугл

У поисковой системы Майкрософт Бинг было выдано 200 тысяч результатов. Время выдачи составило аналогично меньше секунды. Все сайты были посвящены теме запроса и так же были разнообразны. Без восклицательного знака количество найденных страниц не изменилось.

Рис. 5 Запрос Бинг

Второй запрос «расписание -сфу +спбгут»

Яндексом было найдено 3 тысячи результатов, время поиска составило меньше секунды. Без знаков было найдено 5 млн результатов. Так же система уведомляет, что из-за знака «-» было исключено слово «сфу»

Рис. 6 Второй запрос Яндекс

Системой Гугл было выдано 0 результатов за 0.20 секунд. При этом без знаков было найдено только 649 сайтов.

Рис. 7 Второй запрос Гугл

Поисковой системой Бинг было выдано 14 тысяч результатов. Без знаков количество сайтов составило приблизительно 6 млн.

Рис.8 Второй запрос Бинг

Третий запрос «И скучно и грустно»

Поиск этой строчки из стихотворения Лермонтова с кавычками и без в Яндекс выдал одинаковое количество результатов, 4 тысячи.

Рис. 9 Третий запрос Яндекс

Поисковая система Гугл повела себя более предсказуемо. При поиске с кавычками нашла 80 тысяч результатов, а без 2 млн.

Рис. 10 Третий запрос Гугл

Бинг выдал 36 тысяч сайтов без кавычек и аналогичное количество без.

Рис. 11 Третий запрос Бинг

Соседние файлы в предмете Основы интернет технологий