ПР / ПР№10_Хакова_Ю_М_ИСТ_223
.docxФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»
(СПбГУТ)
Практическая работа №10
«Веб-скрапинг в R»
Выполнил: ст. гр. ИСТ-223 Хакова Ю. М.
Проверил: к.т.н., доцент Лабковская Р.Я.
Цель работы:
Познакомиться с основами веб-скрапинга и освоить его применение на практике с использованием языка R
Ход работы
Рассмотреть структуру HTML и CSS, изучить, как использовать их для выделения нужных элементов страницы. (рис. 1)
Подготовить необходимые библиотеки rvest, selectr, xml2, jsonlite и tidyverse.(рис. 2)
C помощью функции read_html() загрузить содержиме веб-страницы.
С помощью html_nodes() и CSS-селекторов определены элементы, содержащие нужную информацию. (рис. 2)
Извлечь текст с использованием функций html_text() и обработать данные. (рис. 3)
Посчитать количество страниц. (рис. 4-5)
Рис. 1. Элемент в коде страницы, который нужно извлечь
Рис. 2. Программа для извлечения данных с сайта
Рис. 3. Вывод данных о фильмах. Извлечение из выбранного элемета текста, его преобразование в числовой тип данных
Рис. 4. Программа с дополнением для подсчета числа динамических страниц
Рис. 5. Подсчет количества динамических страниц
Вывод:
в ходе работы изучены основные принципы веб-скрапинга на языке R. Рассмотрены подходы к извлечению данных с использованием библиотек rvest, selectr, xml2, jsonlite и tidyverse, а также способы очистки и подготовки данных и работы с HTML-структурой страницы.
Во время работы было установлено, что сайт IMDb является динамическим, и для загрузки следующей порции фильмов (по 50 фильмов каждая) адрес страницы остаётся неизменным.
Санкт-Петербург
2024
