ПР / ПР№10_Хакова_Ю_М_ИСТ_223

.docx

Скачиваний:

Добавлен:

07.06.2026

Размер:

835.21 Кб

Скачать

☆

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»

(СПбГУТ)

Практическая работа №10

«Веб-скрапинг в R»

Выполнил: ст. гр. ИСТ-223 Хакова Ю. М.

Проверил: к.т.н., доцент Лабковская Р.Я.

Цель работы:

Познакомиться с основами веб-скрапинга и освоить его применение на практике с использованием языка R

Ход работы

Рассмотреть структуру HTML и CSS, изучить, как использовать их для выделения нужных элементов страницы. (рис. 1)
Подготовить необходимые библиотеки rvest, selectr, xml2, jsonlite и tidyverse.(рис. 2)
C помощью функции read_html() загрузить содержиме веб-страницы.
С помощью html_nodes() и CSS-селекторов определены элементы, содержащие нужную информацию. (рис. 2)
Извлечь текст с использованием функций html_text() и обработать данные. (рис. 3)
Посчитать количество страниц. (рис. 4-5)

Рис. 1. Элемент в коде страницы, который нужно извлечь

Рис. 2. Программа для извлечения данных с сайта

Рис. 3. Вывод данных о фильмах. Извлечение из выбранного элемета текста, его преобразование в числовой тип данных

Рис. 4. Программа с дополнением для подсчета числа динамических страниц

Рис. 5. Подсчет количества динамических страниц

Вывод:

в ходе работы изучены основные принципы веб-скрапинга на языке R. Рассмотрены подходы к извлечению данных с использованием библиотек rvest, selectr, xml2, jsonlite и tidyverse, а также способы очистки и подготовки данных и работы с HTML-структурой страницы.

Во время работы было установлено, что сайт IMDb является динамическим, и для загрузки следующей порции фильмов (по 50 фильмов каждая) адрес страницы остаётся неизменным.

Санкт-Петербург

2024

Соседние файлы в папке ПР

#
07.06.2026835.21 Кб0ПР№10_Хакова_Ю_М_ИСТ_223.docx
#
07.06.2026798.16 Кб0ПР№5_Хакова_ИСТ-223.docx
#
07.06.2026652.11 Кб0ПР№7_Хакова_Ю_М_ИСТ_223.pdf
#
07.06.2026750.65 Кб0ПР№8_Хакова_ЮМ_ИСТ_223.docx