Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПР / ПР№10_Хакова_Ю_М_ИСТ_223

.docx
Скачиваний:
0
Добавлен:
07.06.2026
Размер:
835.21 Кб
Скачать

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА»

(СПбГУТ)

Практическая работа №10

«Веб-скрапинг в R»

Выполнил: ст. гр. ИСТ-223 Хакова Ю. М.

Проверил: к.т.н., доцент Лабковская Р.Я.

Цель работы:

Познакомиться с основами веб-скрапинга и освоить его применение на практике с использованием языка R 

Ход работы

  1. Рассмотреть структуру HTML и CSS, изучить, как использовать их для выделения нужных элементов страницы. (рис. 1)

  2. Подготовить необходимые библиотеки rvest, selectr, xml2, jsonlite и tidyverse.(рис. 2)

  3. C помощью функции read_html() загрузить содержиме веб-страницы.

  4. С помощью html_nodes() и CSS-селекторов определены элементы, содержащие нужную информацию. (рис. 2)

  5. Извлечь текст с использованием функций html_text() и обработать данные. (рис. 3)

  6. Посчитать количество страниц. (рис. 4-5)

Рис. 1. Элемент в коде страницы, который нужно извлечь

Рис. 2. Программа для извлечения данных с сайта

Рис. 3. Вывод данных о фильмах. Извлечение из выбранного элемета текста, его преобразование в числовой тип данных

Рис. 4. Программа с дополнением для подсчета числа динамических страниц

Рис. 5. Подсчет количества динамических страниц

Вывод:

в ходе работы изучены основные принципы веб-скрапинга на языке R. Рассмотрены подходы к извлечению данных с использованием библиотек rvest, selectr, xml2, jsonlite и tidyverse, а также способы очистки и подготовки данных и работы с HTML-структурой страницы.

Во время работы было установлено, что сайт IMDb является динамическим, и для загрузки следующей порции фильмов (по 50 фильмов каждая) адрес страницы остаётся неизменным.

Санкт-Петербург

2024

Соседние файлы в папке ПР