Добавил:
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4-1 Етичний хакінг / ЛБ - 02_1 Парсінг сайтів

.docx
Скачиваний:
126
Добавлен:
02.02.2021
Размер:
457.07 Кб
Скачать

Міністерство освіти і науки України

Харківський національний університет радіоелектроніки

Факультет Інфокомунікацій .

Кафедра Інфокомунікаційної інженерії імені В.В. Поповського

ЗВІТ

з лабораторного заняття №3

з дисципліни

Основи аналізу вразливостей та етичний хакінг

Тема заняття: «Парсінг сайтів»

Харків 2020 р.

МЕТА РОБОТИ

Метою роботи є дослідження, аналіз роботи парсера сайтів Data col. Виконати завдання та відповісти на питання, оформити звіт.

ХІД ВИКОНАННЯ

  1. Опишить алгоритм проведення парсингу засобами Data col.

Алгоритм парсингу складається с декількох етапів, першим являється додавання та налаштування сайту. Присутня можливість досить гнучко налаштувати парсинг: налаштовувати кількість потоків та сторінок які будуть обролюватись, та інші параметри. Цей парсер використовується для збору інформації з подальшим її використанням.

Після налаштування даних компанії та вводу даних потрібно сформувати поле XPath для типів даних, що потрібно знайти.

  1. Яке налаштування програми є оптимальною?

  1. Роль Xpath та Regex виразів?

XPath - мова запитів до елементів XML-документа. Розроблено для організації доступу до частин документа XML в файлах трансформації XSLT. XPath покликаний реалізувати навігацію по DOM в XML. XML має деревоподібну структуру. У елемента дерева завжди існують нащадки і предки, крім кореневого елемента, у якого предків коментарі, а також тупикових елементів (листя дерева), в яких є нащадків. На кожному кроці шляху відбираються елементи, Відповідні умовами відбору на цьому кроці, і в результаті звернення по шляху до документа виходить безліч елементів, що задовольняють даному шляху.

Regex - це формальна мова пошуку і здійснення маніпуляцій з підрядками в тексті, заснований на використанні метасимволов. По суті це рядок-зразок, що складається з символів і метасимволов і задає правило пошуку. Найпростіше представляти регулярний вираз як трафаретку, яка накладається на ділянки тексту, щоб знайти збігаються з нею послідовності.

  1. Які web ресурси web - парсингу/скрайпінгу ви знаєте? Порівняйте їх особливості.

Webhose.io забезпечує прямий доступ в реальному часі до структурованих даних, отриманих в результаті парсинга тисяч онлайн джерел. Цей парсер здатний збирати веб-дані на більш ніж 240 мовами і зберігати результати в різних форматах, включаючи XML, JSON і RSS.

Pinn3r дозволяє парсити дані з блогів, новинних стрічок, новинних каналів RSS і Atom, соціальних мереж. Spinn3r має «оновлюваний» API, який робить 95 відсотків роботи по індексації. Це передбачає вдосконалений захист від спаму і підвищений рівень безпеки даних.

Import.io пропонує розробнику легко формувати власні пакети даних: потрібно тільки імпортувати інформацію з певної веб-сторінки і експортувати її в CSV. Можна отримувати тисячі веб-сторінок за лічені хвилини, не написавши жодного рядка коду, і створювати тисячі API відповідно до ваших вимог.

Висновок

Парсер - це програма для автоматичного збору інформації c веб-сайтів. Datacol це універсальний парсер, який вміє збирати дані з будь-якого сайту або файлу, додатково їх обробити і зберігати результат роботи в файл, базу даних або відразу завантажити на сайт.

В ході даної роботи я дослідив та проаналізував аналіз роботи парсера сайтів Data col.

Завдання на лабораторну роботу виконано у повному обсязі.