4-1 Етичний хакінг / ЛБ - 02_1 Парсінг сайтів
.docxМіністерство освіти і науки України
Харківський національний університет радіоелектроніки
Факультет Інфокомунікацій .
Кафедра Інфокомунікаційної інженерії імені В.В. Поповського
ЗВІТ
з лабораторного заняття №3
з дисципліни
Основи аналізу вразливостей та етичний хакінг
Тема заняття: «Парсінг сайтів»
Харків 2020 р.
МЕТА РОБОТИ
Метою роботи є дослідження, аналіз роботи парсера сайтів Data col. Виконати завдання та відповісти на питання, оформити звіт.
ХІД ВИКОНАННЯ
Опишить алгоритм проведення парсингу засобами Data col.
Алгоритм парсингу складається с декількох етапів, першим являється додавання та налаштування сайту. Присутня можливість досить гнучко налаштувати парсинг: налаштовувати кількість потоків та сторінок які будуть обролюватись, та інші параметри. Цей парсер використовується для збору інформації з подальшим її використанням.
Після налаштування даних компанії та вводу даних потрібно сформувати поле XPath для типів даних, що потрібно знайти.
Яке налаштування програми є оптимальною?
Роль Xpath та Regex виразів?
XPath - мова запитів до елементів XML-документа. Розроблено для організації доступу до частин документа XML в файлах трансформації XSLT. XPath покликаний реалізувати навігацію по DOM в XML. XML має деревоподібну структуру. У елемента дерева завжди існують нащадки і предки, крім кореневого елемента, у якого предків коментарі, а також тупикових елементів (листя дерева), в яких є нащадків. На кожному кроці шляху відбираються елементи, Відповідні умовами відбору на цьому кроці, і в результаті звернення по шляху до документа виходить безліч елементів, що задовольняють даному шляху.
Regex - це формальна мова пошуку і здійснення маніпуляцій з підрядками в тексті, заснований на використанні метасимволов. По суті це рядок-зразок, що складається з символів і метасимволов і задає правило пошуку. Найпростіше представляти регулярний вираз як трафаретку, яка накладається на ділянки тексту, щоб знайти збігаються з нею послідовності.
Які web ресурси web - парсингу/скрайпінгу ви знаєте? Порівняйте їх особливості.
Webhose.io забезпечує прямий доступ в реальному часі до структурованих даних, отриманих в результаті парсинга тисяч онлайн джерел. Цей парсер здатний збирати веб-дані на більш ніж 240 мовами і зберігати результати в різних форматах, включаючи XML, JSON і RSS.
Pinn3r дозволяє парсити дані з блогів, новинних стрічок, новинних каналів RSS і Atom, соціальних мереж. Spinn3r має «оновлюваний» API, який робить 95 відсотків роботи по індексації. Це передбачає вдосконалений захист від спаму і підвищений рівень безпеки даних.
Import.io пропонує розробнику легко формувати власні пакети даних: потрібно тільки імпортувати інформацію з певної веб-сторінки і експортувати її в CSV. Можна отримувати тисячі веб-сторінок за лічені хвилини, не написавши жодного рядка коду, і створювати тисячі API відповідно до ваших вимог.
Висновок
Парсер - це програма для автоматичного збору інформації c веб-сайтів. Datacol це універсальний парсер, який вміє збирати дані з будь-якого сайту або файлу, додатково їх обробити і зберігати результат роботи в файл, базу даних або відразу завантажити на сайт.
В ході даної роботи я дослідив та проаналізував аналіз роботи парсера сайтів Data col.
Завдання на лабораторну роботу виконано у повному обсязі.
