Добавил:
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4-1 Етичний хакінг / ЛБ - 02_0 DataCol. ukr.pptx
Скачиваний:
122
Добавлен:
02.02.2021
Размер:
3.15 Mб
Скачать

Крок 2. Задаємо у майстрі

вхідні данні

DataCol розпочне парсінг сайт саме з заданої сторінки

Крок 2. Задаємо у майстрі вхідні

данні

Вказуємо DataCol як дістатись від начальної категорії до всіх категорій сторінки. Робимо це за допомогою за ХPAth. Щоб швидко іх сформувати використовуємо помічника

Результат формування Xpath виразу для пошуку необхідних посилань на сайті

Крок 3. Вказуємо, яку інформацію необхідно зібрати

На

наступному

кроці

вкажемо

перелік

полів

даних,

що сами

ми

бажаємо збирати

 

Крок 4. Формування Хpath

виразів для полів

Запускаємо помічника для формування Xpath виразу для полів інформації, яку необхідно шукати

Переходимо на сторінку з описом товару

Для кожного поля з описом товару за допомогою майстру обираємо шаблони посилань

Крок 5. Запуск парсера сайту та отримання результатів

Завдання

Опишить алгоритм проведення парсингу засобами Data col. Яке налаштування програми є оптимальною? (Наприклад:

Количество потоков -2(5); Загрузка (попыток загрузок) - 5; Интервалы от 0 до 5; тайм аут соединения - 30; Кешировать страницы. Загрузчик – стандартний. Чи може інше налаштування згенерувати DoS атаку на сайт?

Роль Xpath та Regex виразів?

Які web ресурси Web парсингу/скрайпінгу ви знаєте? Порівняйте їх особливості.

Бонус. Виконати за допомогою DataCol парсінг будь якого інтернет магазину з метою сбору інформації про його товари.