- •Етичний хакінг парсінг сайтів
- •Парсинг сайтів
- •Головне вікно програми
- •Налаштування кампании
- •Налаштування• У програмі є можливість досить
- •Налаштування
- •Обхід сторінок сайту
- •Налаштування
- •Приклад створення кампанії у програмі DataCol
- •Крок 1. Створюємо нову
- •Крок 2. Задаємо у майстрі
- •Крок 2. Задаємо у майстрі вхідні
- •Результат формування Xpath виразу для пошуку необхідних посилань на сайті
- •Крок 3. Вказуємо, яку інформацію необхідно зібрати
- •Крок 4. Формування Хpath
- •Переходимо на сторінку з описом товару
- •Для кожного поля з описом товару за допомогою майстру обираємо шаблони посилань
- •Крок 5. Запуск парсера сайту та отримання результатів
- •Завдання
Крок 2. Задаємо у майстрі
вхідні данні
DataCol розпочне парсінг сайт саме з заданої сторінки
Крок 2. Задаємо у майстрі вхідні
данні
Вказуємо DataCol як дістатись від начальної категорії до всіх категорій сторінки. Робимо це за допомогою за ХPAth. Щоб швидко іх сформувати використовуємо помічника
Результат формування Xpath виразу для пошуку необхідних посилань на сайті
Крок 3. Вказуємо, яку інформацію необхідно зібрати
• На |
наступному |
кроці |
|
вкажемо |
перелік |
полів |
|
даних, |
що сами |
ми |
|
бажаємо збирати |
|
||
Крок 4. Формування Хpath
виразів для полів
Запускаємо помічника для формування Xpath виразу для полів інформації, яку необхідно шукати
Переходимо на сторінку з описом товару
Для кожного поля з описом товару за допомогою майстру обираємо шаблони посилань
Крок 5. Запуск парсера сайту та отримання результатів
Завдання
Опишить алгоритм проведення парсингу засобами Data col. Яке налаштування програми є оптимальною? (Наприклад:
Количество потоков -2(5); Загрузка (попыток загрузок) - 5; Интервалы от 0 до 5; тайм аут соединения - 30; Кешировать страницы. Загрузчик – стандартний. Чи може інше налаштування згенерувати DoS атаку на сайт?
Роль Xpath та Regex виразів?
Які web ресурси Web парсингу/скрайпінгу ви знаєте? Порівняйте їх особливості.
Бонус. Виконати за допомогою DataCol парсінг будь якого інтернет магазину з метою сбору інформації про його товари.
