Добавил:
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4-1 Етичний хакінг / ЛБ - 02_0 DataCol. ukr.pptx
Скачиваний:
122
Добавлен:
02.02.2021
Размер:
3.15 Mб
Скачать

Етичний хакінг парсінг сайтів

Парсинг сайтів

Для наповнення свого сайту контентом часто виникає необхідність зібрати інформацію з якогось чужого ресурсу, щоб потім використовувати її в своєму проекті. Наприклад, для туристичних сайтів потрібні бази готелів, для магазинів - бази товарів і т.д.

Процес автоматичного виокремлення потрібної інформації з сайту називається парсинга. Часто подібне завдання вирішують за допомогою програміста, але сьогодні я розповім про програму Datacol, яка дозволяє парсити багато сайтів без уміння програмувати.

Головне вікно програми

Налаштування кампании

Нажать кнопку "Додати кампанію", ввести назву кампанії (раджу називати по імені сайту) в діалозі і вибрати тип кампанії "парсер".

Після натискання кнопки створити, відкриється вікно налаштування кампанії

НалаштуванняУ програмі є можливість досить

гнучко налаштувати парсинг: Можна збирати дані відразу в кілька потоків, а можна робити це обережно, роблячи паузи між сторінками, щоб мінімізувати ймовірність DoS атаки.

Це дозволяє не витрачати час на повторне звернення до сайту, що дуже зручно в процесі настройки та тестування парсинга. Коли кампанія буде повністю налаштована і ви почнете збір даних, вимкніть кешування.

Якщо сайт бореться з автоматичним збором даних, вам стане в нагоді можливість завдання списку проксі, через які буде відбуватися завантаження сторінок. Причому Datacol вміє перевіряти їх працездатність

Налаштування

На деяких сайтах потрібна інформація може бути доступна тільки зареєстрованим користувачам. Для цього є розділ "Авторизація"

Обхід сторінок сайту

• Перейдемо

 

тепер

до

безпосередньо

парсингу, Який

складається

з

двох кроків:

отримання

 

сторінок

з

потрібними

нам даними

і

безпосередньо

парсинг

цікавлять нас даних зі сторінок сайту.

• Перший крок налаштовується за допомогою закладки "Навігація".

Для початку роботи необхідно вказати як мінімум один url , з якого почнеться завантаження сторінок сайту.

Налаштування

далі треба вказати, які посилання (url) Використовувати для завантаження повного списку і сторінок самих показників пошуку. Зробити це можна двома способами: за допомогою XPath і за допомогою

регулярних виразів. Обидва ці інструменту непрості для розуміння і вимагають ретельного вивчення для осмисленого застосування.

розробники Datacol зробили спеціальний помічник, який вміє складати XPath запити і регулярні вирази замість вас.

Приклад створення кампанії у програмі DataCol

Крок 1. Створюємо нову

кампанію за допомогою майстра