Добавил:
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4-1 Етичний хакінг / ПЗ - 01_1 Web Scrapers

.docx
Скачиваний:
126
Добавлен:
02.02.2021
Размер:
19.48 Кб
Скачать

Міністерство освіти і науки України

Харківський національний університет радіоелектроніки

Факультет Інфокомунікацій .

(повна назва)

Кафедра Інфокомунікаційної інженерії імені В.В. Поповського .

(повна назва)

ЗВІТ

з практичного заняття №2

з дисципліни

Основи аналізу вразливостей та етичний хакінг

Тема заняття: Web Scrapers/Parsers

2020 р.

1. Яке налаштування програми є оптимальною?

(Наприклад: Количество потоков -2(5); Загрузка (попыток загрузок) - 5; Интервалы от 0 до 5; тайм аут соединения - 30; 

Кешировать страницы. Загрузчик – стандартний. 

Чи може інше налаштування згенерувати DoS атаку на сайт? 

Datacol SEO

в уникненні блокувань парсинг сайтів бажано проводити в один потік і з затримкою завантаження сторінок, для імітації роботи звичайної людини.

Можна прискорити парсинг сайтів, використовуючи якісні проксі сервера. Збільшити кількість потоків, в яких парсер буде завантажувати сторінки сайту і зменшити інтервал між завантаженнями сторінок сайту.

Але чим вище швидкість збору даних, тим більше проксі серверів потрібно для якісної завантаження сторінок сайту

Оптимальні настройки, щоб мінімізувати ймовірність DOS атаки

Кількість потоків - 2; Завантаження (спроб завантажень) - 1; Інтервали від 0 до 5; тайм аут з'єднання - 10;

Також, можливо використовувати проксі

Збільшує ймовірність dos атаки: Кількість потоків - 2; Завантаження (спроб завантажень) - 3; Інтервали від 0 до 5; тайм аут з'єднання - 7; Варто очистити кеш перед використанням кешування сторінок

2. Роль Xpath та Regex виразів?

Вираз XPath зазвичай визначає шаблон для вибору набору вузлів. Ці шаблони використовуються XSLT для виконання перетворень або XPointer для цілей адресації.

Специфікація XPath визначає сім типів вузлів, які можуть бути результатом виконання виразу XPath.

  • корінь

  • елемент

  • текст

  • атрибут

  • коментар

  • Інструкція по обробці

  • простір імен

XPath використовує вираз шляху для вибору вузла або списку вузлів в документі XML.

Регулярні вирази (англ. Regular expressions) - формальна мова пошуку і здійснення маніпуляцій з підрядками в тексті, заснований на використанні метасимволов (символів-джокерів, англ. Wildcard characters). Для пошуку використовується рядок-зразок (англ. Pattern, по-російськи її часто називають «шаблоном», «маскою»), що складається з символів і метасимволов і задає правило пошуку. Для маніпуляцій з текстом додатково задається рядок заміни, яка також може містити в собі спеціальні символи.

Набір утиліт (включаючи редактор sed і фільтр grep), що поставляються в дистрибутивах UNIX, одним з перших сприяв популяризації регулярних виразів для обробки текстів. Багато сучасні мови програмування мають вбудовану підтримку регулярних виразів. Серед них ActionScript, Perl, Java [1], PHP, JavaScript, мови платформи .NET Framework [2], Python, Tcl, Ruby, Lua, Gambas, C ++ (стандарт 2011 року), Delphi, D, Haxe і інші.

Регулярні вирази використовуються деякими текстовими редакторами і утилітами для пошуку і підстановки тексту. Наприклад, за допомогою регулярних виразів можна задати шаблони, що дозволяють:

  • знайти всі послідовності символів «кіт» в будь-якому контексті, як то: «кіт», «котлета», «теракотовий»;

  • знайти окрема слово «кіт» і замінити його на «кішка»;

  • знайти слово «кіт», якому передує слово «перський» або «чеширський»;

  • прибрати з тексту всі пропозиції, в яких згадується слово кіт або кішка.

Регулярні вирази дозволяють задавати і набагато більш складні шаблони пошуку або заміни.

Результатом роботи з регулярним виразом може бути:

  • перевірка наявності шуканого зразка в заданому тексті;

  • визначення подстроки тексту, яка зіставляється зразком;

  • визначення груп символів, відповідних окремих частин зразка.

3. Які web ресурси web - парсингу/скрайпінгу ви знаєте? Порівняйте їх особливості.

1. Allrival

Сервіс пропонує автоматизований парсинг будь-яких сайтів з будь-яких пошукових систем. Програма надає користувачеві зручний і інтуїтивно зрозумілий інтерфейс. Інструмент підвладний будь-кому, навіть того, хто далекий від оптимізації сайту.

На головній сторінці сервіс пропонує цілий відеоряд з інструкцією по використанню програми. можливості:

  • API інтеграція

  • Автосопоставленіе товарів з можливістю ручного зіставлення

  • Вивантаження даних в будь-якому форматі

  • Парсинг сайтів будь-яких регіонів

  • Перехід в особистий кабінет не вимагає реєстрації

  • Парсинг двох сайтів безкоштовно

  • Можливість створити гостьовий аккаунт

Вартість стартового парсеру - 3 000 в місяць на перші 15 сайтів. Є можливість запросити індивідуальний парсер.

Сервіс надає безстроковий безкоштовний особистий кабінет.

2. Allpositions

Сервіс надає зручний моніторинг сайтів з простим і інтуїтивно зрозумілим інтерфейсом.

Розрахунки здійснюються за допомогою "монети", однак, сервіс дає можливість ознайомитися з програмою безкоштовно. Для цього кожному користувачеві надавала 1000 монет відразу після проходження реєстрації.

Можливості:

  • Підтримка Яндекс, Google і Mail.ru

  • Програма надає звіти у форматі CSV і XML

  • Кількість запитів не обмежена

  • Сервіс пропонує 5 варіантів періодичності перевірок позицій

  • Програма надає гостьовий доступ

  • Число сайтів для парсинга не обмежена

  • Можливість підключити статистику Google Analytics

Ціна за одну перевірку - 0,14 р. Це одна "монета".

У сервісу є система знижок. Чим більше монет ви купуєте, тим менше ви за них сплачуете.