
- •Программа «Универсальный парсер поисковых систем WebParser» Руководство по установке и работе с программой
- •Оглавление
- •1. Лицензия и устранение проблем запуска
- •1.1 Условия распространения лицензии
- •1.2 Регистрация и устранение проблем с запуском приложения
- •1.3 Разблокировка лицензии
- •1.4 Установка сервера FireBird
- •1.5 Смена языка приложения
- •1.6 Отключение Брандмауэра Windows
- •1.7 Отключение режима dep
- •В Windows xp
- •В Windows Vista
- •В Windows 7
- •2 Знакомство с программой
- •2.1 Парсинг
- •2.1.1 Начало парсинга
- •2.1.2 Вкладка парсинг
- •2.1.3 Типы поиска
- •2.1.4 Как добавить поисковую систему
- •2.1.5 Как настроить анализатор
- •2.1.6 Парсинг с использованием прокси
- •2.1.7 Ключ Antigate
- •3 Другие вопросы
2.1.5 Как настроить анализатор
Заходим -> Справочники-> Анализаторы, видим перед собой все добавленные CMS в программе, которые вы можете редактировать, а также добавлять новые.
Добавляем новую CMS:
Код Анализатора: Порядковый номер в списке
Анализатор: Название CMS, которую добавляете
Использовать Анализатор: Да/нет, решает показывать в списке CMS или нет.
Тип ссылок: для начала разберем, какие типы ссылок имеются в программе и для чего они предназначены
Content - поиск определенного текста в содержимом главной страницы. 3.2. Find URL - Проверка только содержимого текста в самом заголовке URL 3.4.1 Add URL Content - Проверка на существование определенной ссылки добавляемой к URL - HEAD запрос. Чтобы использовать данный режим для поиска CMS - выберите тип анализатора - Add URL Content и оставьте пустыми поля "Анализ содержимого добавочных URL" 3.4.2 Add URL Content - Проверка на существование определенного текста в содержимом добавочной ссылки к URL - GET запрос. Чтобы использовать данный режим для поиска CMS - выберите тип анализатора - Add URL Content и введите в поле "Анализ содержимого добавочных URL" нужный искомый текст. Для анализатора устанавливается ТИП Ссылок - в каком виде сохранить ссылки в парвый список: Only Short Links - будет сохранен только домен (поиск CMS выполняется только в корневой папке) Short or Folder Links - будет сохранен либо домен либо папка, в зависимости от того, где будет найдена искомая CMS Short or Folder or Full - будет сохранен либо только домен либо папка, либо полная ссылка в зависимости от того, где будет найдена искомая CMS Only Full links - будет сохранена только полная ссылка (поиск CMS выполняется только в полной ссылке)
Настройки программы
Задержка поисковика – задержка между отправкой поисковых запросов, если при стандартной задержке вас все устраивает, лучше оставьте, так как есть, если же капча выдается очень часто, увеличивайте.
Проверять страниц – сколько страниц проверять у поисковика, максимально 100 страниц.
Путь к файлу с базой сайтов – тут указывается имя текстового документа, который находиться в корне папки с программой. (Только для файлового режима)
Не останавливать поиск если сайты не найдены – советуем включить данную функцию, т.к. при отправке мелких запросах, программа останавливается из за того что не находит ссылки.
2.1.6 Парсинг с использованием прокси
Настройки -> Список прокси для парсинга посиковой системы Если галочка отключена то парсинг идет с вашего локального IP Если включена то из заданного списка прокси. Нажимая редактировать список прокси видим форму. Левый спсиок - список рабочих прокси, правый список - не рабочие прокси В программу встроен прокси-чекер.
Опции прокси чекера:
1) Макс время отклика прокси при проверке в милисекундах. При чекинге прокси, если она не отвечает в течение указанного времени, она будет занесена в черный список.
2) Проверять прокси перед использованием, если галочка включена и задано время, то при парсинге, если время последней проверки прокси было более чем указанное число в миллисекундах, то будет выполнен его повторный чекинг. Если вы уверены в вашем прокси (например платные хорошие прокси), то данная опция вам не понадобится
3) Неактивность прокси при появлении каптчи. Если каптча для прокси найдена, то прокси будет не рабочей в течении указанного вреемни. Не советуем включать данную опцию если не особо понимаете ее смысл, т.к. практически для всех прокси нужен ввод каптчи хотя бы 1 раз. Если включаете опцию то может оказаться что все прокси были занесены в список ожидания, об этом программа вас проинформирует в логах.
Развеем мнения людей насчет прокси:
Не используйте прокси с слабым локальным каналом интернет сети и публичными медленными прокси:
Все люди почему то считают, что чем больше прокси вы введете и выставите потоков для парсинга тем быстрее вы соберете базу ссылок.
Это ошибочное мнение, если у вас плохие прокси и слабый канал, то использование прокси не имеет смысла.
Почему сложилось такое мнение: дело в том что все парсеры (за исключение нашего) не умеют работаь с сессиями и кукисами, по крайней мере нет таких парсеров, которые бы хранили эти данные для каждой прокси, поэтому люди чтобы избежать бана и используют огромные списки прокси.
Наш парсер имеет уникальный движок, который хранит сессии для каждого IP адреса и эмулирует человеческое поведение.
Поэтому поисковая система не понимает что это парсер, если вы парсите ее с использованием разумного количества потоков (рекумендуем использовать на одну поисковую систему не более 10 потоков). В результате вы получаете всего 1 каптчу на несколько тысяч запросов. И это с задержкой в 50-80 милисекунд между запросам! Выбрав 2 поисковика можем использовать уже 20 поисковых потоков.
А теперь выполним небольшой математический расчет. Средняя публичная прокси выполняет запрос в течении 10-15 секунд .
Это значит за 15 секунд в 15 потоков для 15 прокси вы обработаете 15 запросов, т.е. в секунду 1.5 запросов с использованием 15 проски. Чтобы прокси не тормозили парсинг и выполняли 15 запросов в секунду вам нужно иметь 15 / 1.5 = 10, т.е. в 10 раз больше прокси и открытых потоков. Получаем 150 потоков и 150 рабочих прокси.
Теперь если наш канал позволяет обработать всего на всего 15 потоков, то зачем нам прокси? Данную нагрузку программа выдержит без проблем, плюс ко всему от проски могут быть задержки, может быть потеряна выдача, проксии может не поддерживать POST запросы.
Как написано выше 20 потоков для 2х поисковиков вполне реально. Даже 30 реально.
А 30 потоков с локалки = 300 прокси потоков.
И то наврятли ваша сеть имеет такой входящий трафик средняя величина запроса GET к яндексу равна 50кб, к гуглу 60кб.
Т.е. чтобы обработать 30 потоков вам надо иметь пропускную способность в ~ 30*50кб = 1500 килобайт/секунду.
Что может позволит не каждый. Тогда о чем тут говорить для 300 потоков прокси?