Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
WebParser_FAQ.doc
Скачиваний:
0
Добавлен:
01.02.2020
Размер:
243.2 Кб
Скачать

2.1.2 Вкладка парсинг

Для начала парсинга нам нужно выбрать те или иные поисковые системы в которых будет производиться парсинг(включать или отключать вывод поисковых систем на экране программы, можно зайдя в справочники-поисковые системы)

Важно: Не нужно выбирать несколько одинаковых поисковиков:

Google Search API – требует поисковой ключ ( вставить можно в справочниках – поисковых системах) Позволяет искать 8 ссылок на странице, всего 8 страниц, без капчи, задержек и бана.

Для Yahoo тоже есть API, но в связи с переходом yahoo на поисковой движок Микрософта bing, данной функционал отключен.

Не нужно включать Google.ru и Google.com единовременно, это увеличивает ваши шансы на то чтобы наткнуться на бан поисковика.

Tut.by – замена поисковика Яндекс.ру, меньше выдает капчу.

Rambler.ru – замена поисковика Яндекс.ру, меньше выдает капчу.

После выбора поисковых систем, приступим к настройке фильтра и потоков:

Потоки на парсинг: Зависит от того, какой у вас канал и сколько выбрано поисковиков. Из расчета на 1 поисковик – 10 потоков. При канале 50 мб/с , парсинг до 100 потоков. Чем больше потоков, тем больше риск бана, и большей траты на капчу.

Далее выбираем CMS для анализа, если вам не нужен анализ на CMS выбираете все ссылки. Быстрый анализ, предназначен для отбора по добавочным урлам, которые указаны в справочники-анализаторы( у каждой CMS). В фильтре анализа вы можете выбрать от какого тиц ,пр и AlexRank добавлять сайты в правый столбик.

Для того, чтобы вывести в таблицу значения Тиц, Пр, Alexrank (доступно только при работе с базой данных), вам нужно нажать «Настроить внешний вид и столбцы таблицы».

Потоки для Анализа зависит от канала и загруженности компьютера : рекомендовано до 1000.

Все ссылки в левой колонке "временные". Если ссылок слева немного, то программа также отсекает идентичные ссылки. Но когда их много отсечка отключается автоматом, чтобы не нагружать процессор, при этом отсечка дублей происходит во время их анализа с помощью Анализаторов.

Есть 2 вида исключения дублей:

1) Исключение полностью идентичных ссылок 2) Исключение ссылок в пределах домена (будут найдена первая ссылка по домену, при нахождении ссылки с данным доменом повторно, она не будет включена в список) После анализа ссылок они автоматически добавляются в правый список.

2.1.3 Типы поиска

Домены – выделяется только домен (сайт.ру)

Домены с папками – выделается только домены с папками ( сайт.ру/папка)

Полные ссылки – ссылка сохраняется такой же, какой берет из поисковика, при это удаляя мусор из урла. (сайт.ру/папка/новость.пхп)

2.1.4 Как добавить поисковую систему

Рассмотрим добавление поисковой системы на google.com , для начала добавления нам нужно перейти в Справочники -> Поисковые системы

Прежде, чем начать добавление поисковой системы, нам нужно понять, как работают настройки для поисковиков и для чего они служат.

Тип Парсера

  1. Код ПС – это порядковый номер поисковой системы в с списке, не влияет на работу парсера.

  2. Поисковая Система – Название Поисковика

  3. Использовать поисковик – При выборе значение «Да», поисковик будет появляться в списке под поисковой фразы для дальнейшей работы с поисковиком. При выборе «Нет», поисковик будет исключен из списка, но настройки сохраняться.

  4. Тип Парсера :

а) Парсер (Перебор DOM элементов) – данный режим требует минимальное количество настроек парсит все ссылки указанные на страницы. Больше подходит для парсинга каталога, отдельных страниц и т.д. Использует общие кукисы для всех поисковиков.

б) Парсер (Регулярные выражения) – данный режим требует много времени на настройку, знание регулярных выражений, но работает лучше и не требует изменений, если даже поисковик изменил вывод ссылок.

в) Быстрый Парсер – работает быстро, меньше нагружает систему, но не работает с капчей.

г) Быстрый Парсер 2 – работает быстро, употребляет меньше трафика.

Тип поиска ссылок

  1. Строковой поиск – при данном режиме, вам не требуется настройка полей связанных с регулярными выражениями. Более простая настройка, но требует поправки при изменении алгоритмов работы поисковых систем.

  2. Регулярные выражения – требует настройки полей связанных с регулярными выражениями, более сложная настройка. Не требует поправок при изменений алгоритмов работы поисковых систем.

Хост (Поисковой признак URL) – URL поисковика, каталога для обработки программой.

Поисковой ключ – Данный ключ применяется в том случае, если он требуется в той поисковой системе, которую добавляете.

Исключаемые результаты – Здесь вы указываете URL, HTML код, для того, чтобы программа не парсила данный кусок кода или ссылки.

Капча (текстовый признак) – Вы должны указать путь картинки для того, чтобы программа смогла определить ее и отправить вам или в сервис для распознавания капчи.

Капча ID (текстовый признак) – здесь вы указываете переменную начала капчи.

Капча ID (элемент ввода) – здесь вы указываете элемент ввода капчи.

Шаблон URLздесь вы указываете URL поисковой системы, после ввода поискового запроса, а потом заменяете изменяемые части на свои переменные, а именно:

(QUERY) – поисковой запрос

(PAGE_SIZE) – количество ссылок на странице

(PAGE_NUM) – номер страницы на которой находиться программа

(ZONE) – регион, или город, который вам нужен

(LANG) – язык, которому отдается предпочтение при поиске

Ссылок на странице – вы указываете сколько ссылок на странице у поисковика, для правильного подсчета страниц программой.

Поиск ссылок (НАЧАЛО) – вы указываете, как у поисковика в html, обозначается начало ссылки, чтобы не брать лишнего мусора.

Поиск ссылок (КОНЕЦ) – вы указываете, как у поисковика в html, обозначается конец ссылки, чтобы не брать лишнего мусора.

Поиск ссылок (Регулярные выражения) Фильтр ссылок ( Регулярные выражения) – для работы с данными режимами парсинга, вам нужно изучить регулярные выражения, они необходим если вы работаете с Парсер (Регулярные выражения) и Типом поиска ссылок (Регулярные выражения) в остальных случаях они не нужны.

Строка поиска (Обозначение) – в шаблоне URL поисковика, есть обозначение, где вводиться запрос и где вы вставляете переменную (QUERY).

Страница (Обозначение) – в шаблоне URL поисковика, есть обозначение, где указывается страница, на которой сейчас вы находиться и где вы вставляете переменную (PAGE_NUM)

Ссылок на странице (Обозначение) – в шаблоне URL поисковика, есть обозначение, где указывается ссылок на странице и где вы вставляете переменную (PAGE_SIZE)

Язык сайта (Обозначение) – у каждого поисковика, имеется свое обозначение языков, программа использует данное обозначение и подставляет языки, и при поиске предпочтение отдается сайтам, которые на том или ином языке. ( также вы можете это найти в шаблоне URL)

Остальные параметры уже зависит от той поисковой системы, которую вы добавляете.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]