Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
WebParser_FAQ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
243.2 Кб
Скачать
  1. В Windows Vista

– нажмите кнопку Пуск; – в строке Начать поиск введите cmd; – под заголовком Программы щелкните правой кнопкой мыши cmd.exe; – из контекстного меню выберите Запуск от имени администратора; – введите пароль администратора, если появится соответствующий запрос; – после приглашения системы введите команду bcdedit.exe /set nx AlwaysOff – нажмите Enter; – появится сообщение Операция успешно завершена; – закройте окно Интерпретатора команд Windows. Примечания 1. По умолчанию используется значение bcdedit.exe /set {current} nx OptIn. 2. bcdedit.exe /set {current} nx AlwaysOff означает, что функция DEP отключена для всей системы, независимо от наличия аппаратной поддержки DEP. 

  1. В Windows 7

– войдите в систему с учетной записью Администратор или члена группы Администраторы; – нажмите Пуск –> Панель управления –> Система; – в открывшемся окне Свойства системы откройте вкладку Дополнительно –> Быстродействие –> Параметры…; – в открывшемся окне Параметры быстродействия откройте вкладку Предотвращение выполнения данных; – введите пароль администратора или подтверждение пароля, если появится соответствующий запрос;

2 Знакомство с программой

2.1 Парсинг

2.1.1 Начало парсинга

Для того чтобы начать парсинг, вам нужно выполнить несколько пунктов и изучить некоторые функции программы Webparser.

Настроим программу по вашим требованиям, перейдя во вкладку настройки:

  1. Задержка поисковика – задержка между отправкой запросов к поисковым системам, чем больше тем, меньше вероятности получить бан и потратить больше капчи;

  2. Проверять страниц – Количество страниц для парсинга в поисковых системах макс. 100;

  3. Путь к файлу с базой сайтов – Здесь вы указываете имя файла, который находиться в корне папки Webparser, туда будут сохраняться все ссылки после анализа программой. ( Доступно для режима работы с файлами);

  4. Если вы отлучаетесь на долгое время, поставьте галочку не останавливать парсинг если сайты не найдены;

  5. Использовать скины – советуем отключать при большом парсинге, для меньшей нагрузки программы;

  6. Ключ антигейт или капчабот вставлять обязательно если не хотите вводить капчу в ручную.

Настроили программу под свои требования теперь мы можем изучить вкладки поисковые фразы и доп. фразы.

Поисковые фразы: это фразы, которые будут отсылаться поисковику для сбора сайтов.

Доп. фразы, помогают точнее отбирать те сайты которые вам нужны в поисковике фраза + доп. фраза будет выглядеть так:

Машина(ваша поисковая фраза) inurl:index.php (ваша доп. фраза)

Генератор поисковых фраз: помогает сгенерировать поисковые фразы за определенные даты, тем самым собрать намного больше сайтов по определенным запросам. Для того чтобы воспользоваться данной опцией, вам всего лишь нужно указать поисковую фразу и период за который вы хотите просмотреть выдачу поисковика.

Само по себе устройство поисковой системы таково, что глубже 1000й ссылки невозможно собрать выдачу яндекса, какая бы это не была программа. Есть только возможность крутить поисковую фразу с другими словами и параметрами, для получения большего количества ссылок по интересующей вас теме, примерно так работает BabloPars, крутит фразу по разным регионам от разных IP и за все даты, тоже самое умеет делать и WebParser, все что нужно задать доп. фразы и сгенерировать запросы по дате.

Итак, в WebParser есть генератор поисковых фраз. Вы задаете поисковую фразу, шаблон и промежуток времени (дат) за который собрать выдачу, а он вам выдает поисковые фразы. Генератор поддерживает любой формат даты.

Примеры шаблонов можно увидеть по кнопке Макро шаблоны справа вверху на форме Генератора фраз.

Например GOOGLE (Use Julian Date): inurl:{QUERY} daterange:{START_DATE}-{END_DATE} YANDEX: inurl:{QUERY} date:{START_DATE}..{END_DATE} Получаем для гугла по фразе addnews.html inurl:addnews.html daterange:2453737-2453747 inurl:addnews.html daterange:2453747-2453757 inurl:addnews.html daterange:2453757-2453767 Для яндекса inurl:addnews.html date:20060101..20060111 inurl:addnews.html date:20060111..20060121 inurl:addnews.html date:20060121..20060131 Не забывает что для яндекса формат даты yyyymmdd, а для гугла это Юлианская дата (в unix формате) Прибавляя к фразам еще и Дополнительные фразы получаем всю выдачу яндекса или другого поисковика по интересующей фразе. Например выбрав Группу дополнительных фраз "Форумы", получим еще дополнительно 150 доп. фраз Это значит что каждая фраза крутится с 150 другими доп. фразами: фраза 1 + доп. фраза 1 фраза 1 + доп. фраза 2 ... фраза 2 + доп. фраза 1 фраза 2 + доп. фраза 2

Получается для разрезки на год, с периодом 1 день: 1 фраза = 150 доп. фраз * 356 запросов по дате = 53400 запросов Вот и выходит что с одной фразы можно собрать столько что вам и не снилось даже, если крутить не за год а за 5 лет скажем. Разумеется фразы в которых мало ссылок просто не имеет смысла крутить таким образом.

Для того, чтобы начать парсинг вам нужно нажать: Начать парсинг списка Фраз

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]