Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические материалы_Semonitor.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
603.14 Кб
Скачать

6.4.8. Проанализировать html страницы (модуль “html анализатор”)

Настройки проекта

Онлайн-проект – здесь задается адрес сайта для анализа. Страницы сайта будут скачаны, а затем проанализированы. Рекомендуется задавать корень сайта (домен), остальные страницы будут найдены по ссылкам.

Оффлайн-проект (локально) – здесь задается список локальных html файлов для анализа.

Число потоков поиска – задает, сколько страниц сайта будут скачиваться одновременно

Анализировать – позволяет начать анализ

Остановить – остановить анализ

Настройки->Анализировать сохраненные страницы – в случае, если анализировался удаленный проект (онлайн-проект, т.е. какой-либо сайт в Интернет), то скачанные страницы будут сохранены и при загрузке проекта будет произведен их анализ. Если же анализировались локальные страницы(оффлайн-проект), то при загрузке проекта возможны два варианта:

- провести повторный анализ страниц, входящих в проект. В этом случае будут учтены все изменения, которые произошли в страницах, со времени последнего анализа. Такой способ анализа применяется по умолчанию

- показать результаты предыдущего анализа. В этом случае при загрузке проекта будут показаны данные, сохраненные во время предыдущего анализа (изменения и обновления интернет-страниц не будут зафиксированы).

Кодировка – анализируемые сайты могут быть на разных языках и в различных кодировках. Если сайт отображается некорректно подберите для него из списа подходящую кодировку. Можно так же позволить программе определять кодировку самостоятельно (Autodetect).

Дополнительные настройки: ниже находится ряд закладок с дополнительными настройками.

Файлы – здесь отражаются скачанные и проанализированные файлы

Правила анализа – часто бывает так, что ключевое слово имеет несколько словоформ, в тексте встречаются однокоренные слова, слова-синонимы и т.п. В этом случае бывает удобно группу слов считать одним словом при анализе страницы.

Общие правила анализавключает использование заданных правил при анализе страницы

Длина словазадает длину слова (в символах), для которого должно применяться данное правило

Удалять слева – задает число символов, которые не будут учитываться (обрезаться) с начала слова (может потребоваться если формы слова имеют разнообразные приставки либо это сложнокоренное слово)

Удалять справазадает число символов, которые не будут учитываться (обрезаться) с конца слова (оставляя только основу)

Пример: пусть задано правило "длина слова – 9, удалять слева – 0, удалять справа -1". В качестве примера возьмем слово "программа". Согласно заданному правилу, ряд словоформ (программа, программы, программу и т.д.) будет при анализе считаться одним словом, что позволяет сделать анализ более удобным.

Примечание: данную настройку, как правило, следует использовать для анализа не-англоязычных сайтов (т.е. для тех    языков, где слова могут иметь различные окончания, приставки и т.д.).

Кнопки Добавить, Удалить, Очистить список позволяют управлять списком правил.

Группы словвключает использование режима группировки слов. Предположим у нас есть группа однокоренных ключевых слов (например, бег, бежать, бегун и т.д.). При анализе страницы может быть удобно считать эти слова одним словом. В этом случае можно создать группу с названием "бег-группа" и задать список слов, которые входят в эту группу. При анализе программа будет считать все слова этой группы одним ключевым словом и в отчетах все параметры (вес, плотность и т.д.) будут отображаться именно для группы.

Кнопки Создать группу, Добавить слово, Редактировать, Удалить группу, Удалить слово, Сортировать, Проверить дубликаты, Отменить, Свернуть список, Развернуть список, Сохранить, Загрузить позволяют управлять списком групп.

Вкл./Искл. пути – в некоторых случаях бывает удобно анализировать лишь часть сайта. Например, сайт может содержать форум, с очень большим числом страниц, которые требуется пропустить при анализе. Либо, наоборот, требуется проанализировать лишь заданную часть сайта, пропустив все остальные страницы. Для решения этих задач следует указать анализатору проверяемые пути по сайту. Режим "Включить пути" – программа будет анализировать только те страницы, которые соответствуют заданному шаблону. Например, для проверки раздела сайта www.site.com/reports/ следует указать этот путь. Все остальные страницы сайта будут проигнорированы. Режим "Исключить пути" – программа будет анализировать все страницы сайта, кроме указанных. Например, чтобы не анализировать форум, принадлежащий сайту, следует задать путь www.site.ru/forum.php?. В этом случае будут проанализированы все страницы, кроме страниц форума. Страницы сайта которые необходимо проанализировать либо наоборот изъять из списка анализа вносятся кнопкой «Загрузить» (из текстового файла) либо «Добавить» (после того, как Вы написали Интернет-адрес в строке снизу). Кнопки Добавить, Удалить, Загрузить, Сохранить позволяют управлять списком заданных путей.

Стоп-слова – любой текст содержит большое число общеупотребительных слов (предлоги, междометия, слова-связки и т.д.), которые не учитываются поисковыми системами при разборе страницы. Такие слова удобно не учитывать при анализе. В данном разделе можно редактировать списки стоп-слов, которые будут пропущены программой при анализе. Кнопки Добавить, Удалить, Загрузить, Сохранить, По умолчанию позволяют управлять списком стоп-слов.