Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен Волкова.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
618.61 Кб
Скачать

34. Состав поисковых машин

Поисковая машина - это комплект программ, в основе которого лежит поисковый робот, индексатор, база данных и система выдачи результатов. Каждая ИПС использует свой алгоритм поиска. При этом учитываются статистические закономерности.

Состав «поисковика»

Spider («паук») – программа, которая загружает в поисковую машину Web – страницы. Программа, скачивающая веб-страницы. Эта программа работает также, как обыкновенный пользовательский браузер, соединяющийся с сайтом и загружающий ту или иную страницу. Пауки находят не один миллион страниц в день и заносят их, индексируя, в базу данных.

Crawler («червяк») – программа, способная найти на Web – странице все ссылки на другие страницы. Программа, автоматически проходящая по ссылкам, которые находит на веб-странице сайта, и определяющая путь "паука" (спайдера), где он должен будет пройти. Осуществляет поиск новых страниц, неизвестных поисковой системе.

Indexer (индексатор) – программа, которая разбирает страницу на составные части и анализирует их. Эта программа разбирает каждую страницу на части и анализирует эти части: заголовок, ссылки, текст и др.

Database (база данных) – хранилище всех данных, которые поисковая система загружает и анализирует. Здесь хранятся все данные, которые поисковая система скачивает и анализирует в поиске. Базы данных поисковых систем непрерывно изменяются и требуют очень больших ресурсов для обеспечения работы поисковой системы, включая техническое оснащение и научные исследования.

Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяет запросу пользователя и в какой степени. Эта система производит извлечение результатов поиска из собственной базы данных. Поисковые машины не просматривают всю сеть Интернета, в поисках нужного запроса, а ищут только в пределах своей базы данных (индекса), которая постоянно обновляется (периодически).

35. Основные этапы алгоритмов поиска

Алгоритм поиска – метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результате поиска.

Основные этапы алгоритма поиска – это ответы на следующие вопросы:

  1. Присутствует ли ключевое слово в заголовке документа?

  2. Присутствует ли ключевое слово в имени домена или в адресе страницы?

  3. Встречается ли ключевое слово в подзаголовке документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?

  4. Как часто ключевое слово встречается на странице?

  5. Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиком, и среди ключевых слов, указанных разработчиком страниц?

  6. На какие – Web –узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?

  7. Какие Web –узлы имеют ссылку на анализируемый сайт? Каков текст ссылки?

  8. На какие еще страницы данного сайта содержит ссылки анализируемая страница?

36. Законы Зипфа законы зипфа (1949 г.)

Длинные слова встречаются в тексте реже, чем короткие – закономерность!