Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

5.1 Требования хранения

Помимо качества поиска, Google предназначен для масштабирования экономически эффективно с размером Web, как он растет. Одним из аспектов этой проблемы является использование для хранения эффективно. Таблица 1 содержит разбивку некоторой статистики и хранения требованиям Google. Из-за сжатия общий размер хранилища составляет около 53 Гб, чуть более одной трети от общего нем данных. При нынешних ценах на диске это делает хранилище относительно дешевый источник полезных данных. Более того, общая сумма всех данных, используемых поисковой системы требуется сопоставимое количество хранения, около 55 Гб. Кроме того, большинство запросов можно ответить, используя только короткий инвертированный индекс. Что лучше кодирования и сжатия Индекс документов, высокое качество веб поисковой системы может поместиться на 7 Гб драйв нового ПК.    

Хранение статистики

Общий размер Выбранные страницы

147,8 ГБ

Сжатый репозиторий

53,5 Гб

Короткие инвертированный индекс

4,1 Гб

Полный инвертированный индекс

37,2 Гб

Лексикон

293 MB

Временные данные Anchor   (не в общей сложности)

6,6 Гб

Индекс документа вкл.   Переменный Ширина шины данных

9,7 Гб

Ссылки База данных

3,9 Гб

Всего без репозиторий

55,2 Гб

Всего с репозитория

108,7 ГБ

 

Веб-страница статистики

Количество веб-страниц Выбранные

24000000

Количестве адресов замечен

76500000

Количество адресов электронной почты

1700000

Количество 404

1600000

 

Таблица 1. Статистика

  

5.2 Производительность системы

Это важно для поисковой системы для сканирования и индексирования эффективно. Таким образом, можно хранить информацию в актуальном состоянии и серьезных изменений в системе может быть проверен относительно быстро. Для Google, основные операции сканирования, индексирования и сортировки. Трудно определить время сканирования взял в общем из-за дисков заполнен, серверы имен разбился, или любое количество других проблем, которые остановили системы. В общей сложности это потребовалось около 9 дней, чтобы скачать 26 миллионов страниц (включая ошибки). Однако, как только система работала гладко, он побежал гораздо быстрее, загрузка последних 11 миллионов страниц всего за 63 часов, в среднем чуть более 4 млн страниц в день или 48,5 страниц в секунду. Мы побежали индексации и гусеничных одновременно. Индексатор просто побежал быстрее, чем сканеры. Это в значительной степени потому что мы провели достаточно времени, оптимизации индексации, так что это не будет узким местом. Такая оптимизация массового обновления включены в индекс документа и размещении критических структур данных на локальном диске.Индексатор работает на частоте примерно 54 страниц в секунду.Сортировщики может быть запущена полностью параллельно, используя четыре машины, весь процесс сортировки занимает около 24 часов.