5.1 Требования хранения

Помимо качества поиска, Google предназначен для масштабирования экономически эффективно с размером Web, как он растет. Одним из аспектов этой проблемы является использование для хранения эффективно. Таблица 1 содержит разбивку некоторой статистики и хранения требованиям Google. Из-за сжатия общий размер хранилища составляет около 53 Гб, чуть более одной трети от общего нем данных. При нынешних ценах на диске это делает хранилище относительно дешевый источник полезных данных. Более того, общая сумма всех данных, используемых поисковой системы требуется сопоставимое количество хранения, около 55 Гб. Кроме того, большинство запросов можно ответить, используя только короткий инвертированный индекс. Что лучше кодирования и сжатия Индекс документов, высокое качество веб поисковой системы может поместиться на 7 Гб драйв нового ПК.

Хранение статистики
Общий размер Выбранные страницы	147,8 ГБ
Сжатый репозиторий	53,5 Гб
Короткие инвертированный индекс	4,1 Гб
Полный инвертированный индекс	37,2 Гб
Лексикон	293 MB
Временные данные Anchor (не в общей сложности)	6,6 Гб
Индекс документа вкл. Переменный Ширина шины данных	9,7 Гб
Ссылки База данных	3,9 Гб
Всего без репозиторий	55,2 Гб
Всего с репозитория	108,7 ГБ

Веб-страница статистики
Количество веб-страниц Выбранные	24000000
Количестве адресов замечен	76500000
Количество адресов электронной почты	1700000
Количество 404	1600000

Таблица 1. Статистика

5.2 Производительность системы

Это важно для поисковой системы для сканирования и индексирования эффективно. Таким образом, можно хранить информацию в актуальном состоянии и серьезных изменений в системе может быть проверен относительно быстро. Для Google, основные операции сканирования, индексирования и сортировки. Трудно определить время сканирования взял в общем из-за дисков заполнен, серверы имен разбился, или любое количество других проблем, которые остановили системы. В общей сложности это потребовалось около 9 дней, чтобы скачать 26 миллионов страниц (включая ошибки). Однако, как только система работала гладко, он побежал гораздо быстрее, загрузка последних 11 миллионов страниц всего за 63 часов, в среднем чуть более 4 млн страниц в день или 48,5 страниц в секунду. Мы побежали индексации и гусеничных одновременно. Индексатор просто побежал быстрее, чем сканеры. Это в значительной степени потому что мы провели достаточно времени, оптимизации индексации, так что это не будет узким местом. Такая оптимизация массового обновления включены в индекс документа и размещении критических структур данных на локальном диске.Индексатор работает на частоте примерно 54 страниц в секунду.Сортировщики может быть запущена полностью параллельно, используя четыре машины, весь процесс сортировки занимает около 24 часов.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1613 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.2025283.65 Кб0Аналитический обзор.doc
#
01.05.2025380.42 Кб0Аналыт часть Котова.doc
#
14.08.20191.92 Mб6Анатолий Уткин - Американская империя.doc
#
23.03.20151.45 Mб65Анатомія і фізіологія нервової діяльності.rtf
#
01.07.2025122.81 Кб0Анатомія й еволюція НС.docx
#
01.05.2025159.81 Кб0Анатомия крупномасштабного Гипертекстовая поиск...docx
#
01.07.202530.45 Кб0англ текст.docx
#
12.08.20191.16 Mб3Анналы Publii_Kornelii_Tacit.rtf
#
01.07.2025158.21 Кб0АНОТАЦИИ 13.doc
#
01.07.202575.26 Кб0Антияпонское сопротивление.doc
#
23.03.20151.05 Mб26Антоненко-Давидович Як ми говоримио.pdf