
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
5.1 Требования хранения
Помимо качества поиска, Google предназначен для масштабирования экономически эффективно с размером Web, как он растет. Одним из аспектов этой проблемы является использование для хранения эффективно. Таблица 1 содержит разбивку некоторой статистики и хранения требованиям Google. Из-за сжатия общий размер хранилища составляет около 53 Гб, чуть более одной трети от общего нем данных. При нынешних ценах на диске это делает хранилище относительно дешевый источник полезных данных. Более того, общая сумма всех данных, используемых поисковой системы требуется сопоставимое количество хранения, около 55 Гб. Кроме того, большинство запросов можно ответить, используя только короткий инвертированный индекс. Что лучше кодирования и сжатия Индекс документов, высокое качество веб поисковой системы может поместиться на 7 Гб драйв нового ПК.
|
||||||||||||||||||||||
|
||||||||||||||||||||||
Таблица 1. Статистика |
5.2 Производительность системы
Это важно для поисковой системы для сканирования и индексирования эффективно. Таким образом, можно хранить информацию в актуальном состоянии и серьезных изменений в системе может быть проверен относительно быстро. Для Google, основные операции сканирования, индексирования и сортировки. Трудно определить время сканирования взял в общем из-за дисков заполнен, серверы имен разбился, или любое количество других проблем, которые остановили системы. В общей сложности это потребовалось около 9 дней, чтобы скачать 26 миллионов страниц (включая ошибки). Однако, как только система работала гладко, он побежал гораздо быстрее, загрузка последних 11 миллионов страниц всего за 63 часов, в среднем чуть более 4 млн страниц в день или 48,5 страниц в секунду. Мы побежали индексации и гусеничных одновременно. Индексатор просто побежал быстрее, чем сканеры. Это в значительной степени потому что мы провели достаточно времени, оптимизации индексации, так что это не будет узким местом. Такая оптимизация массового обновления включены в индекс документа и размещении критических структур данных на локальном диске.Индексатор работает на частоте примерно 54 страниц в секунду.Сортировщики может быть запущена полностью параллельно, используя четыре машины, весь процесс сортировки занимает около 24 часов.