
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
9 Приложение b: Масштабируемость
9. 1 Масштабируемость Google
Мы разработали Google быть масштабируемой в ближайшее время к цели 100 миллионов веб-страниц. Мы только что получили диск и машины для обработки примерно эту сумму.Все трудоемкой части системы являются Распараллеливать и примерно линейного времени. Они включают в себя такие вещи, как сканеры, индексаторы и сортировщиков. Мы также считаем, что большая часть данных структур будет заниматься изящно с расширением. Тем не менее, в 100 миллионов веб-страниц мы будем очень закрыть против всяких ограничений операционной системы в распространенных операционных систем (в настоящее время мы работать как на Solaris и Linux). Они включают в себя такие вещи, как адресное пространство памяти, число открытых файловых дескрипторов, сетевые сокеты и пропускной способности, и многие другие. Мы считаем, что для расширения намного больше, чем 100 000 000 страниц значительно увеличит сложность нашей системы.
9.2 Масштабируемость архитектуры централизованного индексирования
Поскольку возможности увеличения компьютерами, становится возможным индекс очень большое количество текста на разумной стоимости. Конечно, другие, более требовательных к полосе пропускания средств массовой информации, таких как видео, вероятно, станет более распространенной. Но, так как затраты на производство текста низка по сравнению с медиа, как видео, текст, вероятно, останется очень распространенным. Кроме того, вполне вероятно, что скоро у нас будет распознавания речи, что делает разумную работу преобразования речи в текст, расширение количества текста доступны. Все это дает удивительные возможности для централизованного индексирования. Вот наглядный пример. Мы предположим, что мы хотим индексировать все, все в США написал в течение года. Мы предполагаем, что есть 250 миллионов человек в США и они пишут в среднем 10 тыс. в день. Это удается, чтобы быть около 850 терабайт. Также предположим, что индексация терабайта можно сделать сейчас для разумной стоимости. Мы также предполагаем, что индексация методы, используемые по тексту линейны, или почти линейные по своей сложности. Учитывая все эти предположения мы можем вычислить, сколько времени потребуется, прежде чем мы могли индексировать наш 850 терабайт за разумную стоимость предполагая определенные факторы роста. Закон Мура был определен в 1965 году как удваивается каждые 18 месяцев производительность процессора. Она провела замечательно, правда, не только для процессора, но и для других важных параметров системы, таких как диск. Если предположить, что закон Мура держит на будущее, нам нужно только еще 10 удвоений, или 15 лет, чтобы достичь нашей цели индексации все, что все в США написал в течение года по цене, небольшой компании могли себе позволить. Конечно, аппаратные эксперты несколько обеспокоен закон Мура не может продолжать удерживать в течение следующих 15 лет, но есть, конечно, много интересного централизованных приложений, даже если у нас есть только часть пути к нашему гипотетическому примеру.
Конечно, как распределенные системы G L OSS [ Gravano 94 ] или Harvest часто будет наиболее эффективное и элегантное техническое решение для индексирования, но мне кажется, трудно убедить мир в том, чтобы использовать эти системы из-за высоких затрат на администрирование создания больших количество установок. Конечно, вполне вероятно, что сокращение административных расходов резко возможно. Если это произойдет, и все начинает работать распределенной системой индексирования, поиска, безусловно, резко улучшить.
Исходный текст
Of course, other more bandwidth intensive media such as video is likely to become more pervasive.
Предложить лучший вариант перевода
Потому что люди могут только вводить или говорить конечное количество, как компьютеры и продолжают улучшаться, индексации текста будет масштабироваться даже лучше, чем это происходит сейчас. Есть, конечно, может быть бесконечное количество машин контент, а просто индексации огромного количества человеческих контента кажется чрезвычайно полезным. Таким образом, мы настроены оптимистично, что наш веб-централизованной архитектуры поисковой системы улучшится в своей способности охватывать соответствующую информацию текста с течением времени и что есть светлое будущее для поиска.