
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
6,2 Высококачественного поиска
Самая большая проблема, стоящая перед пользователями поисковые машины сегодня является качество результатов они вернуться. Хотя результаты часто забавные и расширить горизонты пользователей, они зачастую разочаровывает и потребляют драгоценное время. Например, верхний результат для поиска "Билл Клинтон" на одной из самых популярных коммерческих поисковых была шутка Билла Клинтона дня: 14 апреля 1997 . Google предназначена для обеспечения более высокого качества поиска, как Web продолжает быстро расти, информация может быть легко найдена. Для достижения этой цели Google активно использует гипертекстовой информации, состоящую из структуры ссылке и ссылку (якорь) текста. Google также использует близость и информацию о шрифтах. В то время как оценка поисковой системы является трудным, мы обнаружили, что субъективно Google возвращает более высокое качество результатов поиска, чем нынешние коммерческие поисковые системы. Анализ ссылочной структуры с помощью Google PageRank позволяет оценить качество веб-страниц. Использование текстовой ссылки, как описание того, что ссылка указывает на возвращение помогает поисковой системы соответствующих (и в некоторой степени высокое качество) результаты. Наконец, использование близости информация помогает повышения актуальности много для многих запросов.
6,3 Масштабируемая архитектура
Помимо качество поиска, Google предназначен для масштабирования. Она должна быть эффективной в пространстве и во времени, и постоянные факторы очень важны при работе со всей Сети. При осуществлении Google, мы видели, узкие места в процессоре, памяти, объем памяти, диски, пропускная способность диска, емкость диска и сетевого ввода-вывода.Google развивались, чтобы преодолеть ряд этих узких мест при выполнении различных операций. Google основными структурами данных эффективного использования доступного пространства хранения. Кроме того, сканирование, индексирование и сортировки операции достаточно эффективным, чтобы быть в состоянии построить индекс значительная часть веб - 24000000 страниц, менее чем за одну неделю. Мы ожидаем, что сможем построить индекс 100000000 страницы менее чем за месяц.
6,4 Исследовательский инструмент
В дополнение к высокой поисковой качества, Google является исследовательским инструментом. Данные Google собрала уже привел во многих других документах, представленных на конференции и многое другое на пути. Недавние исследования, такие как [ Abiteboul 97 ] показал ряд ограничений на запросы о в Интернете, которые можно ответить, не имея веб доступны локально. Это означает, что Google (или аналогичные системы) не только ценный инструмент исследования, но необходимая для широкого спектра применений. Мы надеемся, что Google будет ресурс для поисковиков и исследователей по всему миру и вызовет следующее поколение технологии поиска двигателя.
7 Благодарности
Скотт Хассан и Алан Steremberg были решающими в развитии Google. Их вклад талантливого незаменимы, и авторы должны им большой благодарностью. Мы также хотели бы поблагодарить Гектор Гарсиа-Молина, Раджив Motwani, Джефф Ульман, и Терри Винограда, и целая группа WebBase за их поддержку и проницательным дискуссий. Наконец, мы хотели бы отметить щедрую поддержку нашего оборудования доноров IBM, Intel и Sun и наших спонсоров. Исследование, описанное здесь было проведено в рамках интегрированного проекта Стэнфордского цифровой библиотеки, при поддержке Национального научного фонда под соглашением о сотрудничестве IRI-9411306. Финансирование данного соглашения о сотрудничестве также обеспечивается DARPA и NASA, и Interval Research, и промышленные партнеры проекта Стэнфордского электронных библиотек.
Ссылки
Лучшее в Интернете 1994 - навигаторы http://botw.org/1994/awards/navigators.html
Билл Клинтон Шутка дня: 14 апреля 1997 года. http://www.io.com/ ~ cjburke/clinton/970414.html.
Домашняя страница Bzip2 http://www.muraroa.demon.co.uk/
Google Поисковая http://google.stanford.edu/
Урожай http://harvest.transarc.com/
Mauldin, Майкл Л. Lycos Проектные решения в Интернет Поиск, IEEE Интервью с экспертом http://www.computer.org/pubs/expert/1997/trends/x1008/mauldin.htm
Влияние сотового телефона используется По Driver Внимание http://www.webfirst.com/aaa/text/cell/cell0toc.htm
Search Engine Watch http://www.searchenginewatch.com/
RFC 1950 (Zlib) ftp://ftp.uu.net/graphics/png/documents/zlib/zdoc-index.html
Протокол исключений для роботов: http://info.webcrawler.com/mak/projects/robots/exclusion.htm
Веб роста Резюме: http://www.mit.edu/people/mkgray/net/web-growth-summary.html
Yahoo! http://www.yahoo.com/
[Abiteboul 97] Серж Abiteboul и Виктор Vianu, Запросы и вычисления в Интернете . Труды Международной конференции по теории баз данных. Дельфы, Греция 1997 год.
[Bagdikian 97] Ben H. Bagdikian. Монополия СМИ . 5th Edition. Издатель: Beacon, ISBN: 0807061557
[Chakrabarti 98] S.Chakrabarti, B.Dom, D.Gibson, J.Kleinberg, П. и С. Рагхавана Rajagopalan. Автоматическое составление ресурсов путем анализа структуры Гиперссылка и соответствующий текст. Седьмая Международная конференция Web (WWW 98). Брисбен, Австралия, 14-18 апреля 1998 года.
[Чо 98] Junghoo Чо, Гектор Гарсиа-Молина, Лоуренс странице. Эффективное ползая по URL заказа. Седьмая Международная конференция Web (WWW 98). Брисбен, Австралия, 14-18 апреля 1998 года.
[Gravano 94] Луис Gravano, Гектор Гарсиа-Молина, А. Tomasic. Эффективность блеск для преобразования текста в базе данных Discovery проблеме. Proc. в 1994 году ACM SIGMOD Международной конференции по регулированию данных 1994 года.
[Клейнберг 98] Джон Клейнберг, авторитетные источники в гиперссылкой окружающей среды , Proc. ACM-СИАМ симпозиум по алгоритмов дискретной, 1998.
[Marchiori 97] Массимо Marchiori. Поиски Правильная информация в Интернете: Hyper. Поисковики Шестой Международной конференции WWW (WWW 97). Санта-Клара, США, 7-11 апреля 1997 года.
[McBryan 94] Оливер А. McBryan. GENVL и WWWW: Инструменты для укрощения в Интернете. Первой международной конференции по World Wide Web. ЦЕРН, Женева (Швейцария), 25-26-27 мая 1994 года. http://www.cs.colorado.edu/home/mcbryan/mypapers/www94.ps
[Стр. 98] Lawrence Page, Сергей Брин, Раджив Motwani, Терри Винограда. рейтинга PageRank Образец цитирования:. наведении порядка в Web . Рукопись незавершенногоhttp://google.stanford.edu/ ~ массаж спины / pageranksub.ps
[Пинкертон 94] Брайан Пинкертон, Поиск, что люди хотят:. Опыт WebCrawler . Вторая Международная конференция WWW Чикаго, США, 17-20 октября, 1994http://info.webcrawler.com/bp/WWW94.html
[Spertus 97] Эллен Spertus. паразита: Горно структурной информации в Интернете. Шестой международной конференции WWW (WWW 97). Санта-Клара, США, 7-11 апреля 1997 года.
[TREC 96] Труды пятой Конференции поиска Текст (TREC-5). Gaithersburg, штат Мэриленд, 20-22 ноября 1996 года. Издатель: Министерство торговли, Национального института стандартов и технологий. Редакторы: DK Харман и EM Voorhees. Полный текст по адресу: http://trec.nist.gov/
. [Виттен 94] Ian H Виттен, Алистер Моффат, и Тимоти Ч. Белл Управление Гигабайт: Сжатие и индексирование документов и изображений. Нью-Йорк: ИЛ Рейнгольд, 1994.
[Weiss 96] Рон Вайс, Bienvenido Велес, Марк А. Шелдон, Chanathip Manprempre, Питер Szilagyi, Анджей Дуда, и Дэвид К. Гиффорд. HyPursuit:. иерархической поисковой сети, который использует Content-гипертекстовая ссылка кластеризации материалы 7-го ACM Конференция по гипертекстовой. Нью-Йорк, 1996.
Vitae
Сергей
Брин получил
степень бакалавра в области математики
и информатики из Университета штата
Мэриленд в Колледж-Парке в 1993 году. В
настоящее время он является кандидат Кандидат
в области компьютерных наук в Стэнфордском
университете, где он получил степень
магистра в 1995 году. Он
является лауреатом Национального
научного фонда стипендий. Его
научные интересы включают поисковых
системах, извлечения информации из
неструктурированных источников, и
интеллектуального анализа данных
больших коллекций текстов и научных
данных.
Lawrence Page родился в Ист-Лансинг, штат Мичиган, и получил BSE в области вычислительной техники в Университете Мичигана Анн-Арбор в 1995 году. В настоящее время является кандидат Кандидат в области компьютерных наук в Стэнфордском университете.Некоторые из его научных интересов включает структуру ссылок в Интернете, взаимодействия человека с компьютером, поисковые системы, масштабируемость интерфейсов доступа к информации, и личного интеллектуального анализа данных.
Приложение 8: Реклама и смешанных мотивов
В настоящее время преобладает бизнес-модель для коммерческих поисковых системах является реклама. Целями рекламной бизнес-модели не всегда соответствуют обеспечению качества поиска для пользователей. Например, в нашей поисковой прототип один из лучших результатов для сотовых телефонов " Влияние сотового телефона используется По Driver Внимание ", исследование, которое объясняет очень подробно отвлекаться и риск, связанный с разговаривает по мобильному телефону во время вождения. Этот результат поиска придумал первый из-за его высокой важности можно судить по алгоритму PageRank, приближение Цитирование важности в Интернете [ Page, 98 ]. Понятно, что поисковая машина, которая брала деньги за показ объявлений сотовых телефонов было бы трудно оправдывать странице, что наша система вернулась в его платежеспособности рекламодателей. Для этого типа причин и исторического опыта с другими средствами [ Bagdikian 83 ], мы ожидаем, что реклама финансируемых поисковые системы будут изначально предвзято к рекламодателям и от потребностей потребителей.
Так как это очень сложно даже для экспертов для оценки поисковых системах, поисковая система смещения особенно коварны. Хороший пример был OpenText, которые, как сообщалось, продажи компаниям права должны быть перечислены в верхней части результатов поиска по определенным запросам [ Marchiori 97 ]. Этот тип смещения гораздо более коварным, чем реклама, потому что не ясно, кто "заслуживает", чтобы быть там, и кто готов платить деньги, чтобы быть в списке. Эта бизнес-модель привела возмущение и OpenText перестала быть жизнеспособной поисковой системы. Но менее явный уклон, вероятно, будут переносится на рынке. Например, поисковая система может добавить небольшое фактором к результатам поиска из "дружественных" компаний, и вычесть из результатов фактором от конкурентов. Этот тип смещения очень трудно обнаружить, но все еще может оказывать значительное влияние на рынке. Кроме того, доходы от рекламы часто дает стимул обеспечивать плохие результаты качества поиска. Например, мы заметили, что основной поисковой системы не вернется домашнюю страницу большой авиакомпании, когда название авиакомпании было дано как запрос. Случилось так, что авиакомпания поместила дорогие объявления, связанные с запросом, что и было имя ей. Лучше поисковой системы не потребовала бы это объявление, и, возможно, привело к потере доходов от авиакомпании к поисковой системе. В общем, можно утверждать, с потребительской точки зрения, что чем лучше поисковой системы, тем меньше рекламы будут необходимы для потребителя, чтобы найти то, что они хотят. Это, конечно, подрывает поддерживается рекламой бизнес-модель существующих поисковых систем. Тем не менее, всегда будут деньги от рекламодателей, которые хотят для переключения клиентов продуктов, или то, что по-настоящему новое. Но мы считаем, что вопрос о рекламе вызывает достаточно смешанные стимулы, которые важно иметь конкурентоспособную поисковая система, которая прозрачна и в академической сфере.