Интернет технологии / 2014_inet_lec_3
.pdfДонецкий национальный технический университет Факультет компьютерных наук и технологий
Кафедра компьютерной инженерии
Лекция 3 — Поиск информации и его документирование
Иваница Сергей Васильевич,
ассистент кафедры компьютерной инженерии ДонНТУ, 2014 г.
http://ki.donntu.edu.ua/~ivanitsa
1.История веб-поиска:
предпосылки появления;
хронология появления поисковых машин.
2.Механизм веб-поиска:
основные определения и компоненты, поисковый агент;
ранжирование, результаты, базы данных, интерфейс.
3.Область поиска. Скрытый Web
4.Модель веб-пространства
5.Обзор популярных поисковиков:
мгновенный поиск Google глазами разработчиков;
рейтинги поисковых систем.
6.Лабораторная работа № 3.
2
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Основные протоколы, используемые в Интернете, не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверов.
Протокол HTTP оптимален лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска.
То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP.
Задача появления полной системы для учета и обновления всего объема информации никогда не ставилась «авторами» Интернета.
Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.
3
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Самый первый поисковый инструмент интернета
(еще до Всемирной паутины) назывался Archie (название произошло от искаженного слова «archive»).
Он был создан в 1990 году Аланом Эмтаджем, студентом Монреальского Университета им. Мак Гилла .
Программа скачивала списки файлов, расположенные на публичных анонимных FTP-сайтах, создавая единую базу данных имен файлов, по которым можно было производить поиск.
Однако сами файлы Archie
не индексировала.
Фактически это была база данных имен файлов, хранящихся на публичных анонимных серверах.
4
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В 1993 году студент Мэтью Грей (Массачусетский технологический институт) разработал
первого робота, который индексировал страницы интернета — WWW Wanderer.
Первоначально программа позволяла пересчитывать веб-сервера,
измеряя масштабы веб-паутины.
Wanderer запускали ежемесячно с 1993 по 1995 гг.
поэтому тогда конкурентами поисковиков были каталоги страниц — сайты с вручную отсортированными коллекциями ссылок на веб-ресурсы
В 1993 году во всем Интернете насчитывалось всего лишь 623 сайта!
К тому же, благодаря таким скромным масштабам, для составления индексов и выдачи результатов не требовались ни мощные сервера, ни сложная функциональность алгоритмов поиска и ухищрения по их оптимизации.
Позже Wanderer был использован для получения адресов ресурсов (URL) при формировании первой базы данных Веба, и был назван Wandex (по мотивам «index»).
5
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В 1993 году Мартин Костер создал ALIWEB, которая была представлена в мае 1994 года на Первой международной World Wide Web конференции (англ.)русск. в ЦЕРН в Женеве.
Система позволяла
владельцам сайтов подавать заявки на индексацию в поисковых машинах.
Фактически, ALIWEB был поисковой
системой, основанной на автоматизированном сборе
мета-данных для веба.
С 1993 года финансирование поисковых систем становится прибыльным бизнесом. Инвесторы сочли, что из интернета можно извлекать выгоду, началось массовое финансирование разработки и развития поисковых машин.
6
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В 1993 году шесть студентов Стэнфорда представили Excite.
Программа использовала статистический анализ слов в тексте, чтобы облегчить процесс поиска. В течение года Excite был усовершенствован и
вышел онлайн в декабре 1995 года. |
http://www.excite.com |
|
В 1990-е годы Excite был одним из самых узнаваемых брендов на Интернете.
&
В 1999 году два аспиранта Стэнфордского университета, Сергей Брин и Ларри Пейдж
пришли к руководству Excite и предложили купить разработанный ими поисковик Google за $ 1 млн, но получили отказ.
это решение впоследствии было названо одной из крупнейших ошибок, которые когда
7
либо были сделаны в цифровой индустрии
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В январе 1994 года аспиранты Стэнфордского университета Джерри Янг и Дэвид Фило создали сайт, который назывался
«Путеводитель Джерри по Всемирной Паутине» и представлял собой каталог их любимых веб-сайтов. Единственное, что отличало этот перечень от других, был комментарий к каждой ссылке URL.
В апреле 1994 года разработчики получили финансирование и сайт был переименован в Yahoo!
К тому времени «Yahoo» уже был зарегистрированной торговой маркой соуса для барбекю, поэтому к названию был добавлен восклицательный знак.
www.yahoo.com
8
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В1994 году Lycos представил поисковую машину,
предлагающую наряду с результатами поиска ссылки на темы,
связанные с поисковым запросом.
В1996 году это уже была обширная поисковая система,
индексирующая более 60 миллионов документов, самая крупная на тот момент.
Позже компания превратилась в один из первых в мире бизнес-проектов в Интернете,
приносивших доход.
В августе 2010 года Lycos была куплена за $ 36 млн индийской компанией Ybrant Digital.
9
www.lycos.com
К настоящему времени, после смены нескольких владельцев, сервис утратил свои позиции и малоизвестен пользователям интернета
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
AltaVista начала работать в 1995 году.
Эта поисковая машина первой предложила расширенную систему поиска и принимала языковые запросы на так называемом «естественном языке».
Например, могла обработать запрос «Как пройти в библиотеку?», вместо «библиотека».
На тот момент это была самая быстрая поисковая система, которая могла обрабатывать миллионы поисковых
запросов в день.
В июле 2003 была приобретена Yahoo!. С мая 2011 года AltaVista перешла
на поисковую технологию Yahoo!.
Название «AltaVista» буквально переводится как «взгляд сверху»
В июле 2013 года AltaVista прекратила свою работу.
10
Курс «Интернет-технологии». Лекция 3 — Поиск информации…