Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
[MIT] / Konsp.doc
Скачиваний:
17
Добавлен:
07.02.2016
Размер:
806.4 Кб
Скачать

1. Історія і побудова комп’ютерної мережі Internet. Структура Internet. Можливості Internet. Ресурси Internet. Пошук потрібної інформації. Інші глобальні КМ.

Лекцій - 3 год

В 1960-х годах исследователи начали эксперименты по соединению компьютеров друг с другом и с людьми с помощью телефонных линий, используя фонды Агентства Перспективных Проектов Исследований Министерства Обороны США (U.S Defense Department's Advanced Research Projects Agency - ARPA).

ARPA интересовалась вопросом о том, можно ли связывать расположенные в разных местах компьютеры с помощью новой технологии, которая называлась «коммутация пакетов» (packet switching). Эта технология, в которой данные, предназначенные для переброски в другое место, разбиваясь на пакеты, каждый из которых имел свой «адрес назначения» («forwarding address»), обещала возможность нескольким пользователям работать по одной и той же линии связи одновременно. Столь же важным с точки зрения ARPA было то, что такая технология позволяла создавать сети, дающие возможность автоматической маршрутизации данных по включенным в нее цепям и компьютерам. Целью ARPA было не создание современного международного компьютерного сообщества, а развитие сети передачи данных, которая могла бы выдержать ядерное нападение.

Предыдущие попытки объединения компьютеров в сеть требовали наличия линии между двумя компьютерами сети, нечто вроде железнодорожной одноколейки. Пакетная система позволила создавать «шоссейные магистрали» для данных, по которым много машин движутся фактически в одном и том же ряду. Каждому пакету выдается компьютерный эквивалент карты и расписания, так что его можно направить в желательное место назначения, где все такие пакеты снова соберут в сообщение, пригодное для использования человеком или компьютером.

Эта система позволила компьютерам использовать разделяемые данные, а исследователям - использовать электронную почту. Сама по себе электронная почта уже была революцией, поскольку оказалось, что подробные письма можно пересылать со скоростью телефонного звонка.

По мере того, как эта система, названная ARPANet, росла, несколько предприимчивых студентов колледжа (и один старшеклассник) разработали способ ее использования для проведения электронных конференций. Они начались как научные дискуссии, но скоро от них отпочковались конференции практически по всем аспектам жизни, как только люди осознали возможность «разговаривать» с сотнями и даже тысячами людей по всей стране.

В семидесятых годах при поддержке ARPA были разработаны правила, или протоколы, пересылки данных между различными компьютерными сетями. Эти протоколы с общим именем «Internet» сделали возможным разработку всемирной Сети, которую мы сейчас имеем и которая соединяет компьютеры всех видов через национальные границы. К концу семидесятых были разработаны связи между ARPANet и ее контрагентами в других странах. Мир оказался связан в одно целое паутиной компьютерных сетей.

В восьмидесятых годах эта сеть сетей, которая стала известна под именем Internet, развилась до невероятной степени. Сотни, а потом и тысячи колледжей, исследовательских организаций и правительственных ведомств стали присоединять свои компьютеры к этой всемирной Сети. Некоторые предприимчивые любители и компании, не желающие платить высокие цены за доступ к Internet (или не имеющие возможности соответствовать жестким правительственным требованиям для получения такого доступа), научились присоединять свои системы к Internet даже только ради электронной почты и конференций. Некоторые из этих систем стали предлагать доступ к Internet для всех. Теперь любой владелец компьютера и модема - и некоторой толики настойчивости может открыть себе окно в этот мир.

В девяностых годах сеть продолжает разрастаться экспоненциально. По некоторым оценкам, объем пересылаемых сообщений растет на 20 процентов в месяц. В ответ на это правительство и другие пользователи пытаются в последние годы расширить саму Сеть. Когда-то основной «хребет» Сети в Соединенных Штатах передавал данные со скоростью 56000 бит в секунду. Это оказалось слишком медленно для все возрастающего объема пересылаемых данных, и в последнее время максимальная скорость возросла до 1.5 миллиона, а затем - до 45 миллионов бит в секунду. Но даже раньше, чем Сеть оказалась в состоянии достичь подобной скорости, эксперты по Сети стали выискивать способы перекачки данных со скоростью порядка 2 миллиардов бит в секунду - это достаточно, чтобы перегнать через всю страну Британскую Энциклопедию за одну или две секунды. Другое серьезное новшество - разработка коммерческих служб, которые предоставляют услуги по межсетевому обмену, сравнимые по скорости с соответствующими услугами правительственной системы. Фактически в середине 1994 года правительство Соединенных Штатов самоустранится от ежедневного управления работой Сети, и местные и национальные организаторы услуг сети будут ее расширять.

Фактически всемирная Сеть является сложной паутиной меньших локальных сетей. Чтобы представить себе это, нарисуйте современную дорожную сеть трансконтинентальных суперскоростных дорог между большими городами. От этих больших городов отходят дороги поменьше, связывающие между собой маленькие города, жители которых путешествуют по узким, медленным проселкам.

В отличие от коммерческих сетей, таких, как CompuServe или Prodigy, в Internet не существует одного центрального компьютера, управляющего работой сети - его ресурсы распределены между тысячами отдельных компьютеров. В этом его величайшая сила и его величайшая слабость. Такой подход означает виртуальную невозможность единовременной катастрофы всей Сети - даже если один компьютер выйдет из строя, остальная часть Сети останется сохранной. Такая конструкция также уменьшает стоимость доступа к сети для организаций и отдельных лиц. Но тысячи соединенных вместе компьютеров затрудняют передвижение по Сети и поиск того, что вам в ней нужно - особенно потому, что у разных компьютеров разные команды для доступа к ресурсам. Только недавно пользователи Сети начали разрабатывать средства навигации и «карты», позволяющие новичкам передвигаться по Сети без риска заблудиться.

Никто не знает точно, сколько компьютеров и сетей фактически составляют Сеть. По некоторым оценкам, это около 2100000 сетей, объединяющих два миллиона компьютеров и более чем 120 миллионов человек во всем мире. Какова бы ни была истинная цифра, но явно, что сейчас она только растет.

Сеть - это более, чем просто чудо технологии. Это - человеческое общение на самом его фундаментальном уровне. Скорость могла бы быть чуть побольше, чтобы сообщение обходило мир за несколько секунд, но это все равно не слишком отличается от большой и интересной вечеринки. В этом гиперпространстве вы можете увидеть что-то, что вас рассмешит, что-то, что вас рассердит. Вы прочтете какие-то глупости и какие-то умные мысли, которые заставят вас задуматься. Вы найдете новых друзей и встретите людей, с которыми не захотите иметь никакого дела.

Основные содержатели сетей продолжают работать над способами облегчения пользователю Сети процесса общения с пользователями другой сети. Ведется работа по созданию системы «телефонного справочника лиц», в котором можно будет, например, найти чей-то адрес электронной почты. Этот дрейф в сторону интеграции сетей будет, похоже, ускорен в ближайшие годы, поскольку пользователи хотят иметь «бесшовный» доступ к сетям - подобно тому, как пользователь телефона просто набирает номер, и ему нет дела до того, как организуют соединение телефонные компании.

Сегодня еще теснее становятся связи между Internet и такими коммерческими сетями, как CompuServe и Prodigy, пользователи которых теперь могут обмениваться электронной почтой со своими друзьями из Internet. Некоторые держатели коммерческих сетей, таких, как Delphi и America Online, работают над тем, чтобы дать своим абонентам прямой выход на услуги Internet.

И по мере того, как с ней становится легче работать, все больше людей вступают в ту всемирную общину, что мы зовем Сетью.

Быть соединенным с сетью - это значит больше, чем просто читать конференции и регистрировать у себя на компьютере сообщения; это значит также задавать вопросы и отвечать на них, обмениваться мнениями - короче, участвовать.

Далее приводится список общедоступных подсистем Internet, которые являются компьютерными системами, дающими доступ в Сеть. Все они дают доступ к международной почте и к Usenet (международные конференции). Кроме того, они предлагают:

WWW

Разработанная исследователями Европейской Лаборатории физики элементарных частиц (European Particle Physics Laboratory) в Женеве, программа Всемирная сеть (World-Wide Web - WWW) разработана на основе системы, известной как Гипертекст. Слова в одном документе «привязаны» к другим документам. Это как работать с энциклопедией - читаешь статью, смотришь ссылки, которые тебя интересуют, и листаешь страницы, чтобы на эти ссылки посмотреть. WWW позволяет находить и просматривать в сети текстовые документы, рисунки, фотографии, видеопродукцию, прослушивать звуковые материалы.

FTP:

Протокол передачи файлов - доступ к сотням библиотек файлов (все - от программного обеспечения компьютера до исторических документов и текстов песен). У вас будет возможность передать эти файлы из Сети на свой компьютер.

Telnet:

Доступ к базам данных, каталогам компьютеризированных библиотек, сводкам погоды и прочим информационным услугам, а также живые, в реальном времени компьютерные игры с другими игроками по всему свету.

Могут предлагаться и такие услуги:

WAIS:

Сервер распределенной информации (Wide-area Information Server); программа, которая может просмотреть десятки баз данных в одном поиске.

Gopher:

Программа, которая дает доступ к десяткам электронных баз данных и услуг путем выбора возможностей из меню. Ее можно использовать также для копирования текстовых и программных файлов в свой почтовый ящик.

IRC:

Релейный разговор по Internet (Internet Relay Chat), эмулятор радиотелефона, который позволяет поддерживать живой разговор с клавиатуры с людьми по всему свету.

По мере развития Интернета складывается и обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается. Можно предполагать, что гипертекстовая природа WWW теоретически обеспечивает нахождение любой информации в процессе целенаправленного продвижения по ссылкам. Однако согласно оценкам в Интернете сегодня существует более 60 млн. документов, и найти в этом пространстве разнородных документов нужный, продвигаясь от ссылки к ссылке, практически невозможно.

Обычно пользователь Интернета довольно быстро обзаводится собственным набором (иногда весьма большим) любимых и часто посещаемых сайтов. Для облегчения доступа к таким сайтам любой browser (программа-просмотрщик) позволяет сформировать массив» закладок» (bookmarks), обеспечивающих прямой выход на такие сайты. Однако при необходимости найти что-то новое проблемы, стоящие перед любым пользователем практически одинаковы. Одинаковы и способы их решения: использование справочно-поисковых систем Интернета, предназначенных именно для нахождения необходимой информации в больших ее объемах. Основная часть материалов получена из первоисточников, т.е. авторских описаний систем, которые можно найти на соответствующих сайтах.

Все существующие типы поисковых систем условно можно разделить на несколько классов:

  • Машины WEB поиска (search engines, коротко SE),

  • директории (directories, коротко DIR),

  • базы данных адресов электронной почты (e-mail addresses database, коротко mailDB),

  • поиск в архивах Gopher (Gopher archives, коротко GA),

  • системы поиска ftp файлов (FTP Search, коротко ftpS),

  • системы поиска в Usenet News (Usenet search или Newsgroups search, коротко NS),

  • интерфейсы к чужим поисковым системам (Interfaces) и мультисистемные поисковые интерфейсы (Metasearch Pages, коротко MP).

Многие системы яаляются интегрированными, т.е. представляют информацию и по WEB, и по Gopher или FTP, или незаметно для пользователя обеспечивают возможность поиска как в WEB, так и Newsgroup, но рассматривать и сравнивать эти возможности можно только отдельно.

Все существующие типы поисковых систем обрабатывают массивы неоднородной информации Интернета, но используют разные механизмы и способы поиска. Наиболее нереальную задачу все еще решают Search Engines, к наиболее известным из которых относятся Alta Vista, Excite, Hot Bot, InfoSeek, Lycos, Open Text и WebCrawler.

Основным преимуществом поисковых систем является рекордная скорость поиска и интуитивная прозрачность процесса: пользователь задает ключевое слово (или слова)- SE выдает списки и точные адреса тех документов, в которых данное ключевое слово встречается.

Для того, чтобы справляться со своими обязанностями, SE должна проделать огромный объем предварительной работы:

  1. определяются точные адреса тех сайтов, которые будут включены в обрабатываемую область данной системы (обычно этим занимается специальная программа, которая может быть наделена правом селектировать те или иные сайты, - но это предмет особого разговора);

  2. производится засылка индексирующей программы (робота) или зеркальное дублирование всего информационного материала;

  3. производится собственно «индексация», при которой фиксируются положения всех более или менее значащих слов, которые называются «ключевыми» (к «неключевым» словам относятся наиболее часто употребляемые в речи союзы, предлоги, местоимения и т.д.; индексация бывает «полнотекстовой», при которой обрабатывается весь текст, и «неполнотекстовой», при которой обрабатываются отдельные, наиболее значащие части теста: заголовки, названия, ключевые поля, начальные слова разделов и т.д.)

  4. полученная база данных о ключевых словах добавляется к существующей;

  5. если был сделан зеркальный дубль (п.2), он стирается;

  6. повторяются п.п.2 -5 для каждого адреса из списка п.1.

К образовавшейся в результате индексирования базе данных можно обращаться посредством специального интерфейса. Кроме этого интерфейса пользователь практически ничего и не видит.

При одинаковой канонической структуре поисковые системы отличаются по многим параметрам:

  1. пространством индексируемых серверов - Alta Vista все еще старается продолжить полнотекстовую обработку всего Интернета. За эту амбициозную, но нереальную задачу берется также Hot Bot, однако уже стало ясно, что эта задача практически не решаема (последнее связано еще и с тем, что информация быстро устаревает и необходимо производить регулярную переиндексацию всех серверов, а это требует огромных компьютерных мощностей и информационных потоков);

  2. различным образом организована процедура создания запросов к поисковым системам - основным критерием является возможность создавать сложные запросы типа: «бананы и/или апельсины морским транспортом из Марокко или Колумбии, но не Эквадора»;

  3. немного различается и характер выдаваемой информации - наиболее удобные поисковые системы выдают отсортированные списки и сопровождают найденные адреса небольшими фрагментами текста, содержащими искомые ключевые слова;

  4. результаты поиска на некоторых машинах могут быть сохранены в виде bookmark (т.е. они для каждого поиска готовы завести на сервере соответствующий файл).

Таким образом, если Вы знаете, какими ключевыми словами характеризуется необходимая Вам информация, - смело пользуйтесь Поисковыми Системами.

http://www.altavista.digital.com/

Alta Vista создана фирмой Digital Equipment Corporation (DEC) с целью демонстрации возможностей вычислительных машин, построенных на основе процессоров Alpha. Поставленная задача успешно реализована: ни одно упоминание о SE не обходится без описания особенностей этой системы, ее впечатляющей мощности и быстродействия. По данным фирмы DEC в комплексе Alta Vista неутомимо трудится 6 машин, построенных на основе 64 разрядного процессора Alpha 466 MHz. Самая мощная из них AlphaServer 8400 5/300: 10-процессорная машина с 6 GB оперативной памяти каждую секунду обслуживает несколько сотен запросов пользователей, успевая, менее чем за секунду просматривать более чем 45 GB индексную базу данных.

В мае 1996 г. Alta Vista уже индексировала около 30 млн. HTML страниц и 13,000 newsgroups. В результате этого данная система поиска выдает не всегда самый свежий, но наиболее полный результат поиска по всему Интернету.

Поиск производится в точном соответствии с введенным словом без учета морфологических вариаций, заглавные и малые буквы так же, как в InfoSeek, различаются. Ключевые слова запроса в ответе выделяются жирным шрифтом, однако система не производит сортировку списка ответа по критерию наибольшего соответствия запросу. В результате этого приходится искать необходимые ссылки в довольно длинных списках.

Вместе с тем подсистема Power Search позволяет конструировать сложные запросы, пользуясь которыми можно как учесть морфологические вариации, так и существенно повысить выход целевых ссылок. Необходимость конструирования запросов с использованием логических операторов and, or, not и near является весьма небольшой платой за получаемые возможности.

Alta Vista позволяет сохранить результаты поиска в виде bookmark.

http://www.excite.com/

SE фирмы Architext Software на самом деле является интегрированной поисковой системой, содержащей SE (NetSearch), большую директорию обзоров (NetDirectory), новости и др.. Об обзорах и новостях будет сказано ниже, но в целом SE Excite отличается самым большим набором сервисных услуг, обеспечивающими удобный и простой поиск и восприятие информации.

Excite индексирует около 50 млн. страниц специально отобранных наиболее популярных WEB сайтов (около 60,000). Рейтинг популярности определяется по количеству ссылок на данный сайт из уже индексируемых списков. Кроме того, регулярно отслеживаются специальные What's New сайты, где выискиваются наиболее интересные новые ссылки. Реиндексация производится еженедельно.

Поиск производится без учета морфологических вариаций ключевых слов, однако замечательной особенностью Excite является возможность поиска по концептам, что фактически позволяет провести одновременный поиск по всем синонимам вводимого ключевого слова, правда, часто результаты оказываются идентичными. Возможность формировать сложные запросы облегчает нахождение специфической информации, этим мощным инструментом нетрудно научиться пользоваться.

Система производит адекватную сортировку получаемых результатов в соответствии с близостью к введенному запросу и представляет описания сайтов. Excite, так же как InfoSeek и Open Text, выдает хорошо отсортированный список, в котором нужные ссылки очень часто находятся в числе первых. Вместе с тем отсутствие URL в представляемых списках хоть и повышает привлекательность формы, но в ущерб содержанию.

Результаты поиска не могут быть сохранены в виде bookmark.

Excite адекватная и очень дружественная комплексная система для поиска актуальной и пользующейся активным спросом информации.

http://www.hotbot.com/

Чрезвычайно мощная, быстая машина поиска фирмы Inktomi, основанная на оригинальном програмном обеспечении. В основе проекта находится весьма прогрессивная технология фирмы Inktomi, позволяющая организовывать виртуальный параллельный суперкомпьютер на пространстве вычислительных машин, связанных в обычную сеть. Необходимо отметить, что решаемая задача является весьма удобной для организации параллельных вычислений. Вполне возможно, что Hot Bot в ближайшее время составит (или уже составляет) довольно жесткую конкуренцию Alta Vista по ее рекордным показателям.

HotBot индексирует около 55 млн. документов на WEB, а также Usenet News.

При организации запроса морфологическое расширение не производится. Можно формировать сложные запросы и сохранить свою настройку опций, искать по словам, фразе, искать персоны и линки, а также документы по дате публикации (!). Поддерживается редкая возможность найти все ссылки на задаваемый пользователем адрес.

Выходной список сортируется (% соответствия), ключевые слова не выделены. В ответе выдается не фрагмент целевого текста, а краткое содержание страницы, созданное специальной программой.

Очень быстрая, удобная и мощная SE.

http://www.infoseek.com/

InfoSeek является интегрированной поисковой системой Infoseek Corporation, содержащей SE и DIR, и обеспечивающей поиск по Newsgroup. Индексируется весь текст страниц.

Данная система не отличается особенно большой базой данных, однако согласно многим независимым оценкам является наиболее интеллектуализованной. Особенно замечательно, что эта интеллектуальность проявляется без каких либо усилий со стороны пользователя. Это значит, что можно непосредственно вводить достаточно сложный запрос, а об остальном система сама позаботится!

В процессе поиска так же как Alta Vista может различать заглавные буквы, что сильно увеличивает эффективность некоторых видов поиска.

Очень полезна возможность повторного поиска по критерию «Similar Pages», обеспечивающая нахождение родственных страниц.

Предоставляемые описания результатов - самые полные. InfoSeek, так же как Excite и Open Text, выдает хорошо отсортированный список, в котором нужные ссылки очень часто находятся в числе первых.

Кроме английского, есть еще и немецкий, испанский и французский варианты.

При необходимости провести поиск по незнакомой тематике InfoSeek будет самой лучшей SE, которая выведет пользователя на нужную информацию.

http://www.lycos.com/

Lycos (интегрированная справочно информационная система университета Carnegie Mellon) является одной из старейших и, так же как Alta Vista и Hot Bot, пытается объять весь Интернет (около 66 млн. Web страниц, сама LYCOS считает, что это около 91% WWW, но кто знает, как велик этот WWW на самом деле). Наряду с SE система содержит большой и удобный раздел обзоров, директорию и многое другое, включая интерактивную карту автомобильных дорог США. Все это легко доступно, ориентацию облегчает карта сайта (http://www.lycos.com/sitemap.html - WEB мастерам предлагаю обратить внимание - это очень удобно и для разработки сложных сайтов и для ориентации в них!).

Индексация производится не по всей Web странице, а только по создаваемому специальной программой ее содержанию. В содержание в основном попадают ключевые слова служебных заголовков (header), заголовков страниц, ссылок и немногих начальных слов разделов.

Lycos включает в индексируемое пространство FTP и Gopher сайты, содержа в базе данных информацию о большом количестве бинарных файлов (gif, jpg, wav, MPEG). Последний вид сервиса немного экзотичен: ведь не придет в голову автору назвать соответствующий wav файл «предупредительный рык морского котика, отгоняющего молодого самца от своего гарема» - а как иначе такой файл найти? Мне, например, удалось найти только одну (!) ссылку на изображения Diana Ross. Ясно, что ни на одной из многочисленных посвященных ей страниц ни одна картинка не называется «diana ross».

В отличие от большинства других база данных Lycos обновляется по частям, причем чаще реиндексируются наиболее популярные сайты. Таким образом «свежесть» получаемой информации находится в прямой зависимости от ее популярности.

Возможно формирование сложных запросов, система понимает морфологические вариации ключевых слов.

Ключевые слова запроса выделены в ответе, однако необходимая ссылка так же, как в случае с Alta Vista, часто находится не во главе получающегося списка. Полнота результатов поиска сравнима только с Ala Vista.

Все это делает данную SE одной из самых сильных и эффективных.

http://index.opentext.net/

Машина Поиска фирмы Open Text Corporation содержит как SE, так и DIR. Фирма существенно ориентирует свой бизнес на Интернет и демонстрирует свои возможности с помощью данной SE, относящейся к числу наиболее мощных. Open Text производит полнотекстовую индексацию около 60 млн. страниц. Обновляется постоянно, реиндексируя ежедневно около 50,000 страниц. Обслуживает около 250,000 запросов в день.

Может производить поиск по словам, словосочетаниям и фразам, но морфологические вариации ключевых слов не подставляет.

Система запросов Open Text одна из самых развитых и позволяет конструировать самые сложные запросы, используя операторы and, or, not, but not, near и followed by. Можно текже задать локализацию поиска: везде, в названии, в заголовке и т.д. Вследствие всего этого наибольшую пользу Open Text принесет тому пользователю, который не поленится научиться с ней обращаться.

Open Text так же, как Excite и InfoSeek, выдает хорошо отсортированный список, в котором нужные ссылки очень часто находятся в числе первых.

Очень полезный и мощный инструмент.

http://www.webcrawler.com/

Машина поиска America Online, Inc. поддерживает также DIR.

Философоия этой машины поиска проста: простая, но актуальная база, простой и быстрый поиск. Вся база данных возобновляется ежемесячно с недельными добавками, что позволяет поддерживать высокую степень адекватности получаемых результатов.

Индексируются наиболее популярные страницы (немногим более 100,000 - это одна из самых маленьких баз данных). При поисках home page каких-либо компаний WebCrawler - единственная SE, дающая соответствующую ссылку в числе первых.

Позволяет конструировать булевы запросы, но не различает заглавных и прописных букв.

Ответ сопровождается названием Web страницы без каких либо описаний, но оценивается согласно соответствия запросу (небольшая цветная полоска).

Результаты могут быть сохранены в виде bookmark.

Данная машина поиска хороша для быстрого взгляда на популярные сайты, содержащие «горячую» информацию.

Сегодня еще теснее становятся связи между Internet и такими коммерческими сетями, как CompuServe и Prodigy, пользователи которых теперь могут обмениваться электронной почтой со своими друзьями из Internet. Некоторые держатели коммерческих сетей, таких, как Delphi и America Online, работают над тем, чтобы дать своим абонентам прямой выход на услуги Internet.

2. Проведення сеансу роботи у Internet. Правила роботи у мережі Internet.

Соседние файлы в папке [MIT]