
- •Содержание
- •2Введение
- •3Информация и информационная технология
- •3.1Понятие информации
- •3.2Понятие об информационной технологии
- •3.3Количество информации
- •3.3.1Статистический подход
- •3.3.2Семантический подход
- •3.3.3Прагматический подход
- •3.3.4Структурный подход
- •3.4Информационные технологии
- •3.5Преобразование информации в данные
- •4Накопление и хранение данных
- •4.1Базы данных
- •4.1.1Иерархические базы данных
- •4.1.2Сетевые базы данных
- •4.1.3Объектная модель базы данных
- •4.1.4Реляционные базы данных
- •4.2Структура реляционных данных и принципы манипулирование ими
- •4.2.1Структура реляционных данных
- •4.2.2Целостность реляционных данных
- •4.2.3Реляционная алгебра
- •4.3Системы управления базами данных
- •5Информационный процесс обработки данных
- •5.1Организация вычислительного процесса.
- •5.2Преобразование данных.
- •5.3Нетрадиционная обработка данных.
- •5.4Отображение данных.
- •6Информационный процесс обмена данными
- •6.1Что такое компьютерная сеть
- •6.1.1Локальные вычислительные сети
- •6.1.3Глобальные вычислительные сети
- •6.2Сетевые протоколы и уровни
- •6.2.1Уровни osi.
- •6.2.2Сетевые протоколы
- •6.2.3Протокол tcp/ip
- •6.3Глобальная сеть Internet
- •6.3.1Структура Internet
- •6.3.2Передача информации в Internet
- •6.3.3Ресурсы Internet
- •6.3.4Поиск в сети Internet
- •7Информационный процесс представления знаний
- •7.1Системы искусственного интеллекта и базы знаний
- •7.2Свойства и типы знаний
- •7.3Приобретение и формализация знаний
- •7.4Методы приобретения знаний
- •8Защита информации
- •Шифрование информации.
- •8.1Стандарты в области защищенности компьютерных информационных продуктов
- •8.2Проблемы доступа к информации
- •8.3Компьютерные вирусы
- •8.3.1Троянские кони
- •8.3.2Вирусы
- •8.3.3Сетевые черви
- •8.4Межсетевые экраны (Firewall)
- •8.5Антивирусы
- •8.6Шифрование информации
6.3.4Поиск в сети Internet
За время своего существования глобальная сеть Internet превратилась в огромную библиотеку, где сеть информация обо всех сторонах деятельности человека. В связи с этим трудно переоценить значение Интернета как источника информации в любой области человеческой деятельности, в т.ч. и металлургии. Сложность состоит в особенностях хранения и представления этих знаний. Internet представляет собой довольно пеструю картину, где нет четко структурированных и подчиняющихся раз и навсегда заведенным правилам способов хранения информации. Информационные ресурсы сети разбросаны по всему миру и имеют различную структуру. В связи с этим поиск необходимой пользователю информации представляет весьма непростую задачу.
Обычно, поиск информации в сети осуществляется с помощью специальных программно-аппаратных комплексов, называемых поисковыми машинами, опирающиеся на возможности, появившиеся с появлением World Wide Web.
WWW предоставляет легкий в управлении графический интерфейс для просмотра документов Internet. Эти документы, а также ссылки между ними образуют информационную "паутину".
World Wide Web можно представить как большую библиотеку Internet. "Узлы" Web подобны книгам из этой библиотеки, а "страницы" Web подобны страницам этих книг. Собрание страниц называется узлом. Обычно путешествие по Web начинается с определенного узла.
«Начальная страница» представляет собой исходную точку для узла. Нечто подобное обложке или содержанию книги.
Каждая страница, включая начальную страницу узла, имеет уникальный адрес в формате URL «Средство просмотра» - это программное средство, используемое для просмотра страниц Web (обычно браузер).
Страницы Web взаимосвязаны. Переходы на другие страницы осуществляются с помощью выбора текста или рисунков, называемых ссылками.
Ссылки являются подчеркнутыми или ограниченными словами и рисунками, которые содержат внедренные в них адреса URL. При выборе ссылки выполняется переход на определенную страницу конкретного узла. Отличить ссылку не составляет труда. Обычно, текст ссылки подчеркнут и отличается от остального текста по цвету. Кроме того, при наведении курсора в программе просмотра страницы Web на ссылку курсор изменяет свой внешний вид.
Суть работы поисковых машин упрощенно можно описать следующим образом. На первом этапе поисковые машины выпускают в сеть специальную программу – «поискового робота», которая посещает последовательно все доступные ресурсы сети. Информация о посещенных ресурсах и их адрес (URL) записывается в базу данных поисковой машины (ресурс индексируется). В дальнейшем, ссылка на необходимый ресурс ищется уже в этой базе данных с использованием т.н. ключевых слов. Различные поисковые машины осуществляют поиск и индексацию ресурсов используя свои алгоритмы, поэтому результат поиска с использованием различных поисковых машин может быть разным.
Рассмотрим наиболее популярные сервисы.
Зарубежные
Google (http://www.google.com/)
Google - игра слов "googol", означающая 1 со 100 нулями. Google's - отражает миссию компании, создать огромную, почти бесконечную, справочную базу об информации доступной в Internet. Система поиска Google использует собственный механизм Page Rank для анализа интернет-документов, картинок, материалов из Usenet. Многоязыковая поддержка. Каталог интернет-ресурсов. Собственный новостной портал.
Система Google стала первым крупным поисковым узлом, в который включены средства полнотекстового поиска документов в формате Adobe Acrobat PDF.
Разработчики Google приложили особые усилия к тому, чтобы разместить наиболее соответствующие критерию поиска узлы в начале списка. Рейтинг страницы повышается, если на ней имеется много ссылок на другие страницы или ключевые слова соседствуют друг с другом. На странице результатов ключевые слова показаны в контексте.
Yahoo! (http://www.yahoo.com/)
Поисковая система. Интернет-аукционы и магазины. Информация о странах, политике, экономике, бизнесе, образовании, развлечениях, науке, медицине, масс-медиа и др. (на англ. и др. яз.)
Поисковая система Yahoo!, так же как и описанные выше системы, весьма обширна и очень популярна за рубежом. Она удобна для пользователя и предоставляет несколько вариантов поиска. На первой странице можно начать поиск и по ключевым словам, и по тематическим категориям. Чтобы оптимизировать поиск, откройте options (рядом с кнопкой "Search") и выберите соответствующие Вашему замыслу параметры:
искать по базе Yahoo!, по Usenet или по адресам электронной почты,
ограничить поиск материалами, размещенными за 1 последний день, за последнюю неделю, месяц, год или 3 года,
выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова,
искать по однокоренным словам или только по указанным ключевым,
выдать результаты по 10, 25, 50 или 100 на одной странице.
Можно искать и по тематическим категориям. Заходите в выбранную Вами директорию и продвигайтесь далее по различным ветвям этого "древа"; если какая-то "ветвь" помечена знаком @, это означает, что информация по этой теме находится в параллельном каталоге. Например, в категории "бизнес" будет подраздел "интеллектуальная собственность@", относящийся к разделу "законодательство". В конце каждого каталога имеется список телеконференций Usenet по этой тематике.
Если Вы не знаете наверняка, в какой тематической категории находится искомая информация, набирайте ключевые слова и нажимайте "Search". Машина выдаст Вам не только тексты, но и все категории, в которых могут содержаться тексты по Вашей теме.
Не выходя из этой поисковой системы, можно ознакомиться со всеми новостями ("New") от текущих событий в мире до новостей самой базы Yahoo!.
Alta Vista (http://www.altavista.com/)
AltaVista (буквально - "взгляд сверху" - может считаться крупнейшей поисковой системой Интернета, имеющей в базе данных более 100 миллионов документов, фантастически быстрый полнотекстовый (включая точные фразы) поиск, а также имеет целый фейерверк возможностей продвинутого поиска.
Запросы, направляемые в Yahoo!, в случае отсутствия результатов, автоматически перенаправляются в AltaVista, где в любом случае найдется все, что угодно... Поиск на многих языках, в т.ч. на русском: по ключевым словам, категориям, типу данных и т.д. Каталог ресурсов: искусство, авто, бизнес, компьютеры, работа, закон, спорт и др. Путеводитель по электронным магазинам. Новостные каналы и обзоры. Бесплатные службы: e-mail, переводчик, конструктор домашних страниц и др.
Lycos(http://www.lycos.com/)
Разделенный по трем направлениям поиск. С титульной страницы есть выход к поиску по ключевым словам c широким выбором параметров поиска через строку "Customize your search". Там Вы можете выбрать:
1) параметры поиска по каждому ключевому слову, по нескольким или по всем сразу (по всей фразе),
2) степень соответствия результатов ключевым словам (5 степеней от свободного до очень строгого),
3) форму выдачи результатов пользователю (краткую, стандартную или развернутую), а также
4) количество найденных источников на каждой странице. От того, какие параметры Вы зададите, зависит не только успех и быстрота Вашего поиска, но и его стоимость: плата за траффик возрастает пропорционально объему скачанной информации.
WebCrawler(http://webcrawler.com/)
В этой системе, как и во многих других, можно начать поиск по ключевым словам сразу с титульной страницы. Здесь же указаны и тематические разделы, так что Вы можете начать с любого "конца". Кроме того, небезынтересен раздел "WebCrawler Select", в котором Вам предлагаются обзоры лучших серверов в тематических разделах, а также "What's New" (новости) и "What's Hot" (50 наиболее посещаемых за последнюю неделю).
Galaxy(http://galaxy.einet.net/)
Положительной чертой, в отличие от других поисков, можно считать наличие подробного описания тематических категорий на первой странице. Отсюда можно увидеть все разделы и подразделы каталога и сразу войти в нужную директорию. Форма поиска также довольно подробная: есть выбор категории поиска (или поиск по всем категориям), по одному или нескольким ключевым словам, краткое и длинное изложение результатов поиска, переключение поиска на страницы Gopher или Telnet.
Go.com (http://www.go.com/)
Данный поиск, помимо компактного представления на первой странице тематических категорий, имеет широкий выбор областей поиска: по WWW в целом, по специально отобранным серверам , по телеконференциям , по e-mail адресам, по разделу новостей, по страницам "часто задаваемых вопросов".
Open Text (http://www.opentext.com/)
Форма для ключевых слов имеет несколько окошек, что позволяет разнообразить поиск.
Во-первых, значение основных ключевых слов можно сузить или расширить посредством союзов, предлогов и словосочетаний "и, или, кроме, близко к..., следует за ним".
Во-вторых, можно выбрать между простым и более мощным поиском, а также несколькими областями поиска в разных частях текста WWW-страниц (во всех частях, в заголовках, в кратких описаниях, в <title> или URL).
Starting Point (http://www.stpt.com/)
В данной системе работает простой поиск по ключевым словам, ниже поиска есть вход в тематические директории. Внутри самих директорий поиска нет, т.к. авторы ставили своей задачей поиск по наиболее объемным серверам глобальной сети.
Mallpark (http://www.mallpark.com/layer1/engines.shtml)
Более 50 поисковых систем можно использовать непосредственно с этого сервера. Все эти поисковые системы сгруппированы по нескольким разделам: информационные, поиски по программному обеспечению, поиски данных о конкретных людях, поиски электронных версий периодических изданий и книг, поиск документации и поиски по "часто задаваемым вопросам". В Mallpark Вы найдете также поиски по Gopher и Archie каталогам.
Exite (http://www.excite.com/)
Поиск по ключевым словам в WWW, Usenet, в обзорах и категориях.
HotBot (http://hotbot.lycos.com/)
На сервере HotBot к стандартной форме поиска имеется интересное расширение: через "-Modify+" к расширению поиска по ключевым словам, а через "Expert" к возможностям датирования источников, выбору гипертекстовой среды (Java, Javascript, Audio, Acrobat, Shockwave, VRML), домена или географического региона.
Отечественные
Отечественные поисковые системы удобно рассматривать разложив их по категориям в зависимости от выполняемых ими функций:
Автоматические средства поиска
Поисковые порталы
Яndex (http://www.yandex.ru/)
Rambler (http://www.rambler.ru/)
Mail.ru (http://go.mail.ru/)
Индексеры
Punto (http://www.punto.ru/)
Черепаха (http://www.turtle.ru/)
Лупа (http://www.lupa.ru/)
АПОРТ! (http://www.aport.ru/)
Russian Search Engine (http://search.interrussia.com/)
ТЕЛА (http://tela.dux.ru/)
All Stars (http://www.stars.ru/)
Сервисные системы
RaYa (http://www.raya.ru/)
Средства поиска с использованием ручного отбора
Каталоги
Weblist (http://weblist.ru/)
Атрус (www.atrus.ru)
Пингвин (http://www.pingwin.ru/)
MavicaNET - Многоязычный Поисковый Каталог (http://www.mavicanet.ru/)
Сусанин - каталог и поисковая система (http://www.susanin.net/)
One (http://top.one.ru/)
Russia on the Net – Welcome (http://www.ru/)
J2 (http://www.j2.ru/)
Каталог Российских Веб-Серверов (http://weblist.ru/russian/)
Специализированные и метапоисковые системы
Специализированные системы
FileSearch Поиск программ (http://www.filesearch.ru/)
Системы метапоиска
МетаБот.Ру (http://www.metabot.ru/ ) Использует ресурсы большинства российских поисковых ситем, а также ряда зарубежных, в том числе и FTP-серверов.
Russian Internet Search (http://www.informika.ru/windows/intern/poisk/f_rps.html) Использует ресурсы многих российских и зарубежных поисковых систем. Однако одновременно можно использовать не более пяти поисковых систем.
WebFind.Ru (http://webfind.ru/) Русская метапоисковая машина (Aport, AllTheWeb, Google, Punto, Rambler, Turtle, Yandex)
В настоящее время при поиске в Интернете чаще всего используются автоматические системы. Количество страниц, среди которых ведут поиски крупнейшие поисковые указатели, приближается к 300-миллионному рубежу.
На первом этапе программа мониторинга Сети, путешествуя по Web-узлам Интернета, просматривает Web-страницы и копирует их содержание на центральный сервер поисковой системы. Такие агентские программы называют "поисковыми роботами", "поисковыми машинами", "пауками", "червяками" и т.п.
Второй этап работы поисковой системы - индексация, т.е. преобразование всей информации, собранной поисковыми роботами, в форму, обеспечивающую быстрый поиск документа по запросу пользователя. Каждая поисковая система имеет свои приемы и методы индексации. В частности перед индексацией большинство систем очищают документ от так называемых зарезервированных слов (stop-words), к которым относятся артикли, предлоги, местоимения, а также слова, которые встречаются повсеместно, такие, например, как "computer". Некоторые системы производят нормализацию слов, отбрасывая суффиксы и окончания.
На основе "зачищенных" документов готовятся индексы Web-страниц - особая база данных, по которой впоследствии будет производиться поиск запрашиваемой информации. Алгоритм индексации, а также поисковый робот составляют коммерческую тайну поисковой службы и не разглашаются.
Третий этап работы поискового указателя - ответ на ваш конкретный запрос. Поисковая система анализирует ключевые слова запроса пользователя, затем просматривает созданные индексы хранящихся на ее сервере документов, после чего выполняется поиск совпадений. Служба работает автоматически, поэтому найденных по запросу Web-страниц будет гораздо больше, чем при поиске через поисковый каталог.
В формировании результирующего списка найденных ссылок каждая поисковая система придерживается своей политики. Чаще других при исчислении рейтинга ссылок учитываются такие обстоятельства:
разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);
разыскиваемые слова расположены близко к началу страницы;
разыскиваемые слова присутствуют в заголовке страницы;
Web-страница имеет иллюстрацию, текст к которой содержит слова, введенные пользователем.
Объем проиндексированных этими поисковыми системами документов составляет примерно 25% от общего объема WWW, что является хорошим показателем для стремительно растущей Сети.
В то же время отсутствие контроля человека за сбором информации откладывает отпечаток на качество собираемого материала. Роботу не под силу оценить научную значимость и достоверность найденного материала, профессиональный уровень автора, верно определить рейтинг документа в результирующем списке. Однако поисковые указатели окажут неоценимую помощь в розыске новых, только что появившихся в Сети материалов, хотя возможно и спорных, к анализу которых следует подойти ответственно.
Яndex (http://yandex.ru и http://ya.ru)
Наиболее популярный поисковый сервис в русской части Интернета. Поисковая машина использует механизм Яndex-Web, областью поиска являются Web-сервера доменов 'su' и 'ru', а также иностранные русскоязычные сервера, в том числе - стран СНГ. Можно задавать запрос на естественном языке, лишь в общем виде представляя область поиска. Есть опция «найти похожие документы». Расширенный поиск.
Оригинальная разработка компании CompTek
Rambler (http://www.rambler.ru/ и http://www.r0.ru/)
Мощная и быстрая машина поиска компании Stack Ltd. (Пущино).В переводе значение слова Rambler - скиталец, странник, бродяга.
1996 год - ключевой для развития русского киберпространства. Именно в этот год Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую русскую поисковую систему для Интернета. Команда «Стека» прозорливо сделала ставку на программу-поисковик.
В настоящее время очень динамично развивающийся проект. Наряду с Яndexом лидер в российской части Интернета.
Mail.ru (http://go.mail.ru/)
Крупнейший в России почтовый сервис также обзавелся своей поисковой системой заслуживающей внимания.
За последние полгода количество страниц, по которым позволяет искать система, выросло до 4 миллиардов.
А теперь почти под каждым найденным сайтом появилась ссылка на перечень ресурсов, схожих с ним по тематике.
Сервисные страницы, облегчающие отправку запроса на несколько поисковых порталов также популярны, однако, их функциональность не может сравнится с метапоисковыми средствами.
RaYa (http://www.raya.ru/)
Частный некоммерческий интерактивный проект. Он создан двумя частными лицами. Отсылает запросы сразу на две российские поисковые машины (Yandex и Rambler), а также на Goggle.
Индексеры – поисковые сервисы, очень похожие внешне на поисковые порталы, однако, не обладающие такими возможностями по интеллектуальному поиску как они. Принцип их действия состоит в постоянном индексировании страничек Интернета с занесением их в базу данных практически без дополнительной обработки. По этой причины результаты поиска бывают несколько хуже, чем при использовании поисковых порталов.
Поисковая машина «Апорт!» (http://www.aport.ru/)
Один из старейших поисковиков рунета. Поиск ведется по 1 047 772 документам (2 208 044 URL, 10 584 серверов) - данные на 18.11.97. Обеспечивает перевод запросов и результатов поиска с русского на английский и обратно, имеет функцию исправления ошибок. В настоящее время теряет популярность из-за сильной конкуренции со стороны более совершенных поисковых машин.
Punto (http://www.punto.ru/)
Молодая, но сравнению с вышеперечисленными, поисковая система. В настоящее время, не особенно популярна. Тем не менее, проект успешно развивается.
Другие индексеры в принципе похожи на вышеперечисленные.
Каталоги. Поисковые каталоги похожи на предметные каталоги общественных и научных библиотек. Крупнейшим поисковым каталогом мира сегодня считается поисковая система «Yahoo!» (www.yahoo.com). Она предоставляет примерно 1млн ссылок к ресурсам Сети, т.е. охватывает лишь тысячную долю всего Web-пространства. Достоинством поисковых каталогов, как и их недостатком, является то, что вся информация, помещаемая в каталог, просматривается и отбирается специально подготовленным штатом редакторов. Такой подход к формированию каталогов защищает их от информационного «мусора» и обеспечивает высокую репутацию таких служб, хотя совокупный объем ресурсов справочных каталогов невелик.
Российские каталоги не отличаются большим объемом и поэтому не столь популярны, как автоматические поисковые системы, однако в случае тематического поиска они могут быть очень полезны. Нет смысла рассматривать каждый каталог в отдельности. Устройство их сходно.
Специализированные системы. Системы, настроенные на поиск определенного типа информации в сети. Полезны при поиске тематической информации. В настоящее время не получили достаточно широкого распространения.
Системы метапоиска. Метапоисковые системы являются разновидностью поисковых инструментов, они не имеют собственных поисковых роботов и баз данных (индексных файлов). Их главное достоинство заключается в умении рассылать запрос сразу в несколько поисковых систем и затем суммировать результаты. Ими стоит воспользоваться при поиске редких документов или при крайнем недостатке времени, поскольку метапоисковые средства очень часто не в состоянии корректно обработать запрос для различных поисковых систем, а также правильно совместить результаты, полученные разными системами.