- •2. Технология поиска информации в Google 12
- •1. Информационные ресурсы сети Интернет
- •1.1. Типология методов поиска информации
- •1.2. Технология поиска с использованием поисковых машин
- •2. Технология поиска информации в Google.Ru
- •2.1. Что такое Google
- •2.2. Обзор поиска
- •2.3. Расширенный поиск
- •2.4. Дополнительные функции поиска
Содержание
Введение 3
1. Информационные ресурсы сети Интернет 4
1.1. Типология методов поиска информации 6
1.2. Технология поиска с использованием поисковых машин 8
2. Технология поиска информации в Google 12
2.1. Что такое Google 13
2.2. Обзор поиска 14
2.3. Расширенный поиск 16
2.4. Дополнительные функции поиска 17
Заключение 22
Список литературы 23
Введение
"Всемирная паутина" в Интернет - это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту сети зачастую приходиться перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).
С начала 90-х годов интенсивно развиваются справочные службы Интернет, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.
В универсальных службах используется обычный принцип поиска в неструктурированных документах - по ключевым словам.
Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа. Во многих текстовых процессорах ключевым словом является текст, по которому осуществляется поиск нужной информации (С помощью команд Найти и Заменить).
Например, для литературы по программированию характерны ключевые слова "Условный переход", "Макрокоманда", "Отработка прерываний" и т.д.
Универсальная служба поиска (поисковая система) - это комплекс программ и мощных компьютеров, выполняющих следующие функции.
Специальная программа (поисковый робот) непрерывно просматривает страницы "Всемирной паутины", выбирает ключевые слова и адреса документов, в которых эти слова обнаружены. Здесь уместно упомянуть об индексированном файле. Отдельный файл, содержащий информацию о физическом расположении записей в каком-либо файле базы данных. Вместо этого, чтобы просматривать фактический файл базы данных, программы базы данных пользуются индексами, что позволяет существенно ускорить поиск нужной информации.
Web - сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе - поисковой машине.
Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющим условиям запроса (точнее список ссылок на эти страницы) и возвращает его Web - серверу.
Web - сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.
1. Информационные ресурсы сети Интернет
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий, а особенно для учащихся, Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.
Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.
По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.
Каталоги
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
Поисковые машины
Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.
При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
