Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

учебник по инф. ВАЖНО

.pdf
Скачиваний:
78
Добавлен:
23.05.2015
Размер:
1.43 Mб
Скачать

Поиск в системе Google

Google не только упрощает доступ к миллиардам веб-страниц, но и предлагает различные функции, позволяющие найти нужную информацию (табл. 6).

Функции поиска Google в Интернете25

 

Таблица 6

 

 

 

 

 

 

 

 

 

 

Поисковые функции

 

 

Описание

 

 

 

Сохранено в кэше26

Снимок экрана каждой страницы, сделанный при

 

 

индексировании

 

 

 

 

 

 

Сканируя Интернет, Google делает снимок экрана

 

 

каждой просмотренной страницы и сохраняет его

 

 

в виде резервной копии на случай, если исходная

 

 

страница недоступна. За ссылкой «Сохранено в кэ-

 

 

ше» кроется версия страницы на момент ее пос-

 

 

ледней индексации. Google использует сохранен-

 

 

ное в кэше содержание для оценки релевантности

 

 

страницы относительно запроса поиска

 

 

Калькулятор

С помощью калькулятора можно решать матема-

 

 

тические задачи, включая элементарные арифме-

 

 

тические подсчеты и более сложные задания с- ис

 

пользованием единиц измерения, преобразований

 

и физических констант

 

 

 

Конвертирование валют

Перевод денег из одной валюты в другую

 

Определения

Поиск словарных определений, собранных из раз-

 

 

личных электронных источников

 

 

 

 

Список определений можно также получить с по-

 

мощью специального оператора«define:», после

 

которого без пробела указывается искомое слово.

 

Например, при поиске [define:компьютер] появит-

 

ся список определений для слова«компьютер»,

 

собранный из различных электронных источников

Типы файлов

Поиск по файлам не только в HTML, но и в дру-

 

 

гих форматах, включая документы PDF и др.

Группы

Публикации

и

сообщения

из

группGoogle

 

 

в обычных результатах поиска в Интернете

Мне повезет!

Первая страница из результатов поиска по Вашему

 

 

запросу без просмотра результатов

 

 

 

______________

25Справочный центр Google [Электронный ресурс]. – URL: http://www.google.ru/intl/ru/help/ features.html#cached

26 Кэш (англ. cache, от фр. cacher – прятать) – промежуточный буфер с быстрым доступом, содержащий копию той информации, которая хранится в памяти с менее быстрым доступом, но с наибольшей вероятностью может быть оттуда запрошена.

121

Окончание табл. 6

Поисковые функции

 

Описание

 

 

 

 

Проверка

правописания

Программа проверки правописанияGoogleв

авто-

 

 

 

матически проверяет, использована ли самая упот-

 

 

 

ребительная версия написания запроса. Если по под-

 

 

 

счетам программы получается больше значимых

 

 

результатов поиска с другим написанием, этот вари-

 

 

ант будет предложен в сообщении«Возможно, Вы

 

 

имели в виду: (более распространенный вариант)?».

 

 

Нажав на предложенный вариант, можно запустить

 

 

поиск Google по этому запросу. Так как программа

 

 

проверки правописания Google основана на случаях

 

 

употребления всех слов в Интернете, она может

 

 

предлагать

распространенные

варианты

написания

 

 

имен собственных (имен людей и географических

 

 

названий), которые могут отсутствовать в стандарт-

 

 

ных программах проверки орфографии и в словарях

Поиск по номеру

В строке поиска Google можно вводить иденти-

 

 

 

фикационные номера для отслеживания посылок,

 

 

номера патентов и другие специальные номера,

 

 

чтобы быстро находить связанную с ними инфор-

 

 

мацию в различных базах данных

 

 

 

Похожие страницы

Страницы, связанные с определенным результа-

 

 

 

том поиска

 

 

 

 

 

 

Поиск по сайту

Поиск информации на конкретном сайте. Слово

 

 

 

«site» с двоеточием позволяет ограничить поиск

 

 

определенным сайтом. Для этого необходимо ввести,

 

 

например, site:primer.ru в строке поиска Google

 

Перевод

веб-страниц

Используя

технологии

машинного

 

перевода,

 

 

Google предоставляет

пользователям

доступ к

 

 

веб-страницам, написанным на иностранных язы-

 

 

ках. В настоящий момент поддерживаются сле-

 

 

дующие языковые пары: английский – арабский,

 

 

испанский, итальянский, китайский, корейский,

 

 

немецкий, португальский и французский, а также

 

 

немецкий – французский

 

 

 

 

 

Кто ссылается на Вас?

Поиск страниц, ссылающихся на определенный

 

 

 

URL-адрес,

используя

оператор «link:».

Запрос

 

 

«link:URLсайта» показывает

страницы,

которые

 

 

ссылаются на данный URL-адрес. Например, в от-

 

 

вет на запрос«link:www.google.ru» будут отобра-

 

 

жены страницы, ссылающиеся на главную страни-

 

 

цу Google. Совмещать

поиск «link:» с

обычным

 

 

поиском по ключевым словам невозможно

 

 

 

122

Расширенный поиск Google

Поиск Google не ограничивается поиском введенных слов. Система предоставляет гораздо больше возможностей для получения точного результата (табл. 7). С помощью «Расширенного поиска» можно искать только те страницы, которые:

·содержат ВСЕ введенные условия поиска;

·содержат точное словосочетание;

·содержат хотя бы одно из введенных слов;

·НЕ содержат ни одно из введенных слов;

·написаны на определенном языке;

·созданы в определенном формате;

·были изменены в определенный период времени;

·содержат числа из определенного диапазона;

·находятся на определенном домене или веб-сайте;

·не содержат материалов, предназначенных только для взрослых.

 

Таблица 7

Операторы расширенного поиска в Google

 

 

 

Оператор

Описание

Поиск «+»

Google игнорирует общие слова и символы на некото-

 

 

рых языках, такие как где, как, 1, а также отдельные

 

 

цифры и буквы, так как они замедляют поиск и не влия-

 

 

ют на качество результатов

 

 

Если общее слово должно быть включено в поисковый

 

 

запрос, необходимо поставить перед ним знак«+» (пе-

 

 

ред знаком «+» обязательно должен быть пробел)

тильду

Поиск синонимов

Для поиска синонимов необходимо поставить

 

(«~») непосредственно перед словом (пока только в поис-

 

 

ках на английском языке)

 

Поиск «OR»

Чтобы найти страницы, которые содержат одно из двух

 

(или)

условий поиска, введите между ними «OR», написанное

 

 

заглавными буквами

 

Поиск в домене

ПоискGoogle может использоваться в пределах одного

 

 

веб-сайта. Для этого введите условия поиска, а после

 

 

них введите слово «site», двоеточие и название домена

 

Поиск по диапа-

Поиск по диапазону чисел ищет результаты, содержа-

 

зону чисел

щие числа в указанном диапазоне. Для этого необходи-

 

 

мо ввести два числа, разделенные двумя точками без

 

 

пробелов, в строку поиска вместе с остальными усло-

 

 

виями запроса с указанием единиц измерения. С помо-

 

 

щью диапазона чисел можно задавать любые диапазо-

 

 

ны – от дат (Вилли Мэйз 1950 … 1960) до веса (5000 …

 

 

10 000 кг грузовик)

 

123

 

Окончание табл. 7

Оператор

Описание

 

Другие функции

Язык

 

расширенного

Поиск по технологии (для поиска информации, связан-

 

поиска

ной с Apple Macintosh, BSD Unix, Linux или Microsoft)

 

 

Дата (просмотр результатов за последние три, шесть

 

 

или двенадцать месяцев)

 

 

Расположение (указание на то, где условия поиска

 

 

должны появляться на странице – в любом месте, в за-

 

 

головке или в URL

 

 

Домены (поиск только в пределах указанного веб-сайта

 

 

или исключение этого сайта из поиска)

 

 

Безопасный поиск (фильтрация непристойного содер-

 

 

жания из результатов поиска)

 

Следует отметить, что поисковые механизмы глобальных сетей быстро развиваются и совершенствуются. В последнее время заметна тенденция к объединению, интеграции разных типов АИПС. Так, Excite, InfoSeek, HotBot включают два типа АИПС, тематические ка-

талоги Yahoo!, LookSmart поддерживают поиск в «е-mail directories»

адреса человека по его имени. Yahoo!, Snap! Атрус, Rambler размещают на стартовых веб-страницах разнообразные ссылки общего ин- формационно-развлекательного характера – новости, прогноз погоды, фондовые сводки и спортивные результаты, интегрируют другие ресурсы и сервисы (бесплатные почтовые ящики, веб-страницы, подписка на форумы и пр.) дополнительно к структурированным тематическим каталогам.

Знание пользователями особенностей программной реализации математического аппарата поисковых инструментов(алгоритмы, методы и средства структурирования информационных запросов, критерии выдачи информации, стратегия поиска и организации массивов) позволяет повысить эффективность поиска релевантной информации в Интернете. Сложность освоения стратегии поиска электронной информации связана с тем, что АИПС используют различные поисковые алгоритмы, методы и средства и поддерживают различные наборы поисковых операторов, символов или слов. Однако наметившееся в последнее время стремление к стандартизации интерфейса АИПС различ-

ных типов как, например, поддержка All-in-One, LocalFind.com, Search, Dogpile, Baldey, BigHub и др. метапоиска (переадресации заданного условия поиска в другие АИПС), внушает надежду на решение этой проблемы в ближайшем будущем.

124

Э т о и н т е р е с н о

Ключевые показатели основных занятий пользователей в Интернете

В начале сентября 2009 г. RUметрика (http://rumetrika.rambler.ru) провела он-лайн-опрос пользователей касательно их активности в Интернете. Помимо действий, выполняемых когда-либо за последний месяц, отдельно выделялись занятия, которые пользователь считает для себя необходимым выполнять регулярно, каждый день:

· самое популярное занятие пользователей Рунета– чтение новостей. От 65 до 77% пользователей делают это хотя бы раз в месяц;

·поисковыми сервисами ежемесячно пользуются от 50 до 81,4% пользователей сети в РФ;

·фото и видео в сети размещают вдвое меньше пользователей, чем скачивают и смотрят, по аудиоинформации подобный разброс достигает

7–8 раз;

·покупки в сети совершает примерно20%, пользуются электронными деньгами – от 7 до 15,4% пользователей, финансовые и банковские операции проводят он-лайн 5–12,4%;

·за рубежом пользователи чаще всего пользуются электронной почтой (60%) и ищут информацию в сети (49%);

·пользователи глобальной сети вдвое реже интересуются новостями

(39%), чем суточная аудитория Рунета (70%).

Таблица 8

Сводные данные о видах сетевой активности пользователей Рунета, %

Виды сетевой активности пользователей Рунета

RUметрика

The Online

Monitor

 

 

 

 

 

Чтение новостей в Интернете

77,1

65,0

Пользование электронной почтой

73,8

77,7

Пользование поисковыми сервисами

68,7

81,4

Просмотр прогноза погоды

68,4

66,9

Скачивание и просмотр фото, видео

46,6

40,6

Скачивание, обновление ПО

44,3

49,1

Чтение блогов, форумов

41,8

33,0

Скачивание и прослушивание аудио

38,6

46,8

Общение по ICQ и т. п.

34,7

55,7

Он-лайн-игры

23,4

31,2

Размещение фото, видео

22,9

36,8 / 8,2

Совершение покупок в Интернете

19,8

20,6

Просмотр онлайн-ТВ

19,0

16,4

Писать в блогах, на форумах и т. п.

15,9

11,7

125

Окончание табл. 8

Виды сетевой активности пользователей Рунета

RUметрика

The Online

 

 

Monitor

Посещение сайтов знакомств

15,5

15,3

Оплата товаров-услуг электронными деньгами

12,7

15,4

Проведение банковских / финансовых операций в сети

12,4

11,1

Размещение аудиокомпозиций

5,3

9,0

Источники в помощь

1.Ашманов, И. С. Оптимизация и продвижение сайтов в поисковых системах / И. Ашманов, А. Иванов. – СПб. [и др.] : Питер, 2008. – 400 с.

2.Бэттелл, Д. Поиск : как компания «Google» и ее конкуренты переписали законы бизнеса и изменили нашу культуру: [пер. с англ.] / Д. Бэттелл. –

М. : Добрая кн., 2008. – 359 с.

3.Галеева, И. С. Интернет как инструмент библиографического поиска / И. С. Галеева. – СПб. : Профессия, 2007. – 245 с.

4.Романенко, В. Н. Работа в Интернете от бытового до профессионального поиска : практ. пособие с примерами и упражнениями / В. Н. Романенко, Г. В. Никитина, В. С. Неверов. – СПб. : Профессия, 2008. – 416 с.

5.Скорняков, Э. П. Использование Интернета при проведении патентных исследований / Э. П. Скорняков, В. Р. Смирнова, С. В. Гаврилов. – 3-е изд., перер. и доп. – М. : Патент, 2006. – 85 с.

6.Смирнов, С. Р. Интернет-навигация (литература в Интернете) : учеб. пособие / С. Р. Смирнов. – Изд. 2-е, испр. и доп. – Иркутск : [б. и.], 2008.

7.Фишкин, А. В. Поиск в Интернете / Фишкин А. В. – М. : Альфа-Пресс, 2005. – 107 с.

17. Поисковые технологии

Информационный поиск (ИП) рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в информационных ресурсах, БД, информационных системах.

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой. В настоящее время ИП – это бурно развивающаяся область науки, популярность которой обусловлена экспоненциальным ростом объемов информации, в частности в сети Интернет.

126

Говоря о системах ИП, употребляют термины запрос и объект запроса.

Запрос – это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса – это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо нее хранится суррогат.

Основная задача ИП– помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Поиск информации представляет собой процесс выявления в некотором множестве страниц(документов), которые посвящены указанной теме, удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые(подходящие информационной потребности) факты, сведения, данные.

Поиск включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам, которые условно можно объединить в 4 этапа:

1)определение информационной потребности и формулировка информационного запроса;

2)определение совокупности возможных источников;

3)извлечение информации из выявленных информационных мас-

сивов;

4)ознакомление с результатами поиска и их оценка. Полнотекстовый поиск – поиск по всему содержимому документа.

Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

127

Поиск по метаданным – это поиск по нескольким атрибутам документа, поддерживаемым системой – название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам – диалог поиска в файловой системе (например, MS Windows).

Формирование поискового предписания

Поисковое предписание – текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска [3]. Составление поисковых предписаний является достаточно трудоемкой и ответственной операцией в поисковой процедуре, и качество предписания во многом зависит от поисковых возможностей ИПС, к которым пользователь обращается.

Процедура поиска сводится к выбору средств ограничения информационного пространства массива, то есть к выбору средств сужения рамок поиска, поскольку, если говорить строго, любой документ, относящийся по тематике к массиву, в той или иной степени будет релевантен запросу, ориентированному на этот массив. В качестве таких ограничителей выступают содержательные и формальные поисковые признаки. Задача состоит в том, чтобы правильно сформулировать и организовать набор таких признаков. Наиболее приемлемые условия для поиска создает диалоговый режим, поскольку он обеспечивает пользователям достаточно гибкий режим работы – позволяет вносить по ходу поиска уточнения, оперативно реагировать на ответы, изменять стратегию поиска, выбирать состав полей, выдаваемых на терминал, сохранять формулировку поискового предписания на будущее, обращаться к средствам «подсказки», которые помогут более рационально распорядиться возможностями системы.

Поиск в базах данных

Обычно сам поиск предваряется перечнем операций диалогового взаимодействия с базой данных: установление связи с базой данных (информационным центром), предъявление пароля, обмен регламентными сообщениями с телекоммуникационным монитором, с поисковой прикладной программой (ППП), выбор режима работы, набор на клавиатуре поискового предписания в сеансе доступа к БД.

На стадии составления поискового предписания указываются желаемые БД и имена БД, в которых требуется произвести поиск. Релевантные запросу БД определяются путем обращения в специальную адресную базу данных.

128

Опыт диалогового поиска в политематических базах данных показывает, что для получения удовлетворительной полноты требуется, как правило, искать не в одной, а в нескольких тематически связанных базах данных. В этих случаях прибегают к средствам нахождения БД путем ознакомления пользователя с каталогом БД и общими описаниями тематических разделов, хотя далеко не всегда этих средств бывает достаточно, чтобы выбрать нужные БД. По этой причине последние годы в ряде банков данных были созданы условия для параллельного поиска во всех доступных БД по словарным и инверсным файлам, что значительно повысило степень релевантности БД по отношению к поисковому предписанию.

Средства оценки полноты представления ресурсов тематически связанных БД помогают создать компактную систему, позволяющую легко определить БД, в наибольшей степени близкие к указанной пользователем тематике. В этом случае, если пользователь указал«профильную» его тематике базу данных, то ИПП (интеллектуальный поисковый процессор), располагая собственными «знаниями», выполнит поиск в ассоциированных базах данных.

Иногда бывает необходимо «доработать» запрос (поисковое предписание) в режиме диалога пользователя с ИПП, который формирует необходимые подсказки, не прибегая к обращениям в банки данных. Пользователь может указать приемлемые предельные числа ожидаемых документов, хронологическую глубину БД, ограничения поиска по определенным полям (авторы, названия, языки, источники). На экран выводится форма с указаниями пользователю по ее заполнению. Если каких-либо пожеланий по специфике поиска у пользователя нет, ИПП по умолчанию принимает решение о стандартном сценарии выполнения поискового предписания. В случае необходимости поиско-

вые признаки предписания можно объединить соответствующими операторами (логическими связками).

Довольно распространенной операцией в процедуре собственного поиска является ограничение на объем выдачи(от минимального до максимального). Если результат поиска попадает в этот диапазон, то ИПП переходит к следующей фразе и формирует самостоятельно перечень записей (текстов) в качестве ответа на запрос. Если число записей меньше минимально допустимого, предпринимаются шаги для снятия излишних ограничений в поисковом предписании(исключаются поисковые признаки с низкой частотой встречаемости, заменяются операторы для увеличения объема выдачи, включаются в предписание синонимы

129

и признаки, связанные с исходными родовидовыми отношениями, при наличии, тезауруса).

В случае чрезмерного объема ожидаемой выдачи, если выявляются признаки с высокой частотой встречаемости, делаются попытки модифицировать поисковое предписание для ограничения числа выдаваемых документов.

Некоторые сценарии работы ИПП предусматривают выделение из чрезмерной выдачи фрагментов– приоритетных записей (например, последние публикации, публикации на определенных языках, публикации, содержащие большое число ссылок и т. п.). Однако при всей важности мер, направленных на усиление степени алгоритмизации поиска, диалоговый режим в значительной степени продолжает все-таки опираться на интуицию пользователя и носит эвристический характер. Алгоритм лишь подсказывает, направляет и упорядочивает процедуру поиска. Участие человека в процессе поиска увеличивает его эффективность, но при условии, что этот человек-посредник хорошо разбирается в возможностях средств ИПС.

Поисковые операторы, символы и правила АИПС

Используя некоторые стандартные и нестандартные приемы(методы, технологии, правила) для составления поисковых запросов, можно повысить точность поиска в АИПС. Поиск релевантной информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в базах данных АИПС документов. Сложность составления запроса связана с многозначностью смыслового содержания документов и запросов, а также с тем, что большинство АИПС используют свой собственный уникальный набор поисковых операторов, символов и слов, правил запроса. Наблюдающаяся тенденция к стандартизации означает, что некоторые или большинство из АИПС будут поддерживать уже существующие приемы, как, например, имеющийся язык запросов в поисковых системахRambler и Яndex (логические связки, группы, словоформы, усечение слов и пр.). Так, Alta Vista поддерживает два приема запросов – простой (Simple Search) и усложненный (Advanced Search) на основе бланков, а также дополнительную возможность исследования статистики употребления и/ или написания тех или иных слов(word count). Yahoo! включает доступ к двум методам работы с каталогом – поиск по ключевым словам и иерархическому дереву категорий. Кроме того, в конце каждой страницы с результатами поиска содержатся ссылки на другие АИПС, для которых вписываются использованные ключевые слова (метапоиск).

130