Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Веб-технологии и веб-дизайн

.pdf
Скачиваний:
66
Добавлен:
05.03.2016
Размер:
3.22 Mб
Скачать

Рисунок 2.7 – Результаты поиска в каталоге по первому варианту

Рисунок 2.8 – Ввод запроса для поиска в каталоге

В результате поиска выданы результаты, представленные на рис. 2.9. Искомый сайт находится первым и вторым в списке подраздела. Появление сайта в результатах поиска дважды объясняется тем, что он внесен в разные разделы и имеет там разные названия.

Обратите внимание, что после названия сайта следует краткая аннотация. Ниже – адрес сайта в интернете и дата внесения в каталог. В четвертой строке указана рубрика, раздел и регион. Именно в этой рубрике мы нашли сайт с помощью второго варианта поиска.

21

Рисунок 2.9 – Результаты поиска в каталоге по запросу

Поисковые системы (ПС) имеют пересечение с «продвинутыми» каталогами. Многие современные поисковые ресурсы совмещают в себе возможности каталога и ПС, позволяя искать информацию не только в содержимом каталога, но и во всем интернете.

Работа пользователя с ПС основывается на формировании запроса, по которому происходит отбор нужных документов из базы данных. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и краткой аннотации к ним.

Ключевое слово – это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

Запрос – это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос – это инструкция (команда) для ПС на поиск нужных документов.

Запросы бывают двух типов: простые и сложные (или расширенные, advanced). Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.

Когда идет обслуживание конкретного запроса, ПС сравнивает ключевые слова, введенные пользователем, с ключевыми словами, полученными в процессе

22

индексации и хранящимися в базе данных. При совпадении этих слов пользователю выдается адрес данного документа. Процедура поиска по ключевым словам очень напоминает работу с обычной книгой, в которой есть алфавитный указатель.

Для реализации поиска ПС проводит индексацию сайтов интернета. Индексация – это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и адресов.

Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью специальных программ – роботов. Программа-робот автоматически периодически «посещает» сайты и собирает сведения об их содержимом и местоположении. Эта программа постоянно сканирует сеть, запоминает расположение информации на сайтах, чтобы потом показать пользователю точное место хранения документа.

Фактически роботы начинают поиск задолго до обслуживания конкретного запроса. Этим объясняется потрясающе высокая скорость поиска нужной информации.

На сегодняшний день поисковик Google проиндексировал наибольшее число web-страниц – свыше 8 млрд.! Это значит, что вероятность найти нужный документ с помощью Google выше. При этом, как правило, Google обеспечивает более высокую релевантность поиска, чем другие ПС.

Google хорошо «знает» русскоязычный сектор интернета и зачастую выдает большее количество ссылок, чем «три кита поиска в рунете» – ПС Яндекс, Рамблер и Апорт. Google предлагает службы, отсутствующие у других ПС (например, поиск в группах новостей). Google работает быстро и надежно.

Google стал законодателем мод: другие ПС не только начали использовать алгоритмы, впервые примененные поисковиком Google, но даже дизайн своей домашней страницы сделали похожим. Поэтому после ознакомления с Google у Вас не возникнет никаких трудностей в их использовании.

После того, как вы наберете в броузере www.google.com, по умолчанию откроется локальная домашняя страница для Украины: www.google.com.ua (см. рис. 2.10). Перейти на англоязычную версию сайта можно, щелкнув по ссылке

Google.com in English.

Формулируя запрос, Вам необходимо иметь ввиду две особенности ПС

Google:

Google производит морфологический анализ слов на русском языке. Поэтому указанные Вами слова в результатах поиска будут в разных словоформах;

для ПС нет разницы между прописными и строчными буквами.

Ссылка «Расширенный поиск» открывает форму расширенного поиска для более эффективной работы.

Ссылка «Языковые инструменты» открывает окно, где Вы можете изменить язык интерфейса и поиска.

23

Рисунок 2.10 – Стартовая страница поисковой системы Google

Окно «Расширенный поиск». Рассмотрим его подробнее (рис. 2.11).

А. Вы можете указать слова и фразы для уточнения запроса:

«со всеми словами» – все указанные слова будут присутствовать в найденных документах, но они могут оказаться в разных частях текста;

«с точной фразой» – будут найдены документы с точным соответствием фразы;

«с любым из слов» – в найденных документах будет присутствовать хотя бы одно указанное слово;

«без слов» – документы, содержащие указанные здесь слова, будут отсекаться из результатов поиска.

Рекомендации.

Выбирайте вариант «со всеми словами», если вы знаете несколько ключевых слов для искомого документа. Если Вы располагаете точной цитатой из необходимого документа, то лучше ввести ее целиком в поле «с точной фразой».

Вариант «с любым из слов» позволит Вам найти огромное количество документов, поэтому указывайте здесь редкие слова, имена или термины. Вариант «без слов» позволит Вам ограничить появление похожих названий, имен и т.п. в результатах поиска.

Б. Вы можете указать параметры искомого документа:

«Язык» – укажите язык в выпадающем списке справа;

«Формат файла» – оставьте вариант «любой формат», если Вы не ищете файл особого формата, или укажите ограничение «Только», «Не» и выберите искомый формат файла справа;

«Дата» – укажите период времени (3, 6, 12 мес.), в который производились изменения искомой страницы.

24

А

Д

Б

В

Е

Г

Рисунок 2.11 – Окно расширенного поиска в Google

Дополнение.

Google может искать следующие форматы файлов (не считая web-

документов): Adobe Acrobat PDF (.pdf), Adobe Postscript (.ps), Microsoft Word

(.doc), Microsoft Excel (.xls), Microsoft PowerPoint (.ppt), Rich Text Format (.rtf).

Рекомендации.

Если Вам необходимо найти, например, прайс-лист, то укажите наиболее часто используемый для этого формат Microsoft Excel (.xls) и слева выберите вариант «Только».

Если при поиске Вас интересует только свежая информация, то укажите в поле дата вариант «3 месяца».

В. Вы можете указать параметры искомого документа:

«Расположение слов» – укажите, где именно на странице должны находиться указанные слова:

o где угодно на странице, o в заголовке страницы,

o в основной части страницы, o в адресе страницы,

o в ссылках на данную страницу.

«Домен» – оставьте эту строку без изменений, если у Вас нет ограничений по поиску на всех сайтах интернета, или укажите ограничение «Только», «Не» и укажите адрес сайта. Таким образом, можно провести поиск по определенному сайту и, наоборот, исключить из поиска сайт.

«Права использования» – укажите, необходимо ли учитывать в результате поиска авторские права:

o [документы] не фильтруются по лицензии;

25

o можно бесплатно использовать самому или совместно с другими;

o можно бесплатно использовать самому или совместно с другими, даже в коммерческих целях;

o можно бесплатно использовать самому, совместно с другими или изменять;

o можно бесплатно использовать самому, совместно с другими или изменять, даже в коммерческих целях.

Г. В нижней части формы Вы можете указать:

в пункте «Похожие» – что Вам необходимо найти web-страницы, похожие на указанную в поле ввода;

в пункте «Ссылки» – что Вам необходимо найти страницы, ссылающиеся на указанную.

Д. Вы можете указать, какое количество результатов поиска вывести на странице. При небольшой скорости соединения не рекомендуется выводить на итоговую страницу более 10 результатов поиска.

Е. Кнопка «Поиск в Google» активизирует поиск. По умолчанию можно нажать Enter на клавиатуре.

2.2Задание и порядок выполнения работы

2.2.1 Задание на поиск в каталоге

Вам необходимо за 30 минут найти в любом каталоге указанные ниже сайты. Первые пять найти по первому варианту просмотра каталога, оставшиеся – по второму варианту поиска в каталоге.

Вответе нужно указать:

полное название сайта;

адрес сайта в интернете;

расположение сайта в структуре выбранного каталога;

при втором варианте поиска указать альтернативное расположение сайта в структуре каталога.

Задание на поиск следующих сайтов:

1. Музей Виктора Астафьева в городе Чусовой;

2.Посольство Сенегала в России;

3.Сайт Пушкинского дома;

4.Сайт актрисы Натальи Бондарчук;

5.«Краткая энциклопедия телевидения»;

6.Сайт журнала «Компьютер Пресс»;

7.Сайт фирмы «Инволюкс» по продаже офисной мебели в Европе;

8.Портал «Металлургия Украины»;

9.Сайт поклонников аккордеониста-виртуоза и народного артиста Яна Табачника;

10.Уфологический словарь-справочник (Ярослава Сочки).

26

2.2.2 Задание на поиск в индексе

Необходимо ответить на указанные вопросы в течение 45 минут (по 3 минуты на 1 вопрос) с помощью любой поисковой системы, вам известной. Ответ на вопрос должен состоять из четырех частей:

сформулированный запрос для поисковой системы;

текст ответа (обычно 1-2 слова, дата, или число) со скриншотом;

адрес страницы, содержащей данную информацию;

скриншот страницы по результатам поиска.

Ответ необходимо заносить в электронную таблицу, сохраненную заранее.

Вопросы для поиска:

1.Сколько филиалов Виртуального русского музея открыто в России?

2.В каком году были выпущены в продажу первые колготки?

3.Какая из статуй выше – Родина-Мать в Волгограде или Христа в Рио-де- Жанейро?

4.Кто был первым мужем Анастасии Вертинской?

5.Какая оперная партия стала первой в карьере Д. Хворостовского?

6.На какой олимпиаде сборная СССР по футболу завоевала золотую медаль?

7.Кто и когда изобрел шариковую ручку?

8.Чем смерч отличается от торнадо?

9.Сколько официальных языков в ЮАР?

10.Сколько видов попугаев существует в мире?

2.3 Структура отчета и требования к оформлению

1)индивидуальное задание;

2)скриншоты;

3)ответы на вопросы;

4)выводы.

2.4Контрольные вопросы

1.Классификация поисковых средств.

2.Что такое подборки ссылок, каталоги, «продвинутые» каталоги.

3.Устройство каталога, специализированные и универсальные каталоги.

4.Варианты поиска с помощью каталога.

5.Поисковая система, ключевое слово, запрос.

6.Работа пользователя с поисковой системой.

7.Что такое индексация сайтов интернета.

27

Лабораторная работа № 3.

ОБЗОР И АНАЛИЗ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ

Цель:

практическое описание информационной потребности;

получение навыков в формировании поисковых запросов;

проведение анализа поисковой системы;

определение глубины поиска.

3.1Основные теоретические положения и методика выполнения работы 3.1.1 Логические функции ИПС «Яндекс»

Ниже приведен перечень логических функций, используемых при проведении поиска в данной лабораторной работе.

Знаки «+» и «–». Если хотим, чтобы слова из запроса обязательно были найдены, ставим перед каждым из них «+». Если хотим исключить какие-нибудь слова из результата поиска, ставим перед каждым из них «–».

Несколько набранных слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Часто в запросах пишут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд.

Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.

Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b – это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими «не в том порядке», равно –1. То же самое относится и к предложениям.

Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд.

В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(–n +n)', а запись '/+n' эквивалентна

'/(+n +n)'.

Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа – это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах.

Для разработки Web-страниц используется структурированный язык HTML, определяющий структуру документа, или его разметку. Документ содержит контейнеры разного уровня, что позволяет вести поиск информации в Интернет, не зная адреса. При поиске информации пользователь может задать уровень документа (зону) или отдельный элемент, содержащий поисковое выражение:

28

$title (выражение) – поиск в заголовке

$anchor (выражение) – поиск в тексте ссылок

3.1.2 Пример выполнения работы

В качестве информационной потребности данной работы выступает поиск лекций по экономической теории.

Яndex – это полнотекстовая вербальная ИПС (информационно-поисковая система) с использованием избыточного индексирования с учетом морфологии русского языка.

Полнотекстовый поиск – поиск по текстовым документам различных форматов. Это могут быть текстовые поля баз данных, тексты стандартных форматов – txt, doc, html, rtf, xls. Под текстом подразумевается набор слов (выделенную по некоторым правилам последовательность букв), чисел и марок (смеси букв и цифр или букв разных алфавитов).

Система с учетом морфологии языка умеет для всех слов этого языка делать анализ, то есть понимать, формой какого слова они являются. Каждое слово языка в начальной форме имеет парадигму – совокупность всех своих словоформ, полученных при изменении слова по числам, падежам, родам и временам.

При вводе адреса http://www.yandex.ru/ в адресную строку окна Microsoft Internet Explorer загружается начальная страница информационно-поисковой системы Yandex с разнообразными гиперссылками, закладками и поисковой строкой (рис. 3.1).

Рисунок 3.1 – Стартовая страница ИПС «Яндекс»

Режим простого поиска заключается в том, что в строку поиска вводится одно слово или их совокупность (словосочетание) в том виде, в котором оно слышится или произносится пользователем на самом деле. В результате такого

29

поиска поисковая система по заданному запросу находит ответ в своей БД и выдает пользователю ранжированный по релевантности список всех адресов серверов, на которых «по мнению поисковой системы» находится искомая информация (где употребляется хотя бы одно из введенных пользователем слов). При этом могут быть найдены адреса серверов с совершенно посторонней (ненужной) информацией.

Строгий поиск требует ввода в строку поиска кроме самих слов специальных символов и знаков, которые позволяют поисковой системе более точно находить именно те документы, которые необходимы пользователю, и выдавать их для просмотра в удобной для пользователя последовательности.

Глубина поиска – количество найденных документов по заданному запросу. Если документов много – большая глубина поиска (плохо), если документов мало

– малая глубина поиска (хорошо).

Формирование простых поисковых запросов и поисковых запросов с вводом логических функций.

Первый запрос – экономическая теория (см. рис. 3.2).

Рисунок 3.2 – Первый запрос и результаты поиска

Результат поиска: страниц – 196046, сайтов – не менее 1480. Статистика слов: экономическая – 13773984, теория – 6277848. Запросов за месяц: экономическая – 176439, теория – 139796.

В данном случае система находит документы, в которых в одном предложении встречаются все слова «экономическая» и «теория». Результат поиска самый большой. Причем будут найдены слова как с большой, так и с маленькой буквы.

Второй запрос – «экономическая теория» (рис. 3.3).

30