Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
пособие_ЭИ / эи_пособие_07_ч1.doc
Скачиваний:
171
Добавлен:
13.04.2015
Размер:
11.75 Mб
Скачать

2. Задания

  1. В текстовом редакторе Блокнот создать HTML-файл, содержащий Вашу автобиографию. Сохранить его в указанную преподавателем папку. Открыть его браузером.

  2. В программе FrontPage создать web-страницу, содержащую Ваше резюме с фотографией, на странице сделать гиперссылку на свой любимый сайт. Файл сохранить в указанную преподавателем папку.

  3. Оформить отчет по лабораторной работе 2.3.

Виды самостоятельной работы

  1. Обработка лекционного материала по модулю

  2. Подготовка к лабораторным работам по модулю

  3. Подготовка и сдача индивидуальной работы №2.1

Индивидуальная работа № 2.1 Поиск информации в сети Internet

Цель работы: освоить простейшие приемы поиска информации, изучить возможности поисковых систем

1. Методические указания

Сегодня Internet предоставляет наиболее быстрые способы поиска информации по сравнению с традиционными. Классическая задача информационного поиска – это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.

Информационный поиск – в широком смысле – последовательность операций, направленных на предоставление информации заинтересованным лицам, а поиск информации в сети – это последовательность действий, от определения предмета поиска до получения ответа на имеющиеся вопросы с использованием всех поисковых сервисов, которые предоставляет сегодня Internet.

В Internet можно найти: электронные документы; правительственные документы; специальные базы данных; музейные коллекции; архивы фото, фильмов, звуков, музыки; географические карты; группы новостей; e-mail; дискуссионные листы и их архивы; web-основанная периодика; оригинальные документы,

Основным методом поиска информации в Internet является использование запросных информационно-поисковых систем (ИПС) и каталогов. При этом сам механизм поиска в обоих случаях практически одинаков.

Запросные ИПС (поисковые системы) используют алгоритмы поиска ресурсов, выполняемого на основе задаваемой пользователем информации преимущественно в виде текста. В каталоге пользователю предоставляется набор информации о ресурсах сети в форме систематически организованных и систематически связанных наборов сведений, каждый из которых может иметь достаточно сложную иерархическую структуру. Различие между ИПС двух отмеченных типов не является очень заметным, так как каталоги допускают поиск по запросам определенных видов. В свою очередь, запросные ИПС часто содержат классифицированные списки ресурсов, но более бедные по содержанию. ИПС каждого из этих типов могут быть ориентированы, как на специализированный поиск, так и на поиск общего характера.

С помощью запросных ИПС всегда легче найти что-то конкретное, и труднее – что-то общее и неопределенное. С помощью каталогов удобно искать информацию на общие темы (природа, искусство, компьютеры, медицина и т.д.). Любой каталог имеет рубрикатор. Таким образом, информация в определенной степени отсортирована. Каждый адрес снабжен аннотацией представленных материалов. При решении достаточно стандартной поисковой задачи именно каталог, а не поисковая машина оказываются более приемлемыми для начала поиска.

Ниже в таблице описаны наиболее популярные ИПС.

Таблица 3.3

Информационно-поисковые системы

Название

URL

Оценка

Google

www.google.com

Наиболее мощная на сегодня ИПС. Обеспечивает прекрасные результаты при поиске как на английском, так и русском/украинском языках

AltaVista

www.altavista.com

Большое количество проиндексированных документов, мощные и удобные функции поиска, особенно графических изображений

HotBot

www.hotbot.com

Удобный наглядный интерфейс для поиска

Lycos

www.lycos.com

Прекрасные поисковые возможности, FTP-сервер бесплатного и условно-бесплатного ПО, дополнительные функции

Yahoo!

www.yahoo.com

Обладает большим количеством различных сервисов и качественным каталогом рассортированных ресурсов

Excite

www.excite.com

Посредственная информационная база компенсируется качественными поисковыми функциями

Яndex

www.yandex.ru

Наиболее мощная русскоязычная поисковая система, бесплатный e-mail, бесплатный хостинг

Апорт

www.aport.ru

Существует в полной и сокращенной версии, отличается наглядностью и мощными средствами поиска по тематическим рубрикам

Rambler

www.rambler.ru

Хорошие поисковые возможности, рейтинг сайтов, актуальная подача новостной информации, бесплатный e-mail

МЕТА

www.meta.ua

Удобный и быстрый просмотр результатов поиска, хорошее покрытие украинских ресурсов

Uaport

http://uaport.net

Неплохой охват украинских ресурсов, мощные поисковые возможности, актуальное представление новостной информации

TopPing

www.topping.com.ua

Большое количество Web-ресурсов, рейтинг сайтов, метапоисковая машина, однако отсутствует расширенный поиск

Проблема поиска информации в Internet формулируется достаточно просто: поисковая системы должна вернуть пользователю список сетевых ресурсов, содержащих информацию по теме, интересующей пользователя. Релевантностью поиска считается степень соответствия результатов поиска интересующей теме.

Тема поиска может задаваться как в виде текстового запроса, так и иными способами, в том числе с использованием специализированного языка запросов.

Поисковые машины обычно состоят из двух независимых частей: индексирующего робота (паука, спайдера) и собственно поискового движка (engine), работающего с внутренней базой данных поисковой системы.

Индексирующий робот - это программа, которая, начав свою работу с заданного адреса (URL), рекурсивно обходит все найденные на страницах ссылки, сканируя имеющуюся на них информацию и внося резюме о ней в БД поисковой машины. Этот робот производит индексирование и тех ресурсов, информация о которых была получена от пользователя, а не найдена непосредственно.

Поисковый движок - система, позволяющая по запросу пользователя выдать список ресурсов, ранее проиндексированных роботом и наиболее релевантных запросу пользователя.

Соответственно возникают и две группы проблем, связанные с этими частями поисковой машины:

Робот анализирует информацию, представленную пользователю в статическом текстовом виде. Извлечение информации из графических образов сложно по вполне понятным причинам, а попытка анализа динамически формируемых страниц почти всегда приводит к резкому уменьшению конечной релевантности, поскольку для динамических страниц переход в различных условиях (например, в различное время) по сохраненному в базе URL может возвращать различную информацию.

Затруднено определение степени истинной релевантности описанного в базе ресурса по отношению к запросу пользователя, поскольку в БД сохраняются только косвенные характеристики информации, по которым сложно восстановить реальный контекст ресурса, а используемые методики оценки релевантности являются механистичными.

Используемые для оценки релевантности термины следующие:

  • ключевое слово (keyword) – слово, или фраза, которую вы вводите в форму поиска, когда ищете информацию по интересующей вас теме.

  • частота ключевого слова (keyword frequency) ­– встречаемость, частота использования. Сколько раз встречается данное ключевое слово на странице.

  • плотность ключевого слова (keyword density) ­– показатель, учитывающий, не только сколько раз встречается ключевое слово на странице, но и как часто оно используется в определенном объеме текста. Перебор по плотности может быть расценен поисковой системой как спамдексинг, и страница будет исключена из индекса.

  • положение ключевого слова на странице (keyword prominence) ­– показатель, учитывающий, как близко к началу страницы находится заданное ключевое слово. Как правило, чем ближе к началу страницы встречается слово запроса, тем релевантнее считается данная страница по данному слову, но бывают и исключения.

  • титул (title tag) ­– содержание тэга титул отображается в титульной строке браузера (на самом верху окна). Поисковые системы в листе ответов используют текст титула для оформления ссылки на сайт, соответствующий запросу пользователя. Размещение ключевых слов в титуле страницы резко повышает ее релевантность по данным словам.

  • вес ключевого слова (keyword weight) – отношение частоты использования ключевого слова к общему количеству слов на индексируемой странице, выраженное в процентах. В общем случае, увеличение веса ключевого слова на странице ведет к повышению ее релевантности. Но существует предел, превышение которого расценивается как спам и ведет к исключению страницы из индекса.

  • индекс цитирования (link popularity) – количество сайтов, которые ссылаются на данный сайт. Многие поисковые системы учитывают этот показатель при ранжировании результатов поиска

Советы по поиску:

  • проверяйте орфографию (Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.);

  • выбирайте описательные, конкретные слова (Например, [футбольная статистика 2006], а не [футбол], или [Олимпийские игры в Ванкувере 2010], а не [Олимпийские игры]);

  • ищите больше, чем по одному слову (Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".);

  • учитывайте влияние регистра (Разные поисковые машины имеют неодинаковую чувствительность к регистру. Так, например, yandex чувствителен к регистру (если слово набрано с заглавной буквы, то в результатах будет только слова с заглавной буквы), а google.com- нет.);

  • воспользуйтесь возможностями расширенного поиска (Практически все ИПС имеют расширенный поиск, это дополнительная страница поисковой системы, где можно задать: расположение искомых слов относительно друг друга, расположение на странице, употребление в тексте, поиск по дате, региональный поиск, поиск по формату и т.д. (зависит от ИПС).);

  • воспользуйтесь возможностями языка запросов (в справочной системе любой ИПС можно ознакомиться с правилами исаользования языка запросов).

Соседние файлы в папке пособие_ЭИ