
- •Лекция № 1
- •WORLD WIDE WEB
- •WORLD WIDE WEB
- ••Web-страницаWORLD. WIDE WEB
- •WORLD WIDE WEB
- •WORLD WIDE WEB
- •Гипертекст и Теги
- •Основные функции браузеров
- •Программное обеспечение WEB серверов
- •Браузеры - программное обеспечение доступа к WEB серверам
- •Браузеры - программное обеспечение доступа к WEB серверам
- •Поиск информации в Интернет
- •1.4.Поиск информации в Интернет
- •1.4.Поиск информации в Интернет
- •1.4.Поиск информации в Интернет
- •Поисковые системы
- •Как работают механизмы
- •Агенты
- •Пауки
- •Сравнительный обзор поисковых
- •Сравнительный обзор поисковых
- •систем.
- •Сравнительный обзор поисковых
- •Сравнительный обзор поисковых
- •систем.
- •Поисковые роботы
- •Использование поисковых роботов
- •Использование поисковых роботов
- •Использование поисковых роботов
- •Использование поисковых роботов
- •Использование поисковых роботов
- •Повышение затрат и потенциальные опасности при использовании поисковых роботов
- •Сетевой ресурс и загрузка сервера
- •1.6.2.1 Сетевой ресурс и загрузка
- •Клиент-серверная
- •Благодарю за внимание !!!
Пауки
•Пауки - осуществляют общий поиск информации в Сети.
•Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию.
•Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Кроулеры
•Кроулеры просматривают заголовки и возвращают только первую ссылку.
Сравнительный обзор поисковых
систем.
Yahoo.
•Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение.
•Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR.
•При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие"
слова.
•Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе.
•Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
•.
|
систем. |
• |
Lycos. |
Как и большинство систем, Lycos дает возможность применять |
|
|
как простой запрос, так и сложный метод поиска. |
• |
В простом запросе в качестве поискового критерия вводится |
|
предложение на естественном языке, после чего Lycos |
|
производит нормализацию запроса, удаляя из него stop-слова, и |
|
только после этого приступает к его выполнению. |
• |
Почти сразу выдается список ссылок на формально релевантные |
|
документы. В списке против каждого документа указывается его |
|
мера близости запросу, количество слов из запроса, попавших в |
|
документ, и оценочная мера близости. |
• |
Пока нельзя вводить логические операторы в строке вместе с |
|
терминами, но использовать логику через систему меню Lycos |
|
позволяет. Такая возможность применяется для построения |
|
расширенной формы запроса, предназначенной для искушенных |
|
пользователей, уже научившихся работать с этим механизмом. |
• |
Lycos относится к системе с языком запросов типа "Like this" |
|
, но намечается его расширение и на другие способы |
|
организации поисковых предписаний. |
Сравнительный обзор поисковых
систем. AltaVista.
Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:
–слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;
–ключевые фразы, находящиеся в начале странички;
–ключевые фразы в ALT - ссылках
–ключевые фразы по количеству вхождений\присутствию слов\фраз;
Если тэгов на странице нет, робот использует первые 30 слов, которые индексирует и показывает вместо описания.
•AltaVista имеет возможность расширенного поиска. Здесь реализован поиск по ключевым фразам, при этом система имеет довольно большой фразеологический словарь. Имеется возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа.
•AltaVista - система с расширенным булевым поиском.
систем.
•Яндекс – российская ИТ-компания, владеющаяЯндексодноимённой. системой поиска в сети и интернет-порталом.
•Поисковая машина Яндекса позволяет искать документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.
•Яндекс индексирует веб-страницы в формате HTML, документы в форматах PDF, RTF, двоичных форматах Word, Excel, PowerPoint, Flash, RSS (блоги и форумы).
•Яндекс значительно превосходит другие поисковые машины в алгоритмах семантического анализа языковых конструкций.
•А также
–Если по запросу найдено много ссылок, страница результатов предлагает ограничить диапазон поиска – по региону (т.е. по диапазону IP) или по дате.
–Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации).
–Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.
•
Сравнительный обзор поисковых
систем. Rambler.
•Rambler Media Group – интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный интернет-портал.
•Rambler создан в 1996 году.
•Поисковая машина понимает и различает слова русского, английского и украинского языков. Настройки языка поиска: любой, русский, английский, украинский, казахский, белорусский, татарский, французский, немецкий. Учитывается морфология.
•По умолчанию поиск ведётся по всем формам слова. По умолчанию результаты ранжируются по релевантности и группируются по сайтам.
•Рамблер обладает расширенными инструментами и сервисами:
–Internet Explorer – последняя версия с дополнениями от Рамблера;
–Ассистент – Rambler в твоем браузере;
–Карты – наши пробки точнее;
–Словари – перевод английских и немецких слов;
–Инвентарь βeta – клавиатура, калькулятор, транслитератор;
–Мой Rambler – интернет на одной странице.
Сравнительный обзор поисковых
систем. Google.
•Google – крупнейшая поисковая система, принадлежащая корпорации Google Inc. Первая по популярности (79.65%), обрабатывает 41 млрд. 345 млн. запросов в месяц, индексирует более 25 млд. веб-страниц, может находить информацию на 191 языке.
•Поддерживает поиск в документах форматов: PDF, RTF, PostScript, Word, Excel, PowerPoint и других.
•Синтаксис запросов – интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д.
•Википоиск – поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настоящий момент, в настройках поиска осталась настройка для
включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.
•Голосовой поиск – в 2010 г. компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.
систем.
WAIS WAIS.
• является одной из наиболее изощренных поисковых систем Internet.
•В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск.
•В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности.
•Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.
•Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.
Поисковые роботы
•За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной.
•Эта проблема побудила разработчиков на создание автоматизированной навигации по Сети, названной "роботами".
•Веб-робот - это программа, которая перемещается по
гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается.
•Роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.
Использование поисковых роботов
•Роботы могут использоваться для выполнения множества
полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или
зазеркаливания страниц. Рассмотрим эти задачи подробнее.
1.Статистический Анализ
•Первый робот был создан для того, чтобы обнаружить и
посчитать количество веб-серверов в Сети.
•Другие статистические вычисления могут включать среднее число документов, приходящихся на один сервер в Сети,
пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и т.д.