Клецова Информационные технологии свободно распространяемые 2011
.pdfцию, которую подразумевал пользователь. В результате снизится точность и полнота поиска. Это та плата за повышение скорости поиска, которую создатели таких поисковых систем считают неизбежной.
Все метапоисковые системы можно разделить на две большие категории [1].
•Системы для серьезного поиска, исследующие ресурсы Интернета на большую глубину и помогающие пользователям найти документы на строго определенную тему с использованием мощного механизма ранжирования найденных ссылок. Такие системы способны осуществлять сложный поиск, исключать в результатах дублирующие ссылки и распределять найденные документы по категориям.
•Метапоисковые системы, которые осуществляют поиск с использованием ряда «обычных» поисковых систем и выводят результаты, не утруждая себя их дальнейшей обработкой и не предоставляя такую возможность пользователю.
Примеры метопоисковых машин 1-й категории: SurfWax (способна опрашивать до 1200 поисковых систем), Ixquick (автоматически переводит запросы на язык поисковой системы, которую опрашивает).
Примеры метопоисковых машин 2-й категории: search.da.ru, MetaBot, DogPile, ProFusion, Vivísimo, Nigma.
Полнота и точность поиска
Хотя поисковые машины индексируют миллиарды страниц, они все равно не могут охватить весь Интернет, поэтому результат поиска не может быть полным. Кроме того, несмотря на то, что пауки постоянно «ходят» по Сети, они не могут посещать страницы чаще определенного временного интервала, вследствие чего некоторые ссылки, выдаваемые поисковыми системами, бывают устаревшими [3].
Релевантность – соответствие найденного документа поисковому запросу. В информационной практике релевантным называется документ, имеющий отношение к сделанному пользователем запросу, т.е. содержащий нужную (полезную) информацию.
91
Для оценки информационно-поисковых систем используются следующие критерии:
•полнота выдачи;
•точность;
•полнота охвата доступных баз данных;
•время ответа системы;
•усилия пользователя;
•форма представления результатов поиска.
Традиционные оценки полноты и точности для информацион- но-поисковых систем определяют по таблице сопряженности
(табл.3.1):
А – множество релевантных выданных документов; а=|А|; B – множество выданных нерелевантных докуметов; b=|B|;
C– множество невыданных релевантных документов; с=|С|;
D– множество нерелевантных невыданных документов; d=|D|.
|
|
Таблица 3.1 |
Документы |
Релевантные |
Нерелевантные |
Выданные |
a |
b |
Невыданные |
c |
d |
Коэффициентом полноты поиска R (или полнотой поиска) называют отношение количества найденных релевантных документов к общему количеству существующих в поисковом массиве документов, релевантных данному поисковому запросу:
R = a a+c .
Коэффициент точности поиска P (или точность поиска) – это отношение количества найденных релевантных документов к общему количеству найденных документов:
P = a a+b .
На рис.3.1 соотношение между всеми названными выше величинами представлено графически. Как правило, множество релевантных документов (А+С), имеющихся в доступном поисковой
92
системе массиве поиска, не совпадает со множеством найденных поисковой системой документов (А+В): какая-то их часть В остается вне поля зрения поисковой системы (рис.3.1,а). Если множество В пустое, то точность поиска равна 100 % (рис.3.1,б), если множество С пустое, то полнота поиска равна 100 % (рис.3.1,в).
|
|
|C|=0 |
С |
C |B|=0 |
B |
A |
A |
A |
|
|
|
B |
|
|
а |
б |
в |
|
Рис.3.1 |
|
Иногда при оценке эффективности поисковых систем используют и другие критерии – коэффициент потерь информации и коэффициент поискового шума. Коэффициент потерь информации – это параметр, дополняющий до единицы коэффициент полноты поиска: Q=1-R. Коэффициент поискового шума – это величина, дополняющая до единицы коэффициент точности поиска: S=1-P.
В идеальной информационно-поисковой системе R=P=1, S=Q=0. В реальных информационно-поисковых системах коэффициент полноты поиска может достигать значений 0,7–0,9, а коэффициент точности обычно находится в пределах 0,1–1,0.
Однако значения критериев эффективности поиска по одному запросу не дают объективной оценки эффективности всей поисковой системы. Поэтому обычно производят усредненные оценки полноты и точности. Используют два способа усреднения: усреднение по запросам и усреднение по документам.
Усреднение по запросам:
PQ = m1 ∑a a+i |
b ; |
RQ = m1 ∑a a+i |
c . |
||||
|
m |
|
|
|
m |
|
|
|
i=1 i |
i |
|
i=1 i |
i |
||
Усреднение по документам:
93
|
m |
|
m |
|
|
P = |
∑ai |
; R = |
∑ai |
, |
|
i =1 |
i =1 |
||||
m |
m |
||||
D |
D |
|
|||
|
∑(ai +bi ) |
|
∑(ai +ci ) |
|
|
|
i =1 |
|
i =1 |
|
где i=1,2,…,m – номера запросов, на основе которых осуществляется оценка полноты и точности.
Оценки полноты и точности по запросам и по документам могут как совпадать, так и не совпадать, но в целом обычно оказываются достаточно близкими.
Информационно-поисковая система Google
Google – одна из популярнейших поисковых машин в мире, которая обеспечивает поиск по гипертекстовым документам, находящимся в разных языковых зонах. Google распространяется по всему миру, устанавливая серверы в разных странах. К концу 2006 года Google поддерживает 117 языков и 148 локальных доменов.
Поиск информации
Поиск в Google аналогичен поиску в других поисковых системах. Главная страница российского портала расположена по адре-
су www.google.ru, рис.3.2.
На этой странице расположены только ссылки на основные базы данных Google, страницу настроек, расширенный поиск и языковые инструменты. Самый важный элемент данной Webстраницы — поле запроса, с помощью которого пользователь взаимодействует с поисковой системой. Под полем ввода расположены кнопки Поиск в Google и Мне повезет!. При использовании первой кнопки Google будет искать по введенным в поле запроса словам и выведет десять вариантов на первой странице результатов поиска. Если найдено большее количество ссылок, то они будут расположены на последующих страницах [3].
94
Рис.3.2
Рис.3.3
Вверху страницы результатов отображаются следующие параметры (рис.3.3):
95
•рассматриваемый интервал выданных результатов, характеризуемый просматриваемой страницей;
•общее количество страниц, удовлетворяющих условиям запроса;
•время, затраченное на поиск в базе данных.
Каждый результат поиска содержит следующую информацию
[3, 4].
•Заголовок найденного сервиса.
•Отрывок из текста страницы, по которому видно, в каком контексте используются искомые слова, выделенные для удобства жирным шрифтом.
•Полный URL Web-страницы.
•Размер сервиса, по которому можно оценить время загрузки документа.
•Дата последнего изменения, если Google в состоянии ее определить.
•Сохранено в кэше — ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия позволит ознакомиться с найденным документом. Кроме того, такая ссылка загружается быстрее.
•Похожие страницы. Анализируя содержание найденных по запросу сервисов и используя внутренние критерии (по близости словарей страниц, одинаковым заголовкам, совпадениям фраз или количеству синонимов), Google попытается найти страницы с похожим содержанием.
Нажатие кнопки Мне повезет! (см. рис.3.2) откроет первую найденную страницу. Назначение кнопки соответствует ее названию: если запрос был сформулирован корректно и в Интернете есть данная информация, то при определенной степени везения откроется нужный документ. Такой подход может ускорить поиск.
Под кнопками поиска расположен переключатель, установив который в одно из двух положений, можно определить параметры поиска во всем Интернете или только в его русскоязычной части
— Рунете.
96
Иногда в результате запроса Google не может найти ни одного подходящего документа, что чаще всего обусловлено опечатками при вводе слов. Если пользователь уверен, что все набрано правильно, то можно попробовать переформулировать запрос. Однако обычно возникает обратная ситуация, когда выдается слишком много ссылок. В таком случае нужно конкретизировать запрос или искать по точной фразе [3].
Для оптимизации работы Google фильтрует полученные результаты, выдавая только наиболее значимые и опуская очень похожие. Если необходимо увидеть все результаты, то следует перейти на последнюю страницу результатов и щелкнуть на ссылке «повторить поиск, включив опущенные результаты», расположенной внизу страницы.
Ранжирование страниц [3]
При ранжировании страниц Google использует собственный алгоритм, одним из критериев которого выступает параметр PageRank — числовая величина, характеризующая важность страницы в Google. Шкала PageRank может изменяться от 0 до 10. Самым популярным сайтам присваивается ранг 10. Наименее популярным сайтам присваивается ранг, равный 1. Если сайт не оценен поисковой машиной, то ему будет присвоен ранг 0.
Параметр PageRank рассчитывается для каждой страницы и изменяется не так часто, как индекс цитирования «Яндекс».
Для определения значимости страницы технология Google использует информацию не только из оцениваемого сайта, но и с других ресурсов, составляющих Интернет. Люди в определении значимости сайтов не участвуют.
На практике при ранжировании страниц учитывается также тематика, т. е. на PageRank влияют только ссылки с тематически связанных страниц. Так как вклад в общую оценку некоторых страниц больше остальных, что повышает ценность документа, на который они ссылаются, то такие важные документы получают более высокую оценку PageRank.
В соответствии с RangRank сайты отображаются в результатах поиска. Чем выше ранг сайта, тем выше место страницы в выдаче результатов поиска.
97
Разработчики Google не разглашают формулу вычисления ранга страницы, чтобы Web-мастера не могли искусственно увеличить ранг своей страницы [4].
Операторы поисковой системы[3, 4]
Логический оператор AND используется для поиска документов, содержащих одновременно несколько искомых слов. Для краткости он может заменяться Пробелом.
Оператор OR используется для поиска документов, в которых присутствует хотя бы одно из ключевых слов. Вместо оператора OR можно использовать знак вертикальной черты |.
Для поиска точной фразы ее нужно обрамлять кавычками. Но есть и другие способы задать точное словосочетание. Google воспринимает как знаки, связывающие слова в единую фразу, ряд символов: дефис, знак равенства, апостроф, косую черту, точку. Например, запросы придворные-сапожники, придворные=сапожники, придворные'сапожники, придворные/сапожники, придворные.сапожники будут обработаны так же, как и запрос "придворные сапожники".
Для принудительного включения стоп-слов в поиск необходимо перед стоп-словом без пробела набрать символ «+», который укажет поисковой системе на обязательное наличие этого слова в документе. Чтобы исключить документы с каким-либо словом, необходимо набрать перед ним символ «-».
Результаты поиска в Google не зависят от регистра поискового запроса, т.е. по запросам «bmv» и «BMV» будет выданы одинаковые результаты.
Google не поддерживает маски, т.е. в нем нельзя использовать символы «*» и «?» для замены символов в искомом слове.
Символ «*» воспринимается Google как отдельное подстановочное слово. Например при поиске «Иванов * Иванович» будут найдены ссылки, содержащие Иванов Александр Иванович, Иванов Сергей Иванович, Иванов Игорь Иванович и т.д.
Google не воспринимает больше 10 ключевых слов.
В табл.3.2 указаны другие операторы и модификаторы, используемые при запросах в Google.
98
|
|
Таблица3.2 |
|
Синтак- |
Значение |
Пример |
|
сис |
|
|
|
~слово |
Поиск слова и его сино- |
~аре — будут найдены документы, |
|
|
нимов |
содержащие аре, monkey, gorilla, |
|
|
|
chimpanzee |
|
Число1 |
Поиск чисел, находя- |
Телевизор $100..200 — отобразит- |
|
. .число2 |
щихся в диапазоне |
ся перечень телевизоров стоимо- |
|
|
|
стью от $100 до $200; холодиль- |
|
|
|
ник ..$500 — будут представлены |
|
|
|
холодильники дешевле $500 |
|
Слово1 * |
При поиске вместо звез- |
Теплый* день— будутнайдены |
|
слово2 |
дочки должно быть ка- |
такиесловосочетания, как, напри- |
|
|
кое-то слово |
мер, «теплый ласковый день» |
|
Allintitle: |
Поиск ключевых слов |
Allintitle: русская классика — ото- |
|
слово1 |
только в заголовках |
бразятся документы, в заголовках |
|
слово2 |
|
которых есть слова «русская» и |
|
|
|
«классика» |
|
Intitle: сло- |
Поиск документов, в |
Intitle: русская классика — будут |
|
во1 слово2 |
которых слово1 распо- |
найдены документы, в заголовках |
|
|
ложено в заголовках, а |
которых есть слово «русская», а в |
|
|
остальные — в любом |
самом документе есть слово |
|
|
месте |
«классика» |
|
Allinurl: |
Поиск документов, в |
Allinurl: google help — будут най- |
|
слово1 |
адресах (в том числе в |
дены документы, в адресах кото- |
|
слово2 |
подкаталогах сайта) |
рых присутствуют слова google и |
|
|
которых расположены |
help |
|
|
все указанные слова |
|
|
Inurl: сло- |
Поиск документов, в |
Inurl: google help — будут пред- |
|
во1 слово2 |
адресах (в том числе в |
ставлены документы, в адресах |
|
|
подкаталогах сайта) |
которых присутствует слово |
|
|
которых расположено |
google, а в самом документе или |
|
|
слово1, а остальные — в |
адресе есть слово help |
|
|
любом месте |
|
|
Cache:URL |
Отображение копии |
Cache:www. wasm.ru assembler — |
|
слово |
проиндексированной |
из кэша будет открыта страница |
|
|
страницы (даже если эта |
сайта, посвященного программи- |
|
|
страница уже недоступ- |
рованию на ассемблере, с выде- |
|
|
на или изменена) с вы- |
ленным словом assembler |
|
|
делением указанного |
|
|
|
слова, если оно есть |
|
|
99
|
|
Продолжение табл. 3.2 |
|
Синтак- |
Значение |
Пример |
|
сис |
|
|
|
Define: |
Поиск определения сло- |
Define:катет — будут найдены |
|
слово |
ва в Интернете |
определения слова «катет» |
|
Слово file- |
Поиск документа опре- |
Пример filetype:ppt — отобразятся |
|
type:тип |
деленного формата |
презентации, содержащие слово |
|
|
|
«пример» |
|
Info:URL |
Возвращает список |
Info:www.piter.com — будет пока- |
|
|
страниц, содержащих |
зана доступная Google информа- |
|
|
дополнительную ин- |
ция об издательстве «Питер» |
|
|
формацию об указанном |
|
|
|
URL |
|
|
Link:URL |
Поиск обратных ссылок |
Link:www.google.ru — будут |
|
|
на страницу |
найдены страницы, ссылаю- |
|
|
|
щиеся на русскоязычный |
|
|
|
портал Google |
|
Related: |
Поиск страниц, связан- |
Related:www.cnn.com — |
|
URL |
ных с данной |
отобразятся сервисы, по- |
|
|
|
хожие на главную страницу |
|
|
|
CNN |
|
Слово |
Ограничение поиска |
Jscript site:www.microsoft.com |
|
site:URL |
доменом или сайтом |
— будут найдены страницы |
|
|
|
на сайте компании Microsoft, |
|
|
|
посвященные JScript |
|
Stocks: код |
Поиск информа- |
Stocks: amd — информация |
|
|
ции о ценных |
об акциях компании AMD |
|
|
бумагах |
|
|
Intext: |
Поиск докумен- |
Intext: русская классика — |
|
слово1 |
тов, в которых |
отобразятся документы, в |
|
слово2 |
слово1 располо- |
теле страницы которых |
|
|
жено в теле стра- |
есть слово «русская», а |
|
|
ницы (т.е. из по- |
слово «классика» в любом |
|
|
иска исключают- |
месте документа |
|
|
ся ссылки и заго- |
|
|
|
ловки), а осталь- |
|
|
|
ные слова (сло- |
|
|
|
во2) — в любом |
|
|
|
месте |
|
|
100
