Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИНФ_методичка3.doc
Скачиваний:
1
Добавлен:
10.07.2019
Размер:
109.06 Кб
Скачать

Министерство образования и науки Российской Федерации

Саратовский государственный технический университет

ПОИСКОВЫЕ ИНТЕРНЕТ СИСТЕМЫ

Методическое указание

к лабораторной работе по дисциплине «Информатика»

для студентов специальности 210601 и 210700.62

Одобрено

Редакционно-издательским советом

Саратовского государственного

технического университета

Саратов 2011

Цель работы: освоение навыков использования поисковых систем сети Интернет для получения информации.

  1. Основные теоретическое положения

Поисковыми системами называют один из сервисов сети Internet, позволяющий находить необходимую информацию по ключевым словам и словосочетаниям. Хорошо известными примерами являются: www.google.com; www.yandex.ru; www.rambler.ru; www.narod.ru; www.yahoo.com

Рассмотрим лингвистические особенности реализации поисковых систем. В них применяется очень специфичный язык – «язык спроса», то есть язык формулировки запросов пользователей. Его особенности:

  1. 99.9% запросов являются нечеткими, то есть подразумевают несколько вариантов ответа

  2. очень много запросов являются ошибочными

  3. почти половина всех запросов состоит из одного слова

  4. повторяемость запросов определяется таким параметром как частота запроса, т. е. ежемесячное количество обращений пользователей к данным запросам

  5. все запросы имеют разную значимость, которая определяется смыслом запроса.

Значимость является субъективным фактором и во многом зависит от организации сайтов. Целью оптимизации сайта является достижение такой ситуации, когда ссылка на этот сайт устойчиво оказывается в числе первых 10 результатов поиска по избранному поисковому запросу. Вне зависимости от выбранной темы, языка или автора, как было установлено лингвистами, внутренняя структура текста остается неизменной и описывается законами Зипфа. Эти законы базируются на постулате: короткие слова встречаются в тексте чаще чем длинные.

Первый закон Зипфа (ранг-частота)

Частотой вхождения слова А называется число раз, которое оно встречается в тексте, её можно установить эмпирически. Отношение частоты вхождения слова к общему числу слов в тексте носит название вероятности. Порядковый номер частоты называется рангом частоты – В (наиболее часто встречаемое слово имеет ранг В=1, следующее по частое – 2 и т.д.).

(1)

М – общее число слов.

Таким образом, если самое распространенное слово встречается в тексте 100 раз, то следующее за ним по частоте слово будет встречаться 50-52 раза. Сангл=0,1; Срус=0,06-0,07.

Второй закон Зипфа (количество-частота)

Известно, что разные слова могут входить в текст с одинаковой частотой. Если при этом построить график, на котором по горизонтальной оси отложить частоту вхождения слова, а по вертикальной оси количество слов на данной частоте, то получится кривая (рис.1), которая будет сохранять свои параметры для всех без исключения при этом форма этой кривой остается постоянной для любого языка.

Рис.1

Современные исследования показали, что наиболее значимые слова размещаются в средней части диаграммы. Наиболее частыми словами являются либо предлоги, либо местоимения. Редко встречающиеся слова в большинстве случаев также не имеют решающего смыслового значения. Каждая поисковая система имеет свои технологии и правила в задании диапазона значимых слов. Если этот диапазон слишком широкий, то вспомогательные слова заслонят собой необходимые термины. Если он окажется слишком узкий, может произойти потеря смысловых терминов.

Для того чтобы избавиться от лишних слов и в то же время поднять рейтинг значимых слов, введен специальный параметр инверсная частота:

, (2)

где i – термин; Р – количество документов в базе данных; Qi – количество документов, содержащих i-й термин.

Значение Fi тем меньше, чем чаще слово встречается в документах базы данных. Теперь каждому термину присвоим весовой коэффициент:

, (3)

где Н – частота i-го термина в j-ом документе; F – вес (значимость).

Современная поисковая система может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, а также морфологических особенностей текста.

База данных документов должна определенным образом взаимодействовать с пользовательским запросом. Запросы могут быть простыми (из одного слова) и сложными. Соответственно различают структуры баз данных. Наиболее простая структура, удобная для многовариантного поиска получила название матрица. Пусть имеется шесть документов, в которых содержится пять терминов. Если термин входит в документ, в соответствующей позиции ставится 1, в противном случае 0.

D1

D2

D3

D4

D5

D6

T1

0

1

0

0

0

1

T2

1

0

0

0

1

0

T3

0

0

1

1

1

1

T4

0

0

0

1

1

1

T5

1

1

0

0

1

0

Еще одна структура получила название пространственно-векторная модель. Все документы базы данных помещаются в многомерное виртуальное пространство, и координаты каждого документа зависят от структуры содержащихся в нем терминов, весовых коэффициентов, положения внутри документов и т. д. В результате запроса документы с похожим набором терминов разместятся в пространстве ближе друг к другу. Здесь α – формирующий сектор запроса.

Рис.2

Получив запрос, поисковая система удаляет лишние слова, выделяет термины и вычисляет вектор запроса в пространстве документа. После этого она выдает те документы, которые попали в заданный сектор.