Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен Волкова.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
618.61 Кб
Скачать

Первый закон зипфа

Связывает частоту появления того или иного слова в каком-то тексте (она называется частота вхождения слова) с рангом этой частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице. Частоте вхождения тех, что встречаются чуть реже, - ранг 2 и т. д.

Если умножить вероятность обнаружения слова в тексте на ранг частоты его вхождения, то получившаяся величина приблизительно постоянна.

В математике такая зависимость отображается гиперболой.

Например, если наиболее распространенное слово встречается в тексте 100 раз, то следующее по распространенности слово встретится не 99 и не 90, а примерно 50 раз. Значение вышеупомянутой постоянной в различных языках различно, но внутри одной языковой группы она остается неизменной. Для английского текста постоянная Зипфа равна 0,1, для русского языка примерно 0,06-0,07.

Второй закон зипфа

Констатирует, что частота и количество слов, входящих в текст с этой частой, связаны между собой. Если построить график зависимости частоты вхождения слова от количества слов, входящих в текст с данной частотой, то получавшаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов.

Анализ графика

Наиболее значимые для текста слова лежат в средней части диаграммы.

Чтобы сузить диапазон значимых слов, создается словарь «бесполезных» слов (стоп-слов).

37. Полнота и точность поиска. Релевантность.

Релевантными называются документы, в наибольшей степени соответствующие потребностям пользователя, проводящего их поиск.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексацией, а сама база данных поисковой машины, в которой хранится собранная информация, называется индексом.

Релевантным называется документ, имеющий отношение к сделанному запросу.

Релевантность – смысловое соответствие между информационным запросом и полученным сообщением.

Релевантность – мера соответствия результатов поиска задаче, поставленной в запросе.

Релевантность – соответствие ответа вопросу с учетом таких понятий, как полнота и точность поиска.

Это документ, который имеет отношение к сделанному пользователем запросу и содержит необходимую пользователю информацию или какую-то ее часть.

Виды информационной потребности

Реальная потребность – неосознанная истинная информационная потребность пользователя, возникающая при поиске некой новой информации исследователем, про которую он сам толком ничего не знает.

Осознанная потребность – то, как пользователь понимает стоящую перед ним неосознанную проблему.

Выраженная потребность – то, как пользователь описывает свою потребность средствами естественного языка.

Формализованная потребность – представление выраженной потребности средствами языка запросов поисковой системы.

Коэффициенты полноты и точности

Коэффициентом полноты поиска (или просто полнотой поиска) называют отношение количества полученных релевантных результатов к общему количеству существующих в поисковом массиве документов, релевантных данному запросу.

Коэффициент точности поиска - это отношение количества релевантных результатов к общему числу документов, ссылки на которые содержатся в ответе ИПС.

Качество поиска характеризуется параметрами – полнота и качество поиска. Чем выше полнота поиска, тем меньше релевантных документов остается не включенными в результаты поиска. Точность поиска тем выше, чем меньше в результатах поиска нерелевантных документов

С помощью логических операторов можно очень точно указать поисковой машине, что именно интересует пользователя. Такой поиск называют сложным.