
- •Содержание
- •Список сокращений
- •Введение
- •§1. История развития ипс
- •Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области [6].
- •§2. Ипс и их типы
- •§3. Использование ипс для поиска лингвистической информации
- •Поводя итог, можно сказать, что для целенаправленного поиска лингвистической информации следует пользоваться не популярными порталами, а специализированными поисковыми сайтами
- •§4. Направления развития информационного поиска в Интернет
Министерство образования Республики Беларусь
Учреждение образования
МИНСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ
Кафедра информатики и прикладной лингвистики
Реферат
для допуска к сдаче дифференцированного зачёта по дисциплине
«Основы информационных технологий»
на тему:
ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ И ИХ ИСПОЛЬЗОВАНИЕ ДЛЯ ПОИСКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ
Подготовлен: студенткой магистратуры
Кафедры информатики и прикладной лингвистики
Пятницей Лилией Васильевной
Минск, 2014
Содержание
СПИСОК СОКРАЩЕНИЙ…………………………………………………...…..3
ВВЕДЕНИЕ…………………………………………………………………...…...4
§1. ИСТОРИЯ РАЗВИТИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ ………………………………………………………………………………….......5
§2. ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ И ИХ ТИПЫ………....8
§3 ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ ДЛЯ ПОИСКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ…………………….……18
§4. НАПРАВЛЕНИЯ РАЗВИТИЯ ИНФОРМАЦИОННОГО ПОИСКА В ИНТЕРНЕТ……………………………………………………………………....22
ЗАКЛЮЧЕНИЕ…………………………………………………………….……25
СПИСОК ЛИТЕРАТУРЫ…………………………………………………….…24
Список сокращений
ИПС Информационно-поисковая система
FTP File Transfer Protocol
URL Uniform resource locator
WWW World Wide Web
Введение
Сегодня, когда Интернет стал одним из основных источников информации, поиск в сети приобретает всё большую практическую ценность. Но с быстрым увеличением объёма доступных данных всё более усложняется и сама процедура поиска.
Сеть Интернет можно назвать необъятной, так как количество web-документов в ней исчисляется миллиардами. Такой объём информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространённому ключевому слову даёт обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть нерелевантна, то есть содержит информацию, не относящуюся к делу.
Теперь, кода Интернет предоставляет информацию широким массам пользователей, найти в ней какой-то ресурс без специальных средств практически невозможно. Но это под силу поисковым системам. Принцип работы таких систем весьма прост, но ушли годы, чтобы его разработать в том виде, в каком он существует сегодня.
За время существования Интернет предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных систем поиска информации. В данной работе мы рассмотрим поиск лингвистической информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют стони различных поисковых систем, и выбор той или иной системы зависит только от наших личных предпочтений.
§1. История развития ипс
Основные принципы информационного поиска были сформулированы ещё в первой половине этого века. Между 1939 и 1945 годами. У. Е. Баттеном была разработана система для отыскания патентов.
Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана специальная позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера патента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета [6; 7].
Основные принципы информационного поиска с тех пор не изменились. На примере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе Баттена использовался предметный указатель, то есть документы классифицировались по понятиям (предметам), которые в них затрагиваются.
Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем.
Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database). После создания индекса к нему обращаются посредством запросов. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на язык индексирования. В индексе выполняется поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы.