Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ксе 1.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
89.09 Кб
Скачать

Формулирование запроса.

В запросах должны использоваться термины, имеющие вероятность совпасть с терминами-индексами, назначенными отыскиваемому документу. Формулировки запросов зачастую сложны. Так, запрос «А и В» означает, что должны отыскиваться документы, содержащие как термин А, так и термин В; запрос «А или В» относится к документам, содержащим либо термин А, либо термин В. В обычных системах поиска отыскиваются только те документы, в которых термины точно совпадают с терминами соответствующего запроса. В более совершенных системах формулировки запросов автоматически конструируются из формулировок, предъявляемых пользователем на естественном языке. Затем эти формулировки используются для идентификации документов на основе сходства терминов.

Организация и поиск файлов.

Последовательный просмотр, при котором запрос сравнивается с каждым хранимым элементом по очереди, является неприемлемо медленным, исключая случай малых файлов. Если бы файл состоял из терминов в алфавитном порядке, по одному на элемент, его можно было бы использовать как телефонную книгу, и поиск был бы быстрым. Когда каждому документу назначается много поисковых терминов, документы можно разбить на группы сходных терминов. Этот способ известен как кластерная организация файла. Затем каждой группе, или кластеру, может быть присвоена метка, и термины запроса сравниваются только с подходящей меткой.

Быстрый поиск можно осуществить путем использования справочных файлов, которые содержат список идентификаторов документов для каждого термина-индекса. Тогда выполняется просмотр справочных файлов на предмет обнаружения идентификаторов, соответствующих данному термину. Например, списки идентификаторов документов для терминов-индексов «ЯБЛОНЯ» и «ГРУША» могли бы выглядеть как

ЯБЛОНЯ : 23,25,27,31,38

ГРУША : 22,25,26,31

В ответ на запрос «ЯБЛОНЯ и ГРУША» были бы выданы документы 25 и 31, а на запрос «ЯБЛОНЯ или ГРУША» – документы 22, 23, 25, 26, 27, 31 и 38. Существует несколько методов для сравнения и слияния списков в файле этого типа, который известен как инвертированный файл.

Многие поисковые системы предлагают процедуры переформулировки запроса после первоначальной операции поиска. Переформулированный запрос включает некоторые релевантные термины, извлеченные из документов, найденных в ответ на первоначальный запрос.

Аппаратные средства поиска информации.

Оборудование, используемое для автоматического накопления и поиска информации, включает устройства, которые хранят файлы, и терминалы, которые печатают или изображают запрашиваемую информацию.

Устройства хранения.

В прошлом для хранения файлов использовались перфокарты, перфоленты или магнитные ленты. Сегодня файлы можно хранить на магнитных дисках, магнитных картах или полосках, в виде микрофильма или на оптических дисках.

Магнитные диски являются высоконадежным средством хранения больших файлов. Информация записывается на дорожках поверхности диска с помощью магнитных импульсов, представляющих нули и единицы. Запись или считывание информации осуществляется при вращении диска на оси. Поскольку с помощью различных комбинаций нулей и единиц можно легко представить буквы и числа, на них можно записать и обычный текст. Информация на магнитных дисках поддается стиранию, и поэтому они могут использоваться там, где содержимое файлов время от времени необходимо изменять.

Для больших файлов на одну ось можно как бы нанизать несколько дисков, образующих дисковый пакет. Дисковый пакет обеспечивает произвольный доступ к миллиардам символов. «Произвольный доступ» означает немедленный доступ к любой дорожке на любом диске без необходимости последовательно просматривать весь файл.

Магнитные карты и полоски также предоставляют произвольный доступ к большим файлам. Однако оборудование для них не так надежно, как для дисков.

Микрофильмы используются для воспроизведения текстов или изображений в уменьшенном виде. Микрофиша (лист микрофильма) размером 10ґ15 см может хранить 98 обычных страниц данных или картинок. Хранение на микрофильмах обходится недорого и обеспечивает быстрый и надежный доступ к отдельным страницам, или фреймам. Однако с пленки нельзя стереть информацию, произвольный доступ дается нелегко, а технология трудна для комбинирования с магнитными запоминающими устройствами, используемыми в существующих компьютерах.

Для хранения больших файлов все чаще используются оптические диски. Одиночный оптический диск, аналогичный компакт-диску, используемому для записи классической или популярной музыки, может хранить до одного миллиарда символов информации. Информация регистрируется посредством мелких углублений, выгравированных лазерным лучом на поверхности диска. Записанные данные считываются путем обработки лазерного луча, отраженного от диска. Оптические диски недороги и могут использоваться для хранения огромных баз данных. Поэтому в сфере поиска и хранения больших файлов информации оптические диски быстро заменяют магнитные. Однако записанная на оптических дисках информация, как правило, не поддается стиранию, а по скорости считывания они уступают магнитным.