Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОТВЕТЫ.doc
Скачиваний:
98
Добавлен:
11.02.2015
Размер:
1.84 Mб
Скачать

Службу идексирования имеет смысл отключать, если поиск документов редок и когда скорость поиска не имеет большого значения.

Поисковый индекс

Поисковый индекс - это некоторая структура данных, позволяющая уменьшить время, необходимое для поиска в каком-то хранилище данных заданной последовательности символов.

Для поиска некоторого элемента в хранилище данных по заданному запросу вам потребуется время, пропорциональное количеству элементов в данном хранилище (линейное время поиска).

Индекс, представляя собой структурированный, а не хаотический набор данных, позволяет осуществлять доступ к ним уже быстрее (сублинейное время поиска).

Структуры данных в современных поисковых системах, позволяют добиться скорости поиска, пропорциональной логарифму количества элементов в наборе данных, по которому ведётся поиск. Есть и более быстрые структуры, позволяющие добиваться скорости поиска, практически не зависящей от количества данных.

Полнотекстовый поисковый индекс включает в себя перечень всех слов, встречающихся в проиндексированных документах, и указание мест, в которых данные слова встречаются.

Индексный поиск документов

Альтернатива прямого поиска — поиск с использованием предварительно составленного индекса (интернет-поиск).

 Особенности локального индексного поиска:

  • Работа с документами самых разных форматов, архивов, мультимедийных библиотек и т.п.

  • Полнота индекса (учет всех соответствующих запросу документов, хранящихся на локальных дисках компьютера и внешних носителях: DVD, флэш-память и т.д.).

  • Интеграция в локальные приложения.

 Достоинства локального индексного поиска (в сравнении с интернет-поиском):

  • Поиск с учетом синонимов (в Web это требует требует больших дополнительных вычислительных ресурсов)

  • Более сложный анализ текста и поиск по фразам.

  • Отсутствие необходимости защиты от Web-спама.

Индексный поиск документов реализован:

  • службой индексирования операционной системы;

  • специализированных системах локального поиска.

Каталоги индекса могут занимать гигабайты памяти компьютера!

 Служба индексирования Windows XP извлекает сведения из набора документов и собирает их в структуру, обеспечивающую быстрый доступ к этим сведениям с помощью команды поиска.

 Эти сведения могут включать текст (содержимое) документа, характеристики и параметры (свойства) документа.

 После создания индекса можно искать в нем документы, содержащие ключевые слова, фразы или свойства.

 Все данные индекса автоматически сохраняются службой индексирования в каталогах System и Web.

 Служба индексирования выполняет индексирование документов следующих типов:

  • HTML;

  • текст;

  • Microsoft Office 95 и более поздние версии;

  • почты Интернета и новостей;

Служба индексирования работает непрерывно и не нуждается в обслуживании.

Язык запросов для Windows XP

Используя запросы, можно искать документы по содержащимся в них словам и фразам или их свойствам:

Для всех документов доступны следующие свойства.

 Имя свойства

Описание

All

Все свойства, включая Contents. Используется только в текстовых запросах (не в запросах числовых значений).

Contents

Слова и фразы, содержащиеся в документе

Filename

Имя документа

Size

Размер документа в байтах

Write

Дата и время последнего изменения документа

 

Простейшим типом запроса является одно слово.

 Существуют пять типов запросов:

  • текстовые запросы в свободной форме;

  • запросы фраз;

  • запросы соответствий шаблону;

  • относительные запросы;

  • векторные запросы

Для реализации всех типов запросов существует специальный язык запросов.

Например, имена свойств могут задаваться как в длинной, так и в короткой формах.

 

Длинная форма

Пример

Короткая форма

Пример

{prop name=имя}

{prop name="Число страниц"}

@имя

@"Число страниц"

 

{prop name=заголовок}

#имя

#заголовок

 

В имени свойства регистр не учитывается. Если в имени больше одного слова, в запросах оно должно заключаться в кавычки как в длинной, так и в короткой форме.

Тег {/prop} закрывает ссылку на имя свойства. Если в запросе использовано несколько имен свойств, первый тег {/prop} закрывает имя ближайшего предшествующего свойства, а текущим становится имя предыдущего свойства в запросе.

 

Имеются два специальных имени свойств: Contents и All.

Свойство Contents включает все содержимое документа. Если в запросе задано свойство Contents, службой индексирования будет выполнен поиск только по содержимому документа. Если в запросе задано свойство All, службой индексирования будет выполнен поиск по содержимому и значениям свойств документа.

Если в запросе не указано свойство, службой индексирования по умолчанию будет использовано свойство Contents.

Системы локального поиска

Системы локального поиска (для домашнего использования):

  • Персональный поиск Яндекса

  • Архивариус 3000

  • Copernic Desktop Search;

  • Google Desktop Search с GDE Enterprise

  • DVYGUN Smart Search

 

Системы корпоративного локального поиска:

  • dtSearch Desktop

  • iSYS Desktop

  • DVYGUN Smart Search Enterprise Edition

  • SearchInform Desktop Professional

Архивариус 3000

Программа Архивариус 3000 – это поиск документов и почтовых сообщений в компьютере, в локальной сети и в съёмных дисках.

 

 

 

Основные возможности Архивариус 3000:

  • Мгновенный полнотекстовой поиск документов и почты.

  • Смысловой поиск с морфологией на 18 языках (в том числе белорусском).

  • Поддерживаются локальная сеть и съёмные диски (CD, DVD и прочие).

  • Поддержка более 400 форматов от MS Office и PDF до LEX, и W&D (Слово и дело).

  • Поиск во всех распространенных типах архивов (начиная от ZIP и RAR, и заканчивая ARJ и ZOO. Архивариус 3000 умеет распаковывать архивы без использования внешних архиваторов).

  • Поиск почтовых сообщений Outlook, Outlook Express, MS Exchange, The Bat! и других.

  • Поиск в базах данных Lotus Notes и Lotus Domino.

  • Серверный режим и доступ из дома к рабочим документам через Интернет.

Полностью поддерживается Unicode и более 100 кодировок (все европейские, все кириллические, все греческие, китайские, японские, корейские. Поддерживаются даже очень редкие кодировки: казахские, армянские, грузинские, тайские, тибетские и другие). 

SearchInform Desktop Professional

SearchInform Desktop Professional - профессиональная программа полнотекстового поиска документов на персональном компьютере.

 

SearchInform поддерживает индексацию электронных писем, подключение и индексацию баз данных и других внешних источников.

Для работы с сетью предлагаются клиент-серверная архитектура и политика настройки доступа к проиндексированным документам.

 

Основные возможности:

  • морфологический и цитатный поиск,

  • логические операции,

  • поиск с синтаксическим разбором слова (по началу слова, его окончанию, по средней части либо полное совпадение)

  • смешанный цитатный поиск (все слова из запроса должны присутствовать в документе, но не обязательно во введенном порядке)

  • поиск с коррекцией ошибок, использование синонимов и т.д.

  • применение словаря незначимых слов (в программе уже есть их готовый список) и использовать для поиска словарь приоритетных слов.

  • поиск документов, похожих по своему содержимому на текст запроса.

Тестирование:

 SearchInform проиндексировала тестовую базу (документы в форматах DOC, TXT и HTML размером около 20 Гбайт) за 3 часа 17 минут, создав индексный файл размером 4,4 Гбайт.