Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
С чего начать поиск.doc
Скачиваний:
14
Добавлен:
13.08.2013
Размер:
149.5 Кб
Скачать

B.3.2.2. Использование древовидных баз данных.

Как бы Вы не оптимизировали дерево каталогов ваших файлов, предназначенных для датамайнинга, рано или поздно наступит момент, когда использование такого дерева будет неудобным. Для хранения полнотекстовых документов вместе с их изображениями предназначены древовидные базы данных. Их устройство достаточно просто:

  • база данных представляет собой дерево, начинающееся с корня и имеющая в своем составе "ветви" (другие деревья) и "листья" (хранимые документы);

  • ветви и листья могут перемещаться по базе данных, гибко меняя свою структуру;

  • у каждой базы есть функции экспорта и импорта документов;

  • многие базы данных могут быть "интегрированы" с браузерами Интернета;

  • кроме опций импорта и экспорта документов, в этих базах есть возможности редактирования текста документа, создания парольного доступа к некоторым ветвям, создание заметок к ветвям, изображения ветвей и документов с помощью индивидуальных иконок и т.п.

База данных Widjsoft MyBase.

Наиболее "продвинутой" и специально предназначенной для классического датамайнинга является программа MyBase. В этой базе данных можно создавать ветви любой вложенности. Программа может импортировать обрабатывать в себе файлы следующих форматов:

  • text/plain;

  • text/html;

  • Rich Text Format.

Встроенный в базу данных редактор может выполнять большинство возможных команд редактирования текста, доступных в текстовых процессорах. Также возможен импорт HTML-страниц вместе с рисунками, скриптами и ссылками.

Очень хорошо реализовано в этих системах создание и отображение перекрестных ссылок внутри базы данных.

Базу данных можно также использовать для создания конспектов и заметок, имеющих вложенные пункты (например, 1., 2., 2.1, 2.2, 3., 3.1., 3.1.1. и т.п.).

В общем, это идеальное средство для классического датамайнинга и ведения конспектов. Огорчает только то, что она распространяется по лицензии Trial ware с испытательным сроком в 40 дней.

Преимущество MyBase состоит также в том, что эти базы данных индексируются локальной поисковой системой Архивариус 3000.

База данных AML Pages.

Что касается второго продукта, то этот продукт не может претендовать на место полноценной древовидной базы данных. У нее нет возможности импорта документа вместе со скриптами и изображениями, более беден и менее удобен интерфейс для редактирования текста и т.п. Кроме того, у этой программы часто бывают "зависания" по невыясненным причинам.

Но эта программа – идеальное средство для ведения древовидных конспектов, имеющих вложенные пункты. С этой целью в программе предусмотрены шаблоны для создания справочников, календарей, списка задач. Кроме всего этого, этот редактор совершенно бесплатен, что позволяет сэкономить средства, если Вам нужен просто древовидный блокнот.

B.3.2.3. Использование локальных поисковых систем.

Использование полнотекстовых локальных поисковых систем, на первый взгляд, выглядит пижонством. Вы можете спросить: "А зачем мне локальные поисковые системы, если я могу выбрать пункт меню "Найти", набрать соответствующий запрос и... ?". В том-то и дело, что встроенный в операционную систему Windows полнотекстовый поиск не является эффективным. По сути это – наследник программы поиска файлов в командной строке find.com . Да, в версии Windows XP имеется полнотекстовый поиск, индексация, фильтры, но все это реализовано не совсем в законченном виде. Итак, встроенный поиск:

  • занимает много времени (в основном из-за отсутствия или недостаточной индексации);

  • имеют недостаточное число фильтров (используются фильтры на размер файлов, дату их создания и модификации, имя и расширения файлов и т.п.);

  • невозможность расширенного поиска контента и использование регулярных выражений;

  • невозможность поиска в нескольких каталогах одновременно.

Этих недостатков лишены локальные полнотекстовые поисковые системы. Их особенность состоит в том, что они создают индекс файлов, которые может искать данная поисковая система, расположенных в определенных папках. Благодаря тому, что индексация происходит заранее и тому, что из индекса удаляются лишние папки, поиск в этих системах идет на порядки быстрее. Если Вы правильно организовали систему хранения Ваших документов для датамайнинга, поиск нужных материалов будет происходить за секунды.

Недостаток локальных поисковых систем заключается в том, что при добавлении новых файлов в каталог или при изменении уже существующих файлов необходимо обновлять индексы Ваших поисковых систем. Если Вы не поставили опцию: "Обновлять индекс по расписанию", Вам придется запускать принудительное обновление индекса перед каждым поиском (что сводит на нет его преимущества перед встроенным в Windows поиском).

В этом разделе описываются две локальные поисковые системы, которые автор рекомендует поставить на Ваш компьютер: Copernic Desktop Search и Архивариус 3000. Конечно же, существует множество других подобных систем. Но именно эти две системы дешевы и могут гибко менять настройки специально для Ваших нужд.

Поисковая система Copernic Desktop Search

Данная программа, в общем-то, не является полнотекстовой поисковой системой. Принцип ее использования – создание индекса файлов в указанных каталогах и поиск с его помощью более чем 30 различным фильтрам. Помимо стандартных фильтров (по дате и размеру), программа способна искать:

  • музыкальные файлы: по тегам "Исполнитель", "Жанр", "Альбом", год выпуска;

  • видеофайлы: по тем же параметрам;

  • базы данных почтовых сообщений: по имени адресата, теме сообщения, даты получения/отправки;

  • файлы Office – по автору документа, названия работы и т.п.

Кроме того, возможен поиск файлов по указанным шаблонам.

Программа при своей работе сразу выдает список проиндексированных файлов, соответствующих запросу, сразу после введения условий на фильтрах. Любой файл тут же можно просмотреть или воспроизвести (для музыкальных файлов). Также любой файл можно вызвать для редактирования преопределенной для файлов данного типа программой. Недостаток программы – очень плохая поддержка кириллицы.

Поисковая система Архивариус 3000.

Эта поисковая система позволяет осуществлять полнотекстовый поиск по большому числу текстовых документов. Она обладает меньшим набором фильтров, чем поисковая система Copernic Desktop Search, но обладает уникальным механизмом текстового поиска.

Данная программа позволяет:

  • использовать стандартный набор фильтров для поиска файлов;

  • возможность поиска в тексте по словам, регулярным выражениям и фразам (доступно в режиме расширенного поиска);

  • позволяет ранжировать найденные файлы: по точности совпадения запроса, по количеству слов из запроса, встретившемся в файле, по расширению файла, и другие механизмы любого полнотекстового поиска;

  • программа имеет встроенный просмотрщик для просмотра найденных файлов в унифицированном интерфейсе;

  • осуществлять поиск слов из кириллических символов, даже содержащие ошибки;

  • перекодировать символы, написанные транслитерацией;

  • вызывать файлы на редактирование одним щелчком мыши;

  • быстро создавать и обновлять индекс файлов (правда за счет увеличения размера индекса);

  • индексировать почтовые базы данных, списки контактов и другие записи почтовых клиентов;

  • позволяет индексировать большинство текстовых форматов, в том числе и древовидные базы данных программы MyBase.

Все это позволяет рекомендовать эту поисковую систему в качестве основной системы для полнотекстового поиска файлов, содержащих кириллические символы.