Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
С чего начать поиск.doc
Скачиваний:
10
Добавлен:
13.08.2013
Размер:
149.5 Кб
Скачать

B.3.2. Сохранение найденных материалов.

Итак, Вы специально или случайно, тем или иным способом нашли необходимую Вам страницу. Вот Вы обозреваете ее довольным и горящим взглядом, и хотите тут же ее сохранить. Но прежде, чем ее сохранить, нужно ответить на следующие вопросы:

  • А смогу ли я найти сохраненный документ в течение следующего месяца (дня, часа)?

  • Как мне не потерять его при перестановке системы на компьютере?

  • Могу ли я его легко восстановить из архива?

Чтобы уверенно ответить на эти вопросы, Вы должны вспомнить правила классического датамайнинга без использования Интернет. Вы, наверное, помните, что автор "что-то говорил" о папках, файлах и конвертах. Применительно к Интернету это будет выглядеть следующим образом.

B.3.2.1. Построение дерева каталогов для Вашей темы.

Все документы по теме необходимо держать в одной папке. Но использование компьютера позволяет хранить документы сразу в нескольких папках, группируя их в зависимости от сложности темы. Использование возможности создавать "деревья папок" очень полезно для Вас, и автор расскажет, как это организовать лучшим образом.

Место расположения корня каталогов.

Корень каталогов с темами для датамайнинга должен начинаться от папки "Мои документы". Преимущества выбора данной папки для корня следующие:

  • Все поисковые системы позволяют осуществлять поиск файлов в папке "Мои документы". Для поиска в других местах диска это правило может не работать.

  • Папку "Мои документы" легко архивировать.

  • Если Вы перенесли папку "Мои документы" с диска C: на любой другой диск, Вам не нужно будет беспокоиться о проблемах с виртуальной памятью, исчерпанием места на диске и потерей данных в результате краха системы. Правила переноса папки "Мои документы" смотри в книге «Самые начала...»

Некоторые пользователи сохраняют свои документы на рабочем столе своего компьютера (вернее, в папке C:\Documents and Settings\<users>\Рабочий стол, где <users> – логин (имя) пользователя при входе в систему). Это делать не желательно по указанным выше причинам.

Далее желательно в папке "Мои документы" создать дочернюю папку с запоминающимся именем (PROJ, DATAMING или др.), куда будете помещать свои проекты, и обязательно выведите ярлык этой папки на рабочий стол! Это сделать желательно, поскольку Вы можете тогда вызывать список Ваших тем для датамайнинга с рабочего стола (это может потребоваться для программ, сохраняющие данные на рабочем столе, например Mozilla FireFox).

После этого можно не беспокоиться о других настройках папки. Все вызовы на архивирование данных, сохранения документов, индексации и поиска файлов будут происходить так же, как и с папкой по-умолчанию: "Мои документы".

Правила построения дерева.

Итак, Вы создали корневую папку, куда Вы будете складывать файлы, полученные из Интернет или отсканированные изображения для датамайнинга. Для каждой темы создайте свою собственную папку. Кроме того, в каждой дополнительной папке Вы должны создать следующие дочерние папки (которые Вы можете назвать по-своему):

.\SOURCE– для хранения исходных файлов датамайнинга (необработанных Вами).

.\SOURCE\IMAGES– для хранения необработанных изображений.

.\WORK– для файлов датамайнинга, подвергшихся Вашей обработке.

.\DEST– для написанных Вами статей по результатам датамайнинга.

Внутри этих папок можно располагать папки с файлами, сгруппированные, например, по расширению, по обрабатывающих их программами и т.п.

Желательно в корневой папке с темой для датамайнинга периодически генерировать дерево каталогов (например, с помощью программы NikFileTree). Это позволит Вам лучше ориентироваться в темах при полном или частичном архивировании папок.

При сохранении файлов датамайнинга в специальных форматах, не забудьте создать папку с дистрибутивами соответствующих программ, обрабатывающих эти файлы. Их лучше всего хранить в папке \Distrib и архивировать ее вместе с файлами датамайнинга.

Формат хранимых файлов.

Вы можете получать из Интернета различные файлы с различными форматами. При переписке Вы также можете использовать различные форматы. Но автор статьи предупреждает: множество форматов данных мешает их обработке. Во-первых, автор вспоминает "бритву Окаммы", которая гласит следующим образом: "Не плоди сущностей сверх меры". При большом количестве форматов файлов с данными Вы можете:

  • не уследить за всеми изменениями в файлах с одними и теми же данными;

  • потерять программу, которая обрабатывает специфичные данные;

  • архивирование редко используемых программ для чтения файлов с данными приводит к большому размеру архива;

  • новые версии программы могут не читать старые форматы файлов с данными, а старые версии могут не запускаться в Вашей системе;

  • использование для обработки файла определенного формата нескольких разнородных программ часто приводит к их несовместимости и потере данных.

Чтобы избежать этих неприятностей, пользуйтесь следующими правилами:

  1. Храните все файлы, скаченные из Интернета, и которые не будут правиться, в форматах HTML и PDF.

  2. Храните все текстовые файлы, с которыми Вы работаете, в формате text/plain (расширение .TXT). Как исключение, текстовые файлы можно хранить в формате любимого Вами текстового процессора.

  3. Храните данные, полученные из электронных таблиц, в формате Microsoft Excel 97.

  4. Храните базы данных либо в таблицах Excel, либо в форматах dBase III (они так будут лучше читаться).

  5. Векторные рисунки храните в формате Вашего любимого графического редактора. Для обмена данными между векторными редакторами используйте формат Windows Meta File (расширение .WMF). С этим расширением файлы обязательно должны находиться в архиве.

  6. Для хранения растровых графических файлов используйте:

  • для фотографий – формат JPEG (иногда допускается RAW);

  • для всех остальных рисунков в архиве – формат Portable Network Graphics (расширение .PNG);

  • для растровых рисунков, подлежащих дальнейшей обработке в различных редакторах и печати – форматы Windows Bitmap (с расширением .BMP) и TIFF ( с расширением .TIF).

  • Для хранения звуковых фрагментов используйте формат .WAV. Для их занесения в архив можно использовать различные алгоритмы их компрессии.

  • Скаченный из Интернета видеоряд нужно сразу записать на компакт-диск, вместе с кодеком для его проигрывания.

  • Все остальные файлы с данными не являются специфичными для Интернета, поэтому должны храниться только вместе с программами, их обрабатывающими.

    Если по каким-то причинам это сделать затруднительно, храните эти папки в подпапках

    .\SOURCE\<расширение>

    .\WORK\<расширение> ,

    где <расширение>– расширение файлов с данными для этих форматов.