Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздаточный материал по информатике / 01 - Хранение и управления данными на базе файловых систем.doc
Скачиваний:
58
Добавлен:
23.05.2015
Размер:
98.3 Кб
Скачать

1.3. Недостатки использования файловых систем

(1) Program-Data Dependence. Сильная зависимость между программами и данными. Файловая система не определяет внутренний формат хранения информации в файлах – только размещение блоков данных на диске:

    • Lengthy Development Times. Длительное время разработки приложений – в них должна учитываться специфика обработки тех или иных данных.

    • Excessive Program Maintenance. Чрезмерная программная поддержка доступа к данным внутри прикладных программ – разные разработчики создают сходные процедуры доступа, выборки и т.д.

    • СУБД – узко специализированы, тесно привязаны к опре­деленным данным.

(2) Difficulty in accessing data. Трудности организации доступа к данным

    • время поиска и скорость выборки – зависят от реализации 1) файловой системы и 2) конкретного приложения.

(3) Data Redundancy (Duplication of data). Избыточность хранения данных (дублирование информации в разных файлах).

(4) Limited Data Sharing. Ограниченность совместного доступа к данным.

    • Например, нельзя обеспечить одновременный доступ на модификацию к разным записям одного файла.

(5) Data isolation - multiple files and formats. Изолированность данных – много файлов и форматов. Разные типы данных хранятся в разных файлах.

    • Пример: Windows XP/ 7

(6) Security and integrity problems. Проблемы безопасности –

    • слабые средства защиты,

    • видимость для пользователей путей расположения и имен файлов.

(7) Atomicity of updates. Сложность отслеживания и синхронного внесения изменений в данные в разных частях файловой системы.

    • Нет поддержки информационной целостности данных на уровне файловой системы.

    • Пример: отдел – сотрудник – анкеты – выплаты – договора и т.д.

1.4. Почему же информационные системы на базе файловых систем существуют?

Главная причина - 1) Слабо- и не- структурируемые данные. Многочисленные взаимоотношения между данными – трудно (слабо) структурируемые.

(2) Used when multiple access is not required. Не требуется многопользовательский доступ.

(3) Simple, well defined for applications that rarely (редки) change. Данные просты и используются в приложения, для которых редки изменения.

(4) Minimal Data Redundancy/Improved Consistency. Минимальная избыточность хранения данных – высокая плотность информации.

Все данные используемые в современных информационных системах можно разбить на 3 группы:

  • Структурированные:

    • данные, определенным образом упорядоченные и организованные с целью обеспечения возможности применения к ним некоторых действий

  • Слабоструктурированные:

    • данные, для которых определены некоторые правила и форматы, но в самом общем виде

  • Неструктурированные

    • данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио).

1.5. Области применения

Файловые системы обычно обеспечивают хранение не- и слабо-структурированных данных, оставляя дальнейшую структуризацию прикладным программам.

  • Файлы применяются для хранения текстовых данных: документов, текстов программ, объектных модулей, графики, мультимедиа и т.д.

1) Документы обычно образуются и модифицируются с помощью различных текстовых редакторов.

По данным Delphi Consulting Group, в настоящее время только в США ежедневно создается более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. различных документов. В то же время, по данным журнала ASAP, в мире ежегодно появляется около 6 млрд. новых документов.

2) Мультимедиа файлы. Примерно такая же ситуация с файлами, содержащими графическую, звуковую и видео информацию.

Сейчас все более широко применение БД для хранения видео (аудио) информации.

3) Файлы с текстами программ используются как входные тексты компиляторов, которые в свою очередь формируют файлы, содержащие объектные модули.

С точки зрения файловой системы, объектные файлы также обладают очень простой структурой - последовательность записей или байтов. Система программирования накладывает на эту структуру более сложную и специфичную для этой системы структуру объектного модуля.

Логическая структура объектного модуля неизвестна файловой системе, эта структура поддерживается средами программирования. Исходные тексты Linux, Windows

4) Объектные модули, формируемыми редакторами связей и содержащими образы выполняемых программ.

Логическая структура таких файлов остается известной только редактору связей и загрузчику - программе операционной системы.

Проблема:

ИС на базе файловых систем, являются, безусловно, устаревшим решением, но 90% данных по-прежнему хранится в виде обычных файлов, поскольку относится к неструктурированной информации! И поэтому до сих пор обычные файловые системы используются для хранения и доступа к данным.

«Основная часть данных создается людьми и ими потребляется, отсюда такое превосходство объемов неструктурированных данных над структурированными данными».

Итог: гигантские объемы документов, накопленные компаниями (от 1..2% в конце 1980-х годов до 90…95% в начале 21 века).

Развитие ИС в направлении обработки не структурированных данных:

1) Использование языка XML. Ведущие производители СУБД (IBM, Oracle, Microsoft) предлагают средства импорта данных в формате XML в базы данных. Semantic Web.

  • Язык HTML создан для демонстрации данных и фокусируется на том, как данные выглядят.

  • Язык XML создан для описания данных и фокусируется на том, что именно они из себя представляют. Если в традиционном HTML понятия "представление" и "визуализация" часто смешиваются, то при работе с XML - эти понятия четко разделены.

См. далее раздел 9.6.

2) Системы управления контентом (CMS – content management system). В том числе – СУД (DMS, document management system).

  • Систематизация документов. Быстрый поиск нужного документа. Простейшие средства аналитики.

  • Подсчитано, что в крупных корпорациях каждые три-шесть секунд пропадает один документ. Сегодня это абсолютно недопустимо, потому что вся информация, когда-либо созданная, используемая и хранящаяся на предприятии, считается потенциально важной для бизнеса, и скорость доступа к ней определяется ее ценностью на данный момент, которая может, как повышать, так и понижаться со временем

3) Text Mining — это набор технологий и методов, предназначенных для извлечения информации из текстов.

  • Включает следующие технологии

    • Information Extraction (извлечение информации):

    • Summarization (автоматическое реферирование, аннотирование) — построение краткого содержания документа по его полному тексту.

    • Categorization (категоризация, классификация) — отнесение документа или его части к одной или нескольким категориям.

    • Clusterization — объединение документов в группы по принципу их схожести.

Базы данных, как основа создания информационных систем, появились на смену файловым системам в конце 1960-х — начале 1970-х годов.