
- •Часть 1. Базы данных, модели данных и субд
- •Тема 1. Хранение и управления данными на базе файловых систем
- •2) В качестве субд использовались механизм файловых систем.
- •1.1. Структуры данных
- •1.2. Основные элементы файловой системы
- •1) Защита файлов
- •2) Режим многопользовательского доступа
- •1.3. Недостатки использования файловых систем
- •1.4. Почему же информационные системы на базе файловых систем существуют?
- •1.5. Области применения
- •1.6. Потребности информационных систем
1.3. Недостатки использования файловых систем
(1) Program-Data Dependence. Сильная зависимость между программами и данными. Файловая система не определяет внутренний формат хранения информации в файлах – только размещение блоков данных на диске:
Lengthy Development Times. Длительное время разработки приложений – в них должна учитываться специфика обработки тех или иных данных.
Excessive Program Maintenance. Чрезмерная программная поддержка доступа к данным внутри прикладных программ – разные разработчики создают сходные процедуры доступа, выборки и т.д.
СУБД – узко специализированы, тесно привязаны к определенным данным.
(2) Difficulty in accessing data. Трудности организации доступа к данным
время поиска и скорость выборки – зависят от реализации 1) файловой системы и 2) конкретного приложения.
(3) Data Redundancy (Duplication of data). Избыточность хранения данных (дублирование информации в разных файлах).
(4) Limited Data Sharing. Ограниченность совместного доступа к данным.
Например, нельзя обеспечить одновременный доступ на модификацию к разным записям одного файла.
(5) Data isolation - multiple files and formats. Изолированность данных – много файлов и форматов. Разные типы данных хранятся в разных файлах.
Пример: Windows XP/ 7
(6) Security and integrity problems. Проблемы безопасности –
слабые средства защиты,
видимость для пользователей путей расположения и имен файлов.
(7) Atomicity of updates. Сложность отслеживания и синхронного внесения изменений в данные в разных частях файловой системы.
Нет поддержки информационной целостности данных на уровне файловой системы.
Пример: отдел – сотрудник – анкеты – выплаты – договора и т.д.
1.4. Почему же информационные системы на базе файловых систем существуют?
Главная причина - 1) Слабо- и не- структурируемые данные. Многочисленные взаимоотношения между данными – трудно (слабо) структурируемые.
(2) Used when multiple access is not required. Не требуется многопользовательский доступ.
(3) Simple, well defined for applications that rarely (редки) change. Данные просты и используются в приложения, для которых редки изменения.
(4) Minimal Data Redundancy/Improved Consistency. Минимальная избыточность хранения данных – высокая плотность информации.
Все данные используемые в современных информационных системах можно разбить на 3 группы:
Структурированные:
данные, определенным образом упорядоченные и организованные с целью обеспечения возможности применения к ним некоторых действий
Слабоструктурированные:
данные, для которых определены некоторые правила и форматы, но в самом общем виде
Неструктурированные
данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио).
1.5. Области применения
Файловые системы обычно обеспечивают хранение не- и слабо-структурированных данных, оставляя дальнейшую структуризацию прикладным программам.
Файлы применяются для хранения текстовых данных: документов, текстов программ, объектных модулей, графики, мультимедиа и т.д.
1) Документы обычно образуются и модифицируются с помощью различных текстовых редакторов.
По данным Delphi Consulting Group, в настоящее время только в США ежедневно создается более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. различных документов. В то же время, по данным журнала ASAP, в мире ежегодно появляется около 6 млрд. новых документов.
2) Мультимедиа файлы. Примерно такая же ситуация с файлами, содержащими графическую, звуковую и видео информацию.
Сейчас все более широко применение БД для хранения видео (аудио) информации.
3) Файлы с текстами программ используются как входные тексты компиляторов, которые в свою очередь формируют файлы, содержащие объектные модули.
С точки зрения файловой системы, объектные файлы также обладают очень простой структурой - последовательность записей или байтов. Система программирования накладывает на эту структуру более сложную и специфичную для этой системы структуру объектного модуля.
Логическая структура объектного модуля неизвестна файловой системе, эта структура поддерживается средами программирования. Исходные тексты Linux, Windows
4) Объектные модули, формируемыми редакторами связей и содержащими образы выполняемых программ.
Логическая структура таких файлов остается известной только редактору связей и загрузчику - программе операционной системы.
Проблема:
ИС на базе файловых систем, являются, безусловно, устаревшим решением, но 90% данных по-прежнему хранится в виде обычных файлов, поскольку относится к неструктурированной информации! И поэтому до сих пор обычные файловые системы используются для хранения и доступа к данным.
«Основная часть данных создается людьми и ими потребляется, отсюда такое превосходство объемов неструктурированных данных над структурированными данными».
Итог: гигантские объемы документов, накопленные компаниями (от 1..2% в конце 1980-х годов до 90…95% в начале 21 века).
Развитие ИС в направлении обработки не структурированных данных:
1) Использование языка XML. Ведущие производители СУБД (IBM, Oracle, Microsoft) предлагают средства импорта данных в формате XML в базы данных. Semantic Web.
Язык HTML создан для демонстрации данных и фокусируется на том, как данные выглядят.
Язык XML создан для описания данных и фокусируется на том, что именно они из себя представляют. Если в традиционном HTML понятия "представление" и "визуализация" часто смешиваются, то при работе с XML - эти понятия четко разделены.
См. далее раздел 9.6.
2) Системы управления контентом (CMS – content management system). В том числе – СУД (DMS, document management system).
Систематизация документов. Быстрый поиск нужного документа. Простейшие средства аналитики.
Подсчитано, что в крупных корпорациях каждые три-шесть секунд пропадает один документ. Сегодня это абсолютно недопустимо, потому что вся информация, когда-либо созданная, используемая и хранящаяся на предприятии, считается потенциально важной для бизнеса, и скорость доступа к ней определяется ее ценностью на данный момент, которая может, как повышать, так и понижаться со временем
3) Text Mining — это набор технологий и методов, предназначенных для извлечения информации из текстов.
Включает следующие технологии
Information Extraction (извлечение информации):
Summarization (автоматическое реферирование, аннотирование) — построение краткого содержания документа по его полному тексту.
Categorization (категоризация, классификация) — отнесение документа или его части к одной или нескольким категориям.
Clusterization — объединение документов в группы по принципу их схожести.
Базы данных, как основа создания информационных систем, появились на смену файловым системам в конце 1960-х — начале 1970-х годов.