Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский политехнический университет Петра Великого (бывш. СПбГПУ)

Предмет:

Информатика

Файл:

Раздаточный материал по информатике / 01 - Хранение и управления данными на базе файловых систем.doc

Скачиваний:

Добавлен:

23.05.2015

Размер:

98.3 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

1.3. Недостатки использования файловых систем

(1) Program-Data Dependence. Сильная зависимость между программами и данными. Файловая система не определяет внутренний формат хранения информации в файлах – только размещение блоков данных на диске:

Lengthy Development Times. Длительное время разработки приложений – в них должна учитываться специфика обработки тех или иных данных.
Excessive Program Maintenance. Чрезмерная программная поддержка доступа к данным внутри прикладных программ – разные разработчики создают сходные процедуры доступа, выборки и т.д.
СУБД – узко специализированы, тесно привязаны к определенным данным.

(2) Difficulty in accessing data. Трудности организации доступа к данным

время поиска и скорость выборки – зависят от реализации 1) файловой системы и 2) конкретного приложения.

(3) Data Redundancy (Duplication of data). Избыточность хранения данных (дублирование информации в разных файлах).

(4) Limited Data Sharing. Ограниченность совместного доступа к данным.

Например, нельзя обеспечить одновременный доступ на модификацию к разным записям одного файла.

(5) Data isolation - multiple files and formats. Изолированность данных – много файлов и форматов. Разные типы данных хранятся в разных файлах.

Пример: Windows XP/ 7

(6) Security and integrity problems. Проблемы безопасности –

слабые средства защиты,
видимость для пользователей путей расположения и имен файлов.

(7) Atomicity of updates. Сложность отслеживания и синхронного внесения изменений в данные в разных частях файловой системы.

Нет поддержки информационной целостности данных на уровне файловой системы.
Пример: отдел – сотрудник – анкеты – выплаты – договора и т.д.

1.4. Почему же информационные системы на базе файловых систем существуют?

Главная причина - 1) Слабо- и не- структурируемые данные. Многочисленные взаимоотношения между данными – трудно (слабо) структурируемые.

(2) Used when multiple access is not required. Не требуется многопользовательский доступ.

(3) Simple, well defined for applications that rarely (редки) change. Данные просты и используются в приложения, для которых редки изменения.

(4) Minimal Data Redundancy/Improved Consistency. Минимальная избыточность хранения данных – высокая плотность информации.

Все данные используемые в современных информационных системах можно разбить на 3 группы:

Структурированные:
- данные, определенным образом упорядоченные и организованные с целью обеспечения возможности применения к ним некоторых действий
Слабоструктурированные:
- данные, для которых определены некоторые правила и форматы, но в самом общем виде
Неструктурированные
- данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио).

1.5. Области применения

Файловые системы обычно обеспечивают хранение не- и слабо-структурированных данных, оставляя дальнейшую структуризацию прикладным программам.

Файлы применяются для хранения текстовых данных: документов, текстов программ, объектных модулей, графики, мультимедиа и т.д.

1) Документы обычно образуются и модифицируются с помощью различных текстовых редакторов.

По данным Delphi Consulting Group, в настоящее время только в США ежедневно создается более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. различных документов. В то же время, по данным журнала ASAP, в мире ежегодно появляется около 6 млрд. новых документов.

2) Мультимедиа файлы. Примерно такая же ситуация с файлами, содержащими графическую, звуковую и видео информацию.

Сейчас все более широко применение БД для хранения видео (аудио) информации.

3) Файлы с текстами программ используются как входные тексты компиляторов, которые в свою очередь формируют файлы, содержащие объектные модули.

С точки зрения файловой системы, объектные файлы также обладают очень простой структурой - последовательность записей или байтов. Система программирования накладывает на эту структуру более сложную и специфичную для этой системы структуру объектного модуля.

Логическая структура объектного модуля неизвестна файловой системе, эта структура поддерживается средами программирования. Исходные тексты Linux, Windows

4) Объектные модули, формируемыми редакторами связей и содержащими образы выполняемых программ.

Логическая структура таких файлов остается известной только редактору связей и загрузчику - программе операционной системы.

Проблема:

ИС на базе файловых систем, являются, безусловно, устаревшим решением, но 90% данных по-прежнему хранится в виде обычных файлов, поскольку относится к неструктурированной информации! И поэтому до сих пор обычные файловые системы используются для хранения и доступа к данным.

«Основная часть данных создается людьми и ими потребляется, отсюда такое превосходство объемов неструктурированных данных над структурированными данными».

Итог: гигантские объемы документов, накопленные компаниями (от 1..2% в конце 1980-х годов до 90…95% в начале 21 века).

Развитие ИС в направлении обработки не структурированных данных:

1) Использование языка XML. Ведущие производители СУБД (IBM, Oracle, Microsoft) предлагают средства импорта данных в формате XML в базы данных. Semantic Web.

Язык HTML создан для демонстрации данных и фокусируется на том, как данные выглядят.
Язык XML создан для описания данных и фокусируется на том, что именно они из себя представляют. Если в традиционном HTML понятия "представление" и "визуализация" часто смешиваются, то при работе с XML - эти понятия четко разделены.

См. далее раздел 9.6.

2) Системы управления контентом (CMS – content management system). В том числе – СУД (DMS, document management system).

Систематизация документов. Быстрый поиск нужного документа. Простейшие средства аналитики.
Подсчитано, что в крупных корпорациях каждые три-шесть секунд пропадает один документ. Сегодня это абсолютно недопустимо, потому что вся информация, когда-либо созданная, используемая и хранящаяся на предприятии, считается потенциально важной для бизнеса, и скорость доступа к ней определяется ее ценностью на данный момент, которая может, как повышать, так и понижаться со временем

3) Text Mining — это набор технологий и методов, предназначенных для извлечения информации из текстов.

Включает следующие технологии
- Information Extraction (извлечение информации):
- Summarization (автоматическое реферирование, аннотирование) — построение краткого содержания документа по его полному тексту.
- Categorization (категоризация, классификация) — отнесение документа или его части к одной или нескольким категориям.
- Clusterization — объединение документов в группы по принципу их схожести.

Базы данных, как основа создания информационных систем, появились на смену файловым системам в конце 1960-х — начале 1970-х годов.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке Раздаточный материал по информатике

#
23.05.201598.3 Кб5901 - Хранение и управления данными на базе файловых систем.doc
#
23.05.2015220.16 Кб6802 - Определения. Области применения и методы обработки данных. Эволюция.doc
#
23.05.201523.04 Кб4802p- Фрагмент БД с использованием таблиц Clipper 5_0.doc
#
23.05.201577.31 Кб4902_4 - Первое поколение баз данных.doc
#
23.05.2015113.15 Кб5903 - Общие понятия реляционного подхода.doc
#
23.05.201537.89 Кб5003p1- Иллюстрация основных понятий реляционной модели.doc