
- •Введение в технологии баз данных и знаний план
- •1. Предмет и содержание дисциплины. Ее связь с другими дисциплинами.
- •Аннотация
- •1. Предмет и содержание дисциплины «технологии баз данных и знаний» и ее связь с другими дисциплинами
- •2. Экономическая информация 2.1. Структурные единицы экономической информации
- •2.2. Измерение объема экономической информации
- •3. Экономические информационные системы
- •4. Внемашинная организация экономической информации
- •4.1. Классификация экономической информации
- •4.2. Кодирование экономической информации
- •4.3. Штрих код
- •5. Внутримашинная организация данных 5.1. Файловая организация данных
- •5.2. Понятие базы данных
- •5.3. Приложения базы данных
- •5.4. Компоненты базы данных
- •5.5. Базы данных, имеющиеся в Республике Беларусь
5. Внутримашинная организация данных 5.1. Файловая организация данных
В первые годы автоматизированной обработки информации (50-е - начало 60-х годов ХХ века) использовалась файловая организация данных. Данные хранились в файлах последовательного доступа. Файл - это специальным образом организованная и поименованная совокупность данных, размещенных на внешних запоминающих устройствах и воспринимаемых в процессе обработки как единое целое. Прикладные программы обрабатывали файл целиком. В 60-е годы, когда широко распространились устройства прямого доступа (магнитные диски), приобрели популярность файлы произвольного доступа. Этот метод доступа к данным позволил напрямую обращаться к нужной записи и не обрабатывать весь файл.
По мере совершенствования методов управления народным хозяйством создавались автоматизированные информационные системы, которые поначалу имели файловую организацию данных. Такие системы обладали рядом недостатков:
жесткая связь данных и прикладных программ: описание данных включалось непосредственно в программу; значит если изменялась организация данных, то переделывалась и программа, что требовало больших затрат труда программиста. В результате программы оказывались узкоспециализированными;
дублирование данных за счет того, что одни и те же данные использовались в разных программах и в результате этого большие затраты на процесс обработки данных;
ограниченные возможности в обработке данных, так как любая их обработка требовала создания своей программы, а значит низкая скорость обработки в целом всех данных;
ограниченный контроль данных;
отсутствие надежных средств в обеспечении сохранности и целостности данных;
недостаточные возможности управления данными.
Недостатки файловой организации, а также необходимость централизации данных, коллективного доступа к ним, повышенные требования к скорости обработки и достоверности данных обусловили появление баз данных (БД), которые позволили обеспечивать более эффективный доступ к данным и их обработку.
5.2. Понятие базы данных
Термин база данных обычно связывают с компьютерами. В действительности базы данных появились задолго до компьютеров. Представление о базе данных может дать записная книжка, заполненная однотипными записями, содержащими, например, такие данные: фамилии, имена, отчества, телефоны, адреса, даты рождения. Другими примерами базы данных может служить библиотечная картотека, картотека учет кадров, расписание движения поездов. То есть любая база данных содержит набор данных, представляющих собой совокупность взаимосвязанных сведений о некотором объекте.
Пользоваться реальными базами данных без применения компьютера достаточно сложно, поэтому современные базы данных компьютеризированы. База данных - это совокупность данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ (ГОСТ 20886-85).
Другими словами, под базой данных понимается вся необходимая для решения задач в конкретной области совокупность данных, организованная по определенным правилам, позволяющим обеспечить независимость данных от прикладных программ, удобство хранения, поиска, манипулирования данными, которые записаны на машинных носителях.
Базы данных представляют собой интегрированную систему информации, в которой:
отсутствует тесная связь данных и обрабатывающих их программ;
значительно сокращена избыточность данных за счет ликвидации их дублирования;
совместно используются данные различными пользователями для решения широкого круга задач;
удобен доступ к данным за счет стандартной их организации;
упрощен процесс организации защиты данных;
значительно снижены затраты на все виды манипуляции с данными, особенно в процессе их актуализации;
имеются достаточно гибкие и удобные формы эксплуатации данных, которые постоянно совершенствуются, будучи не зависимыми от самих данных.
Основное достоинство компьютерных баз данных в том, что к хранящимся в них сведениям возможен быстрый доступ. При этом поиск нужных данных может быть осуществлен по различным признакам и их совокупностям. Например, к записной книжке удобно обратиться только по алфавиту, а к компьютерной базе данных сотрудников предприятия можно обратиться, получив сведения о том, какие сотрудники имеют трех и более детей, кто из сотрудников в отпуске и т.д. И ответ на любой заданный вопрос будет быстро удовлетворен. Преимущество компьютерной базы данных в компактном представлении больших объемов данных на машинных носителях и удобстве их использования. Обобщая все сказанное, можно сказать, что главное в компьютерных базах данных - качественно новые возможности в работе с данными за счет новых информационных технологий.
В каждой базе данных отражается своя предметная область, то есть
совокупность объектов реального мира с их связями, относящихся к некоторой области и имеющих практическую ценность для пользователей. Реальные базы данных состоят из множества связанных файлов, разделенных различными пользователями.
Для поддержки адекватного отображения состояний предметной области базу данных необходимо динамически, в процессе функционирования, обновлять, то есть актуализировать содержимое базы данных в соответствии с теми изменениями, которые происходят в предметной области.
Таким образом, база данных является динамической информационной моделью некоторой предметной области, отображением внешнего мира: объектов, явлений, процессов и состоящая из нескольких файлов. Каждому объекту присущ ряд характерных для него свойств (признаков, параметров). Например, объекту студент присущи следующие свойства: ФИО, номер зачетки, факультет, курс, группа. Между элементами объекта фиксируется и поддерживается связь.
Пользователями базы данных могут быть различные прикладные программы, а также специалисты предметной области, выступающие в роли потребителей или источников данных, называемые конечными пользователями. Обслуживанием базы данных занимается администратор базы.
В теории баз данных нашли применение достижения ряда областей информатики: языки и технология программирования, системы искусственного интеллекта. Здесь используется также и математический аппарат: теория множеств, алгебра и математическая логика, теория графов и оптимизационные методы, техника имитационного моделирования.
Наряду с разработкой научных основ сформировалась и практическая технология баз данных. Создана методология проектирования и эксплуатации систем баз данных, имеющая развитые инструментальные средства для разработчиков таких систем и персонала администратора баз, для разнообразных по характеру потребностей и по уровню квалификации категорий пользователей.
Создание базы данных представляет трудоемкий процесс, требующий определенной квалификации. При разработке надо учитывать следующие требования:
многократное использование данных;
быстрый поиск и получение информации по запросам пользователей;
простоту обновления данных;
уменьшение излишней избыточности данных;
отсутствие дублирования данных в различных компонентах БД, обеспечивающее однократный ввод данных;
защиту данных от несанкционированного доступа, от искажения и уничтожения;
целостность базы - требование полноты, непротиворечивости и сохранности данных.
Современные базы данных имеют большой объем. Для его измерения применяются такие единицы, как Терабайт и Петабайт (1 Терабайт равен
12 15
10 байтов, 1 Петабайт— 10 байтов). База данных размещается на устройствах для хранения больших объемов данных: жестких магнитных дисках, оптических компакт-дисках, оптических библиотеках. Так, оптические библиотеки позволяют организовать динамический доступ к информации объемом от нескольких десятков Гигабайт до 5-6 Терабайт. В этих устройствах может быть установлено свыше 500 компакт-дисков разного формата.
По технологии обработки данных современные базы данных бывают: централизованные и распределенные.
Централизованные (сосредоточенные) базы данных хранятся в памяти одной вычислительной системы. Если эта вычислительная система является компонентом сети ЭВМ, то возможен распределенный доступ к такой базе.
Распределенные базы данных состоят из нескольких, возможно пересекающихся или даже дублирующих друг друга частей, хранимых в различных ЭВМ вычислительной сети. Такой способ использования базы данных часто применяется в локальных сетях персональных компьютеров. Работа с такой базой данных осуществляется с помощью системы управления распределительной базой данных.
По способу доступа к данным базы данных делятся на базы данных с локальным доступом и базы данных с удаленным сетевым доступом.