Ю. А. Григорьев, Г. И. Ревунков - Банки данных
.pdfСписок основных сокрагцений
КС — концептуальная схема КТС — комплекс технических средств ЛС — логическая схема ЛТ — логическая транзакция МД — модель данных
МРЦ — Межбанковский расчетный центр НТ — начало транзакции
ОАСУ — отраслевая автоматизированная система управления ОГАС — общегосударственная автоматизированная система ОНТИ — отдел научно-технической информации на предприятии ОП — оперативная память ОРБД — объектно-реляционные базы данных ОС — операционная система ПО — предметная область ПП — прикладная программа
Пр_В-К — преобразователи данных, реализующие отображения «внеш ний—концептуальный»
Пр_Вн-П — преобразователи данных, реализующие отображения «внутрен ний—память»
ПрВнС — преобразователь внутренней схемы ПрВС — преобразователь внешних схем ПРЗ — процедуры реализации запросов
Пр_К-Вн — преобразователи данных, реализующие отображения «концеп туальный—внутренний»
Пр_КС — преобразователь концептуальной схемы ПС — подсхема
РО — рабочая область ввода—вывода прикладной программы РСУБД — распределенная система управления базой данных
САПР БД — система автоматизированного проектирования баз данных СД — словарь данных СЕМС — семантические сети
СП — спецификация процесса СППР — системы поддержки принятия решений
СРОД — системы распределенной обработки данных СУБД — система управления базой данных ФБД — физическая база данных ЭС — экспертная система
ЭИС — экономические информационные системы ЯМД — язык манипулирования данными ЯОД — язык описания данных
10
Список основных сокращений
ЯОД ПС — язык описания данных подсхемы ЯОД С — язык описания данных схемы
4GL — язык четвертого поколения АЮ — асинхронный ввод/вывод
ATMI (Application Transaction Manager Interface) — специализированный интерфейс прикладного программирования
BPR (Business Process Reengineering) — бизнес-процессы
CGI — программы для Web-серверов (применяются языки Perl, С, TCL) DFD (Data Flow Diagrams) — диаграмма потоков данных совместно со сло
варями данных и спецификациями процессов DSS — поддержка принятия решений
DTP (Distributed Transaction Processing) — модель (стандарт) обработки рас пределенных транзакций Х/Ореп
ERD (Entity-Relationship Diagrams) — диаграммы «сущность—связь» Чена или Баркера
ЕТР (Enterprise Transaction Processing) — корпоративная среда обработки транзакций
FML (Field Manipulation Language) — язык манипулирования полями GID — в среде ОС Unix идентификатор группы
IT (Information Technology) — информационные технологии JDBC — интерфейс Java Data Base Connectivity
NDS (NetWare Directory Services) — средство организации и управления системной базой данных
LTM — Log Transfer Manager — менеджер журнала транзакций LVM — логическое управление томами
MIB (Management Information Base) — база данных управления
MOM (Message-Oriented Middleware) — система распространения сообщений ODBC (Open DataBase Connectivity) — драйвер СУБД
OLTP (Online Transaction Processing) — обработка транзакций в режиме on—line (режиме реального времени) мониторами транзакций
OMG (Object Management Group) — консорциум производителей программ ного обеспечения
ORB (Object Request Broker) — брокер объектных запросов RAD — фирма средств быстрой разработки проектов
RM (Resource Manager) — менеджер ресурсов
RPC (Remote Procedure Call) — системы, основанные на технологии уда ленного вызова процедур
RS — репликационный сервер
11
Список основных сокращений
PTPS (Proprietary Transaction Processing Servers) — mainframe-системы или компьютеры под управлением Unix с RISC-архитектурой процессоров
S — сервер
ТМ (Transaction Manager) — менеджер транзакций
ТРМ (Transaction Processing Monitor) — мониторы обработки транзакций UID — в среде ОС Unix численный идентификатор
UTPS (Unix Transaction Processing Servers) — компьютеры под управлением ОС Unix
WS — рабочая станция
Часть I ЛОКАЛЬНЫЕ БАНКИ ДАННЫХ
1. о с н о в ы ПОСТРОЕНИЯ БАНКОВ ДАННЫХ
Концепция банков данных стала определяющим фактором при созда нии систем автоматизированной обработки информации. В настоящей гла ве рассматриваются общие вопросы, связанные с функционированием баз данных, обсуэюдаются основные компоненты банков данных и получивший наибольшее распространение трехуровневый подход к построению банков данных, включающий внешний, концептуальный и внутренний уровни пред ставления данных.
1.1. Информация, данные, знания
Под информацией понимают любые сведения о каком-либо событии, сущности, процессе и т.п., являющиеся объектом некоторых операций: вос приятия, передачи, преобразования, хранения или использования.
Понятие об информации сложилось у человека давно. Она использу ется во всех областях человеческой деятельности, любая взаимосвязь и ко ординация работ возможны только благодаря информации. Человек создал естественные информационные системы, поскольку существовала насущная потребность снабжать производство информацией, необходимой при конт роле и принятии решений; научился собирать эту информацию, обрабаты вать и передавать ее по назначению.
Процесс осмысления информации и ее роли в жизни и деятельности человека продолжается. Информация вместе с другими научными понятия ми позволяет глубже познать законы развития материального мира. Счита ется, что она является общим для всех видов и форм движения материи по нятием и связана с тем или иным неотъемлемым свойством или атрибутом материи (отражением, разнообразием, структурой, неоднородным распреде лением вещества и энергии в пространстве и времени и т.д.).
13
1. Основы построения банков данных
Перед тем как определить понятие «данные», представим следующую абстрактную ситуацию.' Имеются некоторая система, информация о которой представляет интерес, и наблюдатель, способный воспринимать состояния системы и в определенной форме фиксировать их в своей памяти (никаких других действий наблюдатель не выполняет). В этом случае считают, что в памяти наблюдателя находятся данные, описывающие состояние системы. Таким наблюдателем в общем случае выступает информационная система.
Итак, данные можно определить как информацию, фиксированную в определенной форме, пригодной для последующей обработки, хранения и передачи.
Соответственно двум понятиям «информация» и «данные» различают два аспекта рассмотрения вопросов — инфологический и датологический.
В инфологическом аспекте рассматриваются вопросы, связанные со смысловым содержанием данных независимо от способов их представления в памяти системы. На этапе инфологического проектирования информаци онной системы решаются следующие вопросы:
1. О каких объектах или явлениях реального мира требуется накапли вать и обрабатывать информацию в системе?
2.Какие их основные характеристики и взаимосвязи между собой бу дут учитываться?
3.Какие вводимые в информационную систему понятия об объектах и явлениях, их характеристиках и взаимосвязях требуют уточнения?
Таким образом, на этапе инфологического проектирования выделяет ся часть реального мира, определяющая информационные потребности сис темы, т.е. ее предметная область.
В датологическом аспекте рассматриваются вопросы представления данных в памяти информационной системы. При датологическом проекти ровании системы, исходя из возможностей имеющихся средств восприятия, хранения и обработки информации, разрабатываются соответствующие формы представления информации в системе посредством данных, а также приводятся модели и методы представления и преобразования данных, формируются правила смысловой интерпретации данных.
Данные соответствуют зарегистрированным фактам об объектах или явлениях реального мира. Чтобы в дальнейшем использовать данные, тре буется их смысловое содержание — семантика данных. Поэтому в инфор мационной системе должны быть сформулированы правила их смысловой интерпретации.
Работа с семантикой — это работа со знаниями. В системах обработки информации под знаниями понимают сложноорганизованные данные, со держащие одновременно как фактографическую (регистрация некоторого
14
1.2. Автоматизированные информационные системы
факта), так и семантическую (смысловое описание зарегистрированного факта) информацию, которая может потребоваться пользователю при рабо те с данными. Причем эти сложноорганизованные данные могут иметь в своем составе встроенные процедуры обработки, которые активизируются в процессе обработки. Это характеризует активность знаний, их первичность по отношению к процессам обработки. Фактографические же данные игра ют в этих процессах пассивную роль (т.е. абстрактно можно сказать, что фактографические данные в отличие от знаний могут обрабатываться лю быми процедурами обработки).
Основное средство представления семантики данных — естественный язык. Однако можно использовать специальные формализованные языки, которые позволяют достаточно эффективно организовать обработку инфор мации для целого ряда практических задач.
1.2. Автоматизированные информационные системы
Длительное время различные направления автоматизированных ин формационных систем (АИС) развивались независимо, и поэтому в настоя щее время нет единой трактовки и устоявшейся их классификации.
В60-е годы была осознана роль информации как важнейшего ресурса любой организации, предприятия. Началась разработка АИС различного назначения, совершенствовались различные программные процедуры и средства вычислительной техники для обработки данных, наращивалась память ЭВМ, развивались средства телекоммуникаций. Работы по созданию АИС в нашей стране велись в двух направлениях:
1)разработка АИС как первой очереди автоматизированных систем управления (АСУ);
2) разработка автоматизированных систем научно-технической ин формации (АСИТИ).
Впервом направлении вьщелялись АСУ различных уровней: АСУТП — для автоматизации технологических процессов, АСУП — для автоматиза ции организационного управления предприятием или организацией, ОАСУ — отраслевые автоматизированные системы управления, ОГАС — общегосу дарственная автоматизированная система. Информационная сфера предпри ятия или любой организации разнообразна и включает широкий спектр все возможных видов информации. Однако за основной, или базовый, метод построения этих систем был принят метод регистрации и хранения инфор мации в виде отдельных фактов (значений, событий, операций и т.п.) с по следующей их группировкой и объединением по различным признакам (в
15
/. Основы построения банков данных
соответствии с алгоритмами управления в системе) и выводом итогов в формах и документах, необходимых и удобных для решения конкретных управленческих (пользовательских) задач. Поэтому АСУ относят к классу фактографических систем.
Второе направление было связано с обеспечением научно-техни ческой информацией практически всех видов народнохозяйственной дея тельности. В нашей стране был принят единый порядок разработки общего сударственной АСНТИ. В ее структуре были предусмотрены общегосудар ственные, отраслевые и региональные органы, отделы и бюро научнотехнической информации (НТИ, ОНТИ и БТИ соответственно) на предпри ятиях, в научно-исследовательских институтах и других организациях. При создании этих систем использовали методы обработки документальной ин формации (монографий, отчетов, статей, писем, справочников, законода тельных и нормативных актов и т.п.), позволяющие решать задачи семанти ческого анализа текста, его реферирования, перевода с одного языка на дру гой и т.д. Именно в системах этого класса были введены понятия информа ционно-поисковой системы (ИПС), информационно-справочной системы (ИСС), информационно-логической системы (ИЛС), информационнопоискового языка (ИПЯ), дескриптора, тезауруса, релевантности информа ционного поиска, семантики и грамматики языка системы. Поэтому эти системы относят к классу документальных систем.
В 1990—91 гг. работы по созданию централизованных АСУ и АСНТИ были приостановлены. Некоторое время создавали в основном локальные информационные системы отдельных фирм, страницы фактографической и документальной информации в Интернете. Однако по мере адаптации к новым экономическим условиям вновь появляются АИС крупных организа ций (например, крупных коммерческих банков, Газпрома и т.д.), регионов.
При переходе к рыночной экономике и правовому государству возрастает роль нормативно-правовой и нормативно-методической информации. Развива ются автоматизированные системы нормативно-методического обеспечения управления (АСНМОУ), автоматизированные системы нормативно-правовой документации (АСНПД), экономические информационные системы (ЭИС), системы поддержки принятия решений (СППР), экспертные системы (ЭС), информационные системы мониторинга (ИСМ) и т.п. Большинство из них сле дует отнести к классу документально-фактографических систем.
Общим для АИС является то, что они предназначены для регистра ции, хранения и переработки информации с целью поиска и выдачи ответов на запросы пользователей. АИС являются подклассом класса обобщенных динамических систем. В настоящее время в большинстве случаев они раз рабатываются как банки данных и знаний.
16
1.2. Автоматизированные информационные системы
|
Хранение и обработка |
Реализация |
||
Ввод |
информации |
функциональных |
||
исходной |
БнД |
Внешние |
алгоритмов и |
|
информации |
подготовка |
|||
Модель |
источники |
|||
|
вариантов |
|||
|
ПО |
информации |
||
|
решений |
|||
|
|
|
||
|
Ответ на запрос |
Запрос |
||
Сбор, |
|
|
регистрация, |
Принятие |
|
подготовка и |
||
решения |
||
передача |
||
|
||
исходной |
|
|
информации |
|
Механизм
реализации
решения
Рис. 1.1. Роль и место БнД в составе АСУ
Банк данных (БнД) — это АИС, включающая в свой состав комплекс специальных методов и средств (математических, информационных, про граммных, языковых, организационных и технических) для поддержания динамической информационной модели предметной области с целью обес печения информационных запросов пользователей.
Предметная область (ПО) — это область применения конкретного БнД. Различают БнД, применяемые в сфере управления предприятиями и организациями, транспортом, в медицине, научных исследованиях и т.д.
Банк данных выступает в роли специальной обеспечивающей подсис темы в составе АСУ различного профиля (рис. 1.1).
Задача поддержания информационной модели в необходимом состоя нии требует, чтобы в БнД выполнялись операции хранения и модификации (последняя представляет собой совокупность операций «включить», «уда лить», «изменить данные») информационной модели в соответствии с воз никающими изменениями в состоянии объектов ПО. Кроме того, с развити ем АС видоизменяется состав объектов ПО и связи между ними, что также должно найти отражение в соответствующих изменениях информационной модели. В АС используется самая разнообразная по смысловому содержа нию информация, представленная в различных кодах. Поэтому организация БнД должна быть достаточно гибкой, чтобы обеспечивать использование
17
1. Основы построения банков данных
информации различных видов и изменять при необходимости структуру хранимой информации.
Задача обеспечения информационных запросов пользователей имеет два аспекта, которые необходимо рассматривать и учитывать при проекти ровании БнД. Во-первых, определение границ конкретной ПО и разработка описания соответствующей информационной модели. БнД должен обеспе чивать АС всей необходимой информацией, а в идеальном случае даже той, которая может потребоваться при расширении АС. Во-вторых, разработка БнД ориентирована на эффективное обслуживание всех пользователей. Ис ходя из этого следует проанализировать типы и виды запросов тех лиц, ко торые будут пользоваться услугами БнД, а также функциональные задачи, для которых БнД является источником информации.
Наличие постоянных и разовых пользователей в АС, а следовательно, потока регламентированных и произвольных по содержанию запросов, тре бует разработки специальных подходов к определению границ ПО и проек тированию состава элементов информационной модели. Если бы в системе существовал только поток регламентированных запросов и не предполага лось бы ее развитие, то можно было бы определить границы ПО и выпол нить проектирование исходя из анализа всей совокупности запросов поль зователей. Это так называемый подход к проектированию «от запросов пользователей». Однако наличие потока произвольных по содержанию за просов и развитие АС во времени не позволяют в полной мере его исполь зовать. Необходим подход, позволяющий прогнозировать смысловое со держание ожидаемой совокупности произвольных запросов и называемый подходом «от реального мира». Суть его заключается в следующем. С по мощью экспертов определяются границы ПО (состав объектов, их свойства и отношения с учетом развития системы), после чего проектируется модель. Этот подход базируется на предположении, что произвольные запросы пользователей соответствуют тематической направленности АС.
Подход «от реального мира» является основным, а подход «от запро сов пользователей» используется для уточнения границ ПО и имеет наи большее применение в период использования АС, когда накапливается дос таточно информации о содержании произвольных запросов и необходима коррекция границ ПО и состава элементов информационной модели.
Услугами БнД обычно пользуется большое число пользователей, по этому в нем предусматривается специальное средство приведения всех запросов к единой терминологии — словарь данных. Кроме того, сущест вуют специальные методы эквивалентных грамматических преобразова ний запросов для построения оптимальных процедур их обработки, а так же специальные методы доступа к одним и тем же данным различных пользователей при совпадении во времени поступивших запросов. Как правило, со стороны внешних пользователей к БнД предъявляют следую щие требования:
18
1.2.Автоматизированные информационные системы
1)удовлетворять актуальным информационным потребностям внеш них пользователей, обеспечивать возможность хранения и модификации больших объемов многоаспектной информации, удовлетворять выявленным
ивновь возникающим потребностям внешних пользователей;
2)обеспечивать заданный уровень достоверности хранимой информа ции и ее непротиворечивость;
3)обеспечивать доступ к данным только пользователям с соответст вующими полномочиями;
4)обеспечивать возможность поиска информации по произвольной группе признаков;
5)удовлетворять заданным требованиям по производительности при обработке запросов;
6)иметь возможность реорганизации и расширения при изменении границ ПО;
7)обеспечивать выдачу информации пользователю в различной
форме;
8)обеспечивать простоту и удобство обращения внешних пользовате лей за информацией;
9)обеспечивать возможность одновременного обслуживания большо го числа внешних пользователей и т.п.
Стремление к максимальному удовлетворению перечисленных требо ваний приводит к необходимости решения вопроса о централизации управ ления данными, имеющей ряд преимуществ.
1. Сокращение избыточности хранимых данных. Может быть обеспе чена минимально необходимая (например, только для обеспечения требуе мой производительности системы) избыточность (дублирование) хранимых данных. При установлении факта использования несколькими программами одинаковых данных, такие данные интегрируют и хранят в единственном экземпляре. В дальнейшем их используют во всех соответствующих при кладных программах.
2.Устранение противоречивости хранимых данных. Следствием уст ранения избыточности данных является устранение возможности возникно вения противоречивости одних и тех же данных, хранимых в различных файлах.
3.Многоаспектное использование данных. Централизованное управ ление позволяет в полной мере решать такой вопрос, как обеспечение новых приложений за счет уже имеющихся данных, т.е. обеспечивается реализа ция принципа однократного ввода и многократного (многоаспектного) ис пользования данных.
4.Комплексная оптимизация. В максимальной степени устраняются противоречивые требования. Например, на основе анализа требований поль зователей можно выбрать такие структуры хранения данных, которые обес печат наилучшее обслуживание в целом.
19
