Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Заочники_ЦБП / ИТвУправлении_от Смирнова ВБ / ИТ в Управлении, Уч.Пос..doc
Скачиваний:
85
Добавлен:
12.03.2016
Размер:
1.33 Mб
Скачать
      1. 2.3. Процесс накопления информации

В автоматизированных системах обработки информации и управления данные являются основой для формирования концептуаль­ной модели реального производственного процесса. Обработка ин­формации при наличии алгоритмов управления требует входных данных, в процессе обработки формируются промежуточные и вы­ходные данные. При структуризации данных могут возникать новые знания, формироваться информационный ресурс с целью оптималь­ного управления производством. При известном наборе функци­ональных задач автоматизированной системы, составляющих ее функциональную структуру, и совокупности алгоритмов решения вычислительных задач, входящих в алгоритмическую структуру АСУ, возникает проблема создания информационного обеспечения. Информационная технология в управлении производством, науч­ных исследованиях, проектировании, обучении требует целенаправленного накопления данных. В основе этого процесса должны лежать формализованные модели, позволяющие синтезировать ин­формационную базу АСУ.

Инфологическая модель предметной области. Исходная инфор­мация для синтеза информационной базы формально представляется в виде инфологической модели предметной области. Эта модель совместно с наборами хранимых данных и алгоритмами обработки информации позволяет построить каноническую схему информаци­онной базы, от которой можно перейти к логической схеме, а от нее - к физическому уровню реализации информационного обес­печения. Таким образом, процесс обработки сопровождается накоп­лением данных. Построение инфологической модели предусматри­вает определение:

  1. множества данных и функциональных отноше­ний между ними;

  2. значений данных и функциональных отношений, задающих способы обращения к ним при реализации алгоритмов;

  3. выбор оптимальных вычислительных схем алгоритмов.

Будем считать, что вычислительный алгоритм известен и запи­сан на алгоритмическом языке высокого уровня. Обозначим множе­ство данных, используемых в алгоритме, через D, тогда элемент множества dD. Если выделить множества D1, ..., Dn, то между ними могут существовать определенные отношения. Выберем кор­тежи

(d1, ..., dn, b1); (d1, ... , dn, b2).

Подмножество называют функциональным отношением, если b1=b2, при этом между элементами множеств (d1, ..., dn)D1D2, ..., Dn и bB возникает однозначное соответствие. Функциональное отношение определяется совокупностью кортежей (d1, ..., dn) и имеет область значений bB. Инфологическую модель предмет­ной области задают следующие параметры: {Dk} - множество имен элементов данных dk с длиной lk; zk - количество изменений значения данных за определенный интервал времени; aj - множест­во алгоритмов; fj - частота реализации j-го алгоритма; N=N1N2N3 - множество наборов данных, где N1, N2, N3 - со­вокупности входных, промежуточных и выходных данных соответ­ственно; - совокупность функциональных отношений.

Если алгоритм управления, записанный на алгоритмическом языке высокого уровня представлен в виде граф-схемы, это означа­ет, что заданы процедуры, которые реализуются с помощью либо стандартного, либо разрабатываемого программного обеспечения. Процедура включает в себя совокупность алгоритмов и определяет данные, необходимые для ее реализации. Выполнение процедуры означает вычисление с помощью некоторого оператора значения функционального отношения Ф, что осуществляется за счет задания его аргумента. При укрупнении граф-схемы алгоритма в вершинах располагаются не процедуры, а вычислительные модули. Форм­ирование вычислительных модулей в соответствии с последователь­ностью их функционирования позволяет получить вычислительную схему алгоритма. Как было рассмотрено выше, объединение вычислительных схем приводит к вычислительному графу системы об­работки. Однако вычислительный граф не вскрывает потоков дан­ных и порядок их использования. Поэтому полезно перейти к ин­формационному графу, вершинами которого будут наборы данных, используемых в вычислительном модуле.

Информационный граф системы обработки. Набор данных есть совокупность данных, передаваемых между двумя вычислительны­ми модулями. На логическом уровне выделяют связи по управле­нию и связи по данным. Такие связи существуют как внутри вычис­лительного модуля, так и между модулями различных уровней вычислительного графа системы обработки. Для любого модуля выделяют входные и выходные данные.

Входные данные отобразим матрицей Н, элемент которой hik=1, если входной набор данных N1i используется вычислительным модулем k. Этот же элемент hik=0, если это не имеет места.

Выходные данные формально отобразим матрицей Е, элемент которой еkj=1, если набор данных N3i получен в результате работы вычислительного модуля k. Элемент матрицы еkj=0 - в против­ном случае.

Матрица взаимосвязи входных и выходных данных Q=HE. Элемент матрицы qij=1, если входной набор данных N1i используется для получения выходного набора данных N3j. Элемент матрицы qij=0, если это не имеет места. Рассмотрим связь вычислительного модуля ВМk с входным набором данных N1i и вы­ходным набором данных N3j. Структура модуля по преобразованию данных задается матрицей Q, связь модуля с набором данных N1i определяется матрицей Н, связь модуля с набором данных N3j - матрицей Е. Матрица Q соответствует ориентированному графу взаимосвязей между данными - информационному графу системы. Вершинами графа являются входные, промежуточные и выходные наборы данных. Дуги графа отображают информационные связи между этими наборами.

В информационном графе системы можно выделить входные вершины, которые не имеют входных дуг и отображают первичные (входные) наборы данных. В концевых вершинах графа, которые не имеют исходящих дуг, располагаются выходные наборы данных, являющиеся результатами обработки информации и используемые для принятия решения в системе. В остальных вершинах графа располагаются промежуточные наборы данных, которые являются внутренними по отношению к пользователю и возникают в процес­се вычислений как промежуточный результат. Отметим, что в от­личие от вычислительного графа системы информационный граф может иметь контуры и петли, что объясняется необходимостью повторного обращения к отдельным наборам данных. Входные данные являются первичными, поскольку они возникают при изуче­нии производства и характеризуют исходное состояние управля­емой системы. Промежуточные и выходные данные относятся ко вторичным данным. Вторичные данные возникают в результате процесса обработки, т.е. выполнения отдельных процедур над первичными данными.

Вычислительный граф системы обработки и информационный граф системы позволяют формализовать инфологическую модель предметной области. В процессе обработки и накоп­ления данных формируются новые наборы данных, при этом можно различать два крайних случая.

1. Формирование набора данных на основе вычислительного алгоритма, т.е. для имеющихся входных наборов данных на основе вычислений получают выходные данные. Последовательность ис­пользования вычислительных модулей для формирования выход­ного набора данных определяется вычислительной граф-схемой ал­горитма в виде ориентированного графа без петель. В вершинах графа располагаются вычислительные модули, а дуги графа отоб­ражают отношение предшествования между ними.

2. Вычисление значений набора данных по имеющимся старым значениям и по совокупности изменений, возникающих в первичном наборе данных. Эти процедуры осуществляются на основе алгорит­мов корректировки набора данных. Корректировка возможна в том случае, если корректируемый набор данных уже ранее был запро­шен и хранится в информационной базе.

Таким образом, в модели накопления данных может быть выяв­лено два основных типа алгоритма нахождения новых наборов: вычислительный алгоритм и алгоритм корректировки набора дан­ных. Реализация вычислительного алгоритма при запросе обычно необходима тогда, когда запрашиваемый набор данных не хранится в информационной базе. При наличии этого набора более удобно использовать алгоритм корректировки. Вычислительный алгоритм реализуется на базе информационного графа системы, алгоритм корректировки базируется на списке изменений, вносимых в первич­ный набор данных.

Независимо от используемого алгоритма вычислительный мо­дуль выполняет определенные процедуры, включающие в себя действия над данными. На логическом уровне возникает задача специ­фикации действий, т.е. определение входных и выходных наборов данных для действий, а также взаимосвязей между различными действиями. При этом можно выделить два типа функциональных (логических) элементов: элементы - действия Q и элементы - объекты действий D. Элементы действия Q характеризуются внешними связями и ресурсами. Такой элемент реализует определенное преобразование над данными с использованием в качестве ресурсов элементов типа Q и элементов типа D. В качестве объектов действий выступают данные, которые характеризуются именем, типом и значением. Тип определяет множество значений, которые принимают объекты данного типа. Объект действий задается струк­турой, т.е. составом компонентов и связей между ними. Элемент Q взаимодействует с элементами D1, D2, D3, через связи типа: 1 - "вход", 2 - "выход", 3 - "вход - выход".

Совокупность элементов действий Q и элементов объектов дей­ствий, т.е. данных D, образует информационную схему. Естествен­но, что одни и те же данные могут быть использованы различными элементами действий. Рассмотрим информационную систему, включающую элементы действий Q1...Q3 и элементы данных D1...D4. В схеме присутствуют связи типа 1 - "вход" и типа 2 - "выход". Связи первого типа формально записываются в виде D in Q, а второго типа - D out Q. Информационная схема отображается матрицей

1

1

0

B=(D in Q) (D out Q)=

0

0

1

1

1

0

0

1

1

.

Матрица В построена непосредственно по информационной схе­ме. Данные D1 используются действиями Q1 и Q2, что соответствует первой строке матрицы. Данные D2 формируются действием Q3, что отображается второй строкой матрицы. Данные D3 вычисляются действием Q1 и используются действием Q2, что соответствует третьей строке. Данные D4 вырабатываются действием Q2 и исполь­зуются действием Q3, (четвертая строка). Исключим из информаци­онной схемы элементы действия Q и найдем связи по данным, что на логическом уровне соответствует информационному графу си­стемы. Учтем при этом частоту активизации действий. При одиноч­ном запросе суммарное количество действий, использующих дан­ные di, обозначим через zii, а суммарное количество действий, использующих данные dj совместно с данными di, определим как zij. Члены zii, zij являются элементами матрицы Z = B Bт. Вводя в матрицу Z частоту активизаций действий f, получим матрицу ZF=(Bf)B'. Элемент матрицы zfii показывает частоту использования дан­ного di с учетом частоты активизации действий. Соответственно элемент zfij отображает частоту совместного использования данных di, dj. По значениям этих частот данные могут объединяться в записи, а записи - в массивы. При этом обеспечивается минимизация числа обращений к записям в процессе обработки и корректировки информации.

Каноническая структура информационной базы. При известной инфологической модели предметной области, наличии вычисли­тельного и информационного графов возникает проблема создания модели накопления данных, в основе которой лежит задача выбора хранимых данных. Пусть совокупность используемых наборов дан­ных N разделена на N1 первичных (входных), N2 промежуточных и N3 выходных наборов данных, т.е. N=N1N2N3. Получение наборов данных N3 осуществляется на основе вычислительных ал­горитмов и алгоритмов корректировки. Вычислительный алгоритм представляется вычислительной схемой, т.е. подграфом вычисли­тельного графа. Алгоритм корректировки базируется на множестве первичных данных N1. Даже при наличии лишь двух классов ал­горитмов возникает задача выбора типа алгоритма в соответствии с запросом пользователя. Если по запросу необходимо получить некоторый набор данных, то в качестве критерия выбора типа алгоритмов можно использовать полное время создания этого на­бора по данному запросу. При использовании вычислительного алгоритма это время складывается из времени, которое затрачива­ется на получение входных наборов данных для выбранного вычис­лительного модуля, и времени вычислений набора данных этим модулем. Для сравнения необходимо найти время, которое затрачи­вается в случае применения алгоритма корректировки. Корректи­ровка набора целесообразна, если структура данных уже ранее была задана в одном из предыдущих запросов. В качестве дополнитель­ного ограничения при решении задачи выступает объем использу­емой памяти. Рациональное сочетание вычислительных алгоритмов и алгоритмов корректировки данных позволяет уменьшить суммар­ное время реализации всех запросов при накоплении данных.

Инфологическая модель предметной области позволяет подойти к решению двух задач: задачи синтеза информационной базы и за­дачи управления вычислительным процессом. При синтезе инфор­мационной базы необходимо установить ее структуру. Представле­ние информации пользователя дает каноническая структура ин­формационной базы, поэтому построение модели накопления дан­ных должно базироваться на синтезе канонической структуры. Это проводится при следующих требованиях: единство инфологической модели для множества предметных областей, обслуживаемых ин­формационной базой; выбор безызбыточного набора информацион­ных элементов и связей между ними; реализация интерфейса пользователя с информационной базой в терминах инфологической модели предметной области; возможность простого перевода поня­тий канонической структуры в понятия логического и физического уровней представления информационной базы. Решение задачи синтеза канонической структуры информационной базы предполагает выбор и упорядочение ключевых реквизитов для множества бинарных отношений, хранимых в информационной базе; формирование логических записей на основе объединения значений реквизитов; определение множества логических записей и связей между ними на основе критерия минимума суммарного времени работы с наборами данных как в режиме вычислительных алгоритмов, так и в режиме алгоритмов корректировки.

Упорядочение ключевых реквизитов отношений должно базиро­ваться на возможности физической реализации информационной базы. Учитывая, что современные СУБД не могут реализовать бинарные отношения между данными, представим любое отношение в виде совокупности бинарных отношений. Это означает упорядочение реквизитов, входящих в ключ каждого функционального отношения , что можно осуществить на основе построения графа, отображающего (di dj)2, где i j; i, j = 1 - N; 1 r N - 1. Построим матрицу Q, отображающая взаимосвязь между отдельными данными и группами данных. В общем случае под di, dj можно понимать некоторые обобщен­ные информационные элементы, представляющие собой элементы данных либо группы, составленные из этих элементов: qij=1, если существует взаимосвязь (в том числе возможна и семантическая) между элементами di, dj; qij=0 при отсутствии взаимосвязи. Если строка матрицы Q содержит все нулевые элементы, то этой строкой отображаются входные данные. В информационном графе эти данные соответствуют корневым вершинам. Если столбец матрицы Q содержит все нулевые элементы, то он отображает терминальные, т.е. выходные, данные. На информационном графе эти данные соответствуют концевым вершинам. Остальные информационные элементы, отображаемые строками и столбцами матрицы Q, отне­сем к групповым элементам. На информационном графе они располагаются в промежуточных вершинах. Объединение множеств значе­ний реквизитов можно выполнить на основе оценки взаимосвязи групповых элементов с подчиненными им выходным. Тогда для группы конечных вершин - терминальных элементов выделяется множество групповых висячих вершин drD. Для множества dr может быть построена матрица достижимости вида Qr, представляющая собой квадратную матрицу с числом строк и столбцов, соответствующим количеству элементов в выделенном множестве dr. При переходе к логическому уровню представления информацион­ной базы информационные элементы и взаимосвязи между ними упорядочиваются по уровням иерархии. Для этого определим мно­жество предшествования и множество достижимости. Для информационного элемента dj матрицы Q множество предшествования (dj) определяется из совокупности информационных элементов di, соот­ветствующих единичной записи в j-м столбце. Анализируя множест­во (dj), устанавливают базовые типы структурных элементов, на основе которых формируются информационные группы. Элементам, для которых (dj)=, соответствуют промежуточные вершины графа. Из матрицы Q для элемента dj выявляют и множество достижимости этих данных D(dj). Это множество формируется за счет элементов di, которым соответствуют единичные записи в j-й строке матрицы Q. Тогда элементы данных dj принадлежат группе r, т. с. определяются как djr, если D(djr)(djr)=D(djr). На основе этого условия группы итеративно разбиваются по уровням иерархии, начиная с верхнего. Группы самого верхнего уровня называютcя корневыми, поскольку они располагаются в корне­вые вершинах графа. Группы следующих рангов располагаются в промежуточных вершинах, доступ к ним возможен через корневые группы. Поэтому с помощью корневых групп определяются точки входа к данным информационной базы. Состав информационных элементов, входящих в группу djr, можно определить, включив в нее элементы di, которым соответствуют единичные записи в j-м столбце матрицы Q. Упорядочивая таким способом элементы матрицы Q, получают структурированный граф, в котором возможные точки входа соответствуют групповым элементам первого уровня, конеч­ные вершины - выходным данным. В промежуточных вершинах располагаются групповые элементы различных уровней иерархии.

Выбор ключевых реквизитов. Выделение групповых элементов из состава информационных элементов в группах позволяет с помощью ориентированного графа построить траекторию доступа к ка­ждому информационному элементу группы. Доступ осуществляется через корневую вершину графа. Для построения ключевых реквизитов необходимо проанализировать отношения между групповыми информационными элементами. Поиск информационных элементов в базе осуществляется по требованиям пользователя. Если k - e требование пользователя содержит Dk элементов, выбираемых из общего числа структурных элементов инфологической модели предметной области, то можно построить матрицу смежности sk для информационного требования Dk. Элемент этой матрицы sij=1, если существует связь между элементами di, dj в требовании Dk. На основании элементов sijk могут быть названы элементы sijr, соответствующие групповым информационным элементам базы. В зависи­мости от характера групп выделяют sijr=11, sijr=M1. Этим элементам будут соответствовать простые группы. Если sijr=MM, sijr=1M, то получим группы - массивы. Для простых групп образуют про­стой ключ, для групп массивов - составной ключ, включающий в себя основной и вспомогательный ключи. При этом основной ключ определяется терминальным, конечным элементом, входящим в состав группы массива. Выделение основных ключей должно быть неизбыточным, поэтому необходимо установить и устранить дуб­лируемые терминальные конечные элементы данных.

Пусть групповому элементу dir соответствует множество тер­минальных элементов D(dir), а групповому элементу djr - множест­во терминальных элементов D(djr). Известно, что групповые элементы семантически связаны, если D(dir)D(djr). Соответственно семантическая независимость групповых элементов удовлетворяет условию D(dir)D(djr)=. Если последнее условие выполняется для всех попарно выбираемых групповых элементов данного уровня иерархии, а затем и для всех более высоких уровней, то дублирова­ние отсутствует. Если условие не выполняется, то имеют место дублируемые терминальные, конечные элементы. Устранение дуб­лируемых терминальных элементов достаточно легко осуществля­ется, если групповые элементы построены на одном и том же типе отношений.

Пусть групповой элемент djr принадлежит уровню иерархии n, а элемент dir - уровню иерархии m, причем m<п. При наличии пути на графе из элемента dir к элементу djr следует убрать дублиру­емые терминальные элементы из множества dir. Удаление терминального элемента должно быть отражено и в матрице Q. Это означает, что коэффициент qij=1, показывающий ранее связь между элементами di, dj, становится равным нулю. Если групповые элементы dir, djr построены на разных типах отношений, то устранение терминальных элементов осуществляется эвристически с исполь­зованием той же идеи: расположением терминального элемента на более высоком уровне иерархии и устранением дублируемого эле­мента на нижнем уровне. Размещение терминальных элементов на более высоких уровнях иерархии в графе обеспечивает уменьшение времени доступа к конечному элементу, так как сокращается путь от корневой вершины до терминального элемента в графе.

При построении канонической структуры информационной базы необходимо устранить также избыточные связи между групповыми элементами. При наличии таких связей по одному и тому же ключу могут вызываться разные групповые элементы данных, что являет­ся недопустимым. Избыточная связь между группами dir, djr может на графе представляться непосредственно дугой (i, j), соединяющей групповые элементы данных, либо путем, включающим в себя ряд дуг. Если избыточной оказывается дуга (i, j), то она легко об­наруживается по матрице Q для элемента qij=1. Заменяем этот элемент на нулевой, что соответствует устранению избыточной дуги. Если путь, связывающий групповые элементы данных, вклю­чает несколько дуг, то необходимо найти матрицу Qk, где k = 2, ... , Nk; Nk - максимальное число групповых элементов данных. Тогда получим квадратную матрицу, элемент которой qijk показывает чис­ло путей, ведущих из группы dir в группу djr. Если в исходной матрице Q элемент qij = 1, а в полученной матрице Qk элемент qijk = 1, то связь является избыточной. Для удаления этой связи заменяем qij = 1 на нулевой элемент. Граф, получаемый после удаления избы­точных терминальных элементов и избыточных связей между груп­повыми элементами данных, определяет каноническую структуру информационной базы. Выделение групповых элементов данных в канонической структуре позволяет объединить множество значений конечных элементов (реквизитов) в логические записи и тем самым упорядочить их в памяти ЭВМ. Структура логических записей и связей между ними должна быть такова, чтобы обеспечить минимум суммарного времени работы с наборами данных как при решении функциональных задач, так и при их корректировке. Поэтому необходимо установить характеристики канонической структуры информационной базы.

Существенными являются длины групповых элементов данных, представляющие собой сумму длин терминальных элементов, вхо­дящих в данную группу. Для группы dir длина группового элемента li = li0, где li0 - длина терминального элемента данных. Интеграль­ная оценка длин логических записей может быть произведена на основе вектора l={l1, ..., li, ..., lNk}. Любая информационная база характеризуется таким параметром, как время доступа пользова­теля к данным. Однако на этапе создания канонической структуры физическая организация базы данных неизвестна, поэтому реальное время поиска данных не удается определить. Тем не менее нужно оценить минимальное значение времени обращения к базе данных как в процессе решения функциональной задачи, так и в процессе корректировки базы. Для групповых элементов данных в каноничес­кой структуре может быть задана матрица Т= ||i||, где i - мини­мальное время доступа к терминальным элементам di, входящим в группу d'i. Если функциональная задача решается на основе вычис­лительного алгоритма aj, то время работы алгоритма с реквизита­ми di определяется как tjb=did'i ij, где ij - время поиска реквизита di при решении задачи на основе алгоритма aj. Значение этого времени зависит от вида обработки реквизита di в выбранном алгоритме (возможна последовательная обработка значений дан­ных либо обработка по ключу). При использовании алгоритмов коррекции корректируются все отношения, которые содержат изме­няемый ключевой реквизит и зависимые от него реквизиты. Значе­ние времени работы алгоритма с данными tjk определяется количе­ством копий, присутствующих в корректируемых реквизитах. На уровне канонической структуры число копий задается количеством экземпляров терминальных элементов, входящих в группу dri. Обыч­но алгоритм коррекции имеет возможность обращаться по ключу к информационным элементам базы данных tkj=diijik, где ik = 1, если didir; ik = 0. если это не имеет места. Методика построения канонической структуры информационной базы практически не меняется в зависимости от того, строится централизованная либо распределенная информационная база. При создании распре­деленной информационной базы матрица Q раскрывается для каждого пользователя. На графе для каждого пользователя формируются групповые и терминальные элементы данных. Полное множество групповых элементов находится путем пересечения групповых элементов данных отдельных пользователей. Таким образом, каноническую структуру информационной базы можно считать универсальной формой представления инфологической модели предметной области и безизбыточной формой модели накопления данных.

От канонической структуры переходят к логической структуре информационной базы и к физической организации информацион­ных массивов. Каноническая структура является также основой автоматизации основных процессов предпроектного анализа предметных областей пользователей.

Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.

Оставленные комментарии видны всем.