2 Модели основных фаз преобразования
информации
Информационная технология базируется на реализации информационных процессов, разнообразие которых требует выделения базовых, характерных для любой информационной технологии. К ним можно отнести управление, обмен, обработку, накопление данных и формализацию знаний. На логическом уровне должны быть построены математические модели, обеспечивающие объединение процессов в информационную технологию. Модель процесса передачи может быть представлена совокупностью моделей каналов связи и ошибок, являющихся следствием воздействия помех на передаваемые коды сообщений. Модель процесса обработки отображается моделью планирования и моделью реализации вычислений. В ходе обработки на основе входных данных формируются промежуточные и выходные, поэтому существенным становится процесс накопления, в основе которого должны лежать модели, обеспечивающие построение информационной базы.
В условиях персонализации вычислений особую роль играют модели представления знаний. Распространение получили логическая, алгоритмическая, семантическая и фреймовая модели, а также их совместное использование.
Рассмотрим более подробно некоторые из перечисленных моделей.
Модель процесса передачи
Взаимодействие между территориально удаленными объектами осуществляется за счет обмена данными. Доставка данных производится по заданному адресу с использованием сетей передачи данных. В условиях распределенной обработки информации эти сети превращаются в информационно-вычислительные, однако и для них остаются характерными проблемы передачи, распределения и доставки данных по заданным адресам. Важнейшим звеном сети является канал передачи данных, структурная схема которого представлена на рис. 2. Физической средой передачи данных является некоторый реальный либо специально организуемый канал связи (КС), в котором элементы данных передаются в виде физических сигналов. Такой канал получил название непрерывного канала (НКС), поскольку сигналы описываются непрерывными функциями времени.
Р исунок 2 – Структурная схема канала передачи данных
Согласование сигнала и канала связи осуществляется по физическим характеристикам, а также по соотношению скорости передачи информации и пропускной способности непрерывного канала. Следует отметить, что большинство непрерывных каналов оказываются непригодными для передачи сигналов, отображающих данные, без предварительного их преобразования. Поэтому сигналы по физическим характеристикам должны быть согласованы со свойствами непрерывного канала связи, для чего в структуре канала передачи данных предусматривают устройства преобразования сигналов, которые для телефонных каналов связи приобретают характер модемов. Модем представляет собой совокупность модулятора и демодулятора. С помощью модулятора сигнал воздействует на некоторый параметр переносчика, благодаря чему спектр сигнала смещается в область частот, для которых наблюдается наименьшее затухание в выбранном непрерывном канале связи. Обратную операцию, т. е. переход от модулированного сигнала к модулирующему, осуществляет демодулятор. Как показано на рисунке, непрерывный канал связи совместно с функционирующими на его концах модемами образует дискретный канал связи (ДКС).
Канал передачи данных является основной составной частью сети обмена данными, в которой процесс передачи реализуется на основе принятого метода коммутации и принципа маршрутизации данных. Рассмотрим канал передачи данных на логическом уровне. В основе его лежит модель дискретного канала связи.
Дискретный канал связи (ДКС) имеет на входе множество символов кода X с энтропией источника Н(Х), а на выходе — множество символов Y с энтропией H(Y). Если формируемые символы из множества X и выявляемые из множества Y расположить в узлах графа, соединив эти узлы дугами, отображающими вероятности перехода одного символа в другой, то получим модель дискретного канала связи, представленную на рис. 3. Множество символов X конечно и определяется основанием системы счисления кода Kx на входе канала. Система счисления по выявляемым символам также конечна и составляет Кy. Вероятности переходов, связывающих входные и выходные символы, могут
Р
исунок
3 – Граф дискретного канала связи с
шумом
быть записаны в виде матрицы
.
В этой матрице i- й столбец определяет вероятность выявления на выходе дискретного канала связи символа уi. Вероятности, расположенные на главной диагонали, называются вероятностями прохождения символов, остальные вероятности есть вероятности трансформации. Анализ модели дискретного канала связи возможен, если известна статистика появления символов на входе канала. Потери информации могут быть вызваны действием помех, которые отображаются в дискретном канале в виде некоторого потока ошибок. Поток ошибок задается с помощью определенной модели ошибок, на основании которой может быть установлена матрица переходов Р. При определенных соотношениях между вероятностями переходов, входящих в матрицу Р, выделяют: симметричные каналы по входу, для которых вероятности, входящие в строку матрицы, являются перестановками одних и тех же чисел; симметричные каналы по выходу, для которых это относится к вероятностям, входящим в столбцы; симметричные каналы по входу и по выходу при соблюдении обоих условий. На основе представленной классификации матрица двоичного симметричного канала имеет вид
,
где Р – вероятность искажения символа.
Для граничного случая двоичного симметричного канала без шума матрица переходов имеет вид
.
Пропускная способность дискретного канала связи без шума составляет
С = log2 Ky,
где Ку – основание системы счисления кода на выходе канала.
Пропускная способность двоичного симметричного канала связи с шумом (то есть при К = 2) составляет
C = 1 + (1 - P)log2 (1 - P) + P log2 P.
Анализ показывает, что при Р = 0 пропускная способность двоичного симметричного канала равна 1, а при Р = 0,5 – С = 0.
Модель процесса обработки.
В условиях автоматизированного управления внутримашинная обработка информации предполагает последовательно-параллельное во времени решение вычислительных задач, отображающих функциональные задачи АСУ. Это возможно при наличии определенного плана организации вычислительного процесса, реализуемого на основе имеющихся вычислительных ресурсов ЭВМ. Вычислительная задача, формируемая источником вычислительных задач (ИВЗ), по мере необходимости решения обращается к запросам в вычислительную систему (ВС) (рис. 4)
Р
ис.
4
Организация вычислительного процесса предполагает определение последовательности решения задач и реализацию вычислений. Последовательность решения задается исходя из их информационной взаимосвязи, когда результаты решения одной задачи используются как исходные данные для решения последующей. Процесс решения определяется принятым вычислительным алгоритмом.
В вычислительной системе можно выделить систему диспетчирования (СД), которая определяет организацию вычислительного процесса, и ЭВМ, обеспечивающую обработку информации.
Каждая вычислительная задача, поступающая в вычислительную систему, может быть рассмотрена как некоторая заявка на обслуживание. Последовательность вычислительных задач во времени создает поток заявок, обслуживание которых может быть математически формализовано некоторым законом распределения времени обслуживания. В соответствии с требованиями на организацию вычислительного процесса возможно перераспределение поступающих задач на основе принятой схемы диспетчирования.
Модели обслуживания вычислительных задач.
При наличии плана организации вычислительного процесса основная проблема заключается в обслуживании заявки, которое характеризуется временем пребывания заявки в системе. Это время складывается из времени ожидания в очереди и времени обслуживания, представляющего собой время обработки информации процессором на основе принятой программы. Анализ процесса обслуживания заявки может быть выполнен на основе теории массового обслуживании. Тогда вычислительная система может быть представлена математической моделью системы массового обслуживания, которая характеризуется числом обслуживающих приборов, т. е. ЭВМ, дисциплиной образования очереди, числом вычислительных задач в ИВЗ, дисциплиной обслуживания очереди с помощью диспетчера Д.
В зависимости от того, какое число ЭВМ используется, различают одно- и многолинейные системы. Даже для многолинейной системы может наблюдаться случай, когда все обслуживающие приборы, т. е. ЭВМ, будут заняты. Тогда модель системы может предполагать такой поток заявок, который не ждет обслуживания, и возникает система с потерями. Физически это возможно либо когда очередь не предусматривается, либо когда имеется полное заполнение очереди.
Другая модель системы характеризуется тем, что заявка на решение вычислительной задачи, поступившая в вычислительную систему, может ожидать и покидает ее только после полного обслуживания. В реальных вычислительных системах это оказывается возможным благодаря тому, что предусматриваются очереди О1 — ОN. Так как очередь не может быть не ограниченной, то данная система характеризуется числом заявок, ожидающих начала обслуживания. Возможны дополнительные ограничения на время ожидания, на время пребывания заявки в вычислительной системе и др. Существенное влияние, как на параметры обслуживающей системы, так и на процесс ее анализа, оказывает характер входящею потока заявок. Заявки от ИВЗ образуют во времени поток, который может иметь ограниченное или неограниченное число задач. Paзличными могут быть и правила обслуживания заявок, находящихся в очереди. В соответствии с этим устанавливается некоторая дисциплина обслуживания диспетчером Д. Естественной дисциплиной является дисциплина «первым пришел — первым обслужен». Возможен инверсный подход: «последним пришел — первым обслужен». Допускаются и случайные дисциплины обслуживания, когда заявки из очереди выбираются в произвольном порядке. В ряде случаев заявки обладают приоритетами. Это наиболее характерно для реальных задач АСУ, в которых имеются информационные взаимосвязи. Тогда заявки имеют разную степень важности по времени исполнения и каждой заявке присваивается некоторый приоритетный индекс. Заявка с меньшим индексом имеет наибольший приоритет.
В теории массового обслуживания под временем обслуживания понимают время, которое затрачивается на обслуживание одной заявки конкретным обслуживающим прибором. В общем случае время обслуживания характеризуется определенным законом распределения
F(t) = P(tобс < t),
где P(tобс < t) – вероятность того, что время обслуживания tобс < t.
При tобс < 0 F(t) = 0. Время обслуживания реальной заявки на ЭВМ определяется числом операций, входящих в программу. Существенное влияние на это время оказывает разветвленность программы. Для слабо разветвленных программ число выполняемых операций практически для каждой задачи одинаково и может быть использована модель с постоянным временем обслуживания. при значительной разветвленности программы в зависимости от типа заявки ее реализация может пойти по разным направлениям, время выполнения программы будет случайной величиной, т.е. реализуется модель с переменным временем обслуживания. Поведение вычислительной системы во времени может быть описано на основе исследования марковского процесса.
Рассмотрим отдельные наиболее характерные модели обслуживания.
Экспоненциальный закон времени обслуживания простейшего потока заявок. Простейшим называют стационарный ординарный поток без последействия. Обозначим интенсивность заявок через ( = const). Простейший поток описывается распределением Пуассона, в соответствии с которым вероятность возникновения k заявок за время t составляет
P(k, t) = (t)ke -t/ k!.
Математическое ожидание числа заявок за время t определяется как
.
Соответственно дисперсия числа заявок за время t равна
.
Такая модель хорошо описывает многие потоки заявок вычислительных задач, которые возникают в реальных условиях эксплуатации.
Экспоненциальный закон времени обслуживания простейшего потока заявок при S обслуживающих приборах. В этом варианте обслуживания вычислительная система включает S обслуживающих приборов (ЭВМ) и имеет очередь для поступающих заявок с числом мест L. При наличии хотя бы одной свободной ЭВМ поступившая заявка сразу принимается на обслуживание. Если все ЭВМ заняты, то она становится в очередь. Естественной дисциплиной обслуживания является «первым пришел – первым обслужен». По числу заявок система может иметь состояния: «0, 1, …, S + L».
Вероятность нахождения вычислительной системы в k-ом состоянии
.
Соответственно вероятность состояния (S + n)
,
где вероятность отсутствия заявок в вычислительной системе
.
В приведенных формулах = 1 / Тобс – интенсивность обслуживания заявок; Тобс - среднее время обслуживания одной заявки.
Вероятность потерь заявки (отказ в приеме на обслуживание возникает в случае, когда заняты все ЭВМ системы и в очереди находится L заявок) равна
Организация очереди в вычислительной системе требует знания ее средней длины. При условии, что очередь возникает, когда заняты все обслуживающие приборы и в системе имеет место количество заявок от S + 1 до S + L ее длина равна
.
При организации вычислительного процесса существенное значение имеет момент запуска и выпуска решаемой вычислительной задачи, поэтому весьма важно знать время пребывания заявки в очереди (время ожидания Тож). Среднее время ожидания
.
Конечные выражения для однолинейной системы с ограниченной очередью (при S = 1) имеют вид:
;
;
Среднее время пребывания заявки в вычислительной системе
.
Модель планирования вычислительного процесса
Для решения каждой задачи должен быть выделен определенный ресурс по объему оперативной и внешней памяти, по времени работы процессора, времена ввода-вывода информации. Естественно, что ограниченность вычислительных ресурсов может не позволить решать вычислительные задачи параллельно во времени. Учитывая, что вычислительная система при однолинейном обслуживании зачастую может решать только одну задачу, необходимо составить план последовательного запуска задач. Процесс назначения порядка решения задач во времени называется планированием. Для многолинейной системы планирование предполагает распределение заявок как во времени, так и в пространстве по используемым ЭВМ. В качестве распределяемых ресурсов выступают машинное время процессоров, объемы оперативной памяти и внешних запоминающих устройств, время работы устройств ввода-вывода. Эти ресурсы могут быть реализованы, если вычислительная задача подготовлена к выполнению ее вычислительной системой. Подготовка вычислительной задачи к исполнению осуществляется управляющей программой, называемой планировщиком. Планировщик обеспечивает ввод вычислительных задач в вычислительную систему с предварительным формированием определенных информационно-вычислительных работ на базе заявок вычислительных задач. При возникновении заявки на решение вычислительной задачи необходимо установить программу и набор данных, которые позволят сформировать информационно-вычислительную работу по решению данной задачи. Одновременно следует установить потребность в ресурсах и включить сформированную информационно-вычислительную работу в список работ, готовых для последующего исполнения. В результате планирования по каждой задаче может быть сформирован ряд работ, выполнение которых возможно при реализации управляющей программы, называемой супервизором. Супервизор обеспечивает предоставление каждой сформированной работе определенного ресурса процессора и других устройств вычислительной системы. Супервизор действует по запросу, на который откликается программа управления работами и процессором. При управлении информационно-вычислительными работами супервизор непрерывно инициируется командами, которые задает планировщик. Планировщик в соответствии с планом организации вычислительного процесса из множества заявок на решение вычислительных задач выделяет наиболее приоритетную и требует обеспечения ее соответствующими ресурсами. Для этого он обращается к программе управления вводом и выводом, памятью и т. д. В целом функция планирования реализуется управляющими программами планировщика и супервизора. Критерии, используемые при планировании вычислительного процесса, могут выбираться в зависимости от требований к решаемым вычислительным задачам. Можно идти по пути уменьшения среднего времени решения задач в вычислительной системе или увеличивать производительность. Возможны варианты, когда имеются ограничения на время решения конкретных задач, что особенно важно в системах управления в реальном масштабе времени.
Рассмотрим модель планирования вычислительного процесса. Будем считать, что в целом для ряда вычислительных задач необходимым является выполнение определенной номенклатуры типовых вычислительных работ J1 - J , для которых необходимо предоставление ресурсов R1 - R. Связь между работами и ресурсами можно установить в виде матрицы трудоемкости работ. Элементами этой матрицы служат параметры ij, которые в зависимости от характера требуемого ресурса имеют размерность числа единиц потребной памяти либо единиц времени, необходимых для выполнения соответствующей работы. Тогда вводимая матрица имеет вид
R1 R2 R
Имея данную матрицу, при составлении плана организации вычислительного процесса необходимо указать очередность выполнения работы отдельными устройствами вычислительной системы, т. е. последовательность использования ресурсов R1 … R.
Планирование вычислительного процесса осуществляется с целью составления последовательности, т. е. расписания выполнения информационно-вычислительных работ, производимых при решении поступивших вычислительных задач. Учитывая, что при решении вычислительной задачи используются разные устройства вычислительной системы (ВС), можно рассмотреть два крайних случая:
1) порядок использования отдельных устройств ВС определяется поступившими вычислительными задачами;
2) порядок использования устройств ВС либо неизвестен, либо неодинаков для различных информационно-вычислительных работ.
Этим крайним постановкам могут соответствовать и разные критерии эффективности составления плана вычислительных работ. Для первой постановки в качестве критерия может быть выбран минимум суммарного времени решения вычислительных задач, для второй — можно избрать в качестве критерия максимум загрузки устройств ВС. Планирование по минимуму суммарного времени решения вычислительных задач возможно, если известна матрица трудоемкостей отдельных работ. Предполагая, что ресурсы вычислительной системы используются последовательно и выделяя типовую последовательность прохождения любой вычислительной задачи, можно получить эффективный алгоритм планирования на основе задачи Джонсона, которая относится к теории расписаний и широко используется в календарном планировании.
Планирование по критерию минимума времени обработки.
При планировании вычислительного процесса необходимо учитывать следующие ограничения:
1) для любого устройства ВС (фазы обработки данных) каждая последующая работа не может начаться до окончания предыдущей;
2) каждое устройство на данной фазе может выполнять только одну информационно-вычислительную работу;
3) начавшаяся информационно-вычислительная работа не должна прерываться до полного ее завершения.
Если в процессе обработки выделить фаз, на каждой из которых используется одно вычислительное устройство, то решение данной задачи путем перебора требует рассмотрения (N!) вариантов, где N — число заявок на решение вычислительных задач в вычислительной системе. Джонсоном получен эффективный алгоритм для = 2, требующий перебора N(N+1)/2 вариантов. Частное решение задачи Джонсона соответствует случаю = l. По сути, это однолинейная система обслуживания (S = 1), в которой имеется очередь заявок. Требуется установить порядок выборки этих заявок диспетчером Д задач для обработки в ЭВМ. Критерием может быть минимум времени пребывания заявки в вычислительной системе, включая и время ожидания ее в очереди. Алгоритм выборки заявок из очереди по данному критерию соответствует их расположению в порядке убывания времени пребывания в вычислительной системе. Отметим, что решение задачи Джонсона при = l имеет слабое практическое применение для вычислительной системы. Обычно при обработке данных используется более одного устройства, поэтому рассмотрим эту задачу для = 2.
Пусть известна матрица Т трудоемкостей выполнения работ при решении вычислительных задач. Эта матрица содержит строк, отображающих работы J1, J2, …, J и столбцов, соответствующих используемым вычислительным устройствам. Как принято выше, v = 2, тогда элементами матрицы будут трудоемкости 11, 21, ..., 1 – выполнения работ первым вычислительным устройством и 12, 22, ..., 2 – выполнения работ вторым вычислительным устройством. Требуется по критерию минимума суммарного времени выполнения информационно-вычислительных работ упорядочить их в очереди. Решение задачи Джонсона предполагает следующий алгоритм оптимального планирования:
1) в матрице трудоемкостей определяется min (11, 12, ..., 2);
2) выбираются работы J1, J2, …, J , для которых трудоемкости соответствуют минимальному времени, хотя бы для одного вычислительного устройства, то есть ij = min;
3) работы разделяются по минимальному времени их исполнения на первом и втором вычислительных устройствах, то есть выделяются i min, min j;
4) в начало очереди включаются работы с трудоемкостью min j, в конец очереди включаются работы с трудоемкостью i min;
5) вставленные в очередь работы исключаются из матрицы трудоемкостей и строится новая матрица по оставшемуся числу работ;
6) для построенной матрицы выявляется новая минимальная трудоемкость. В соответствии с рассмотренным алгоритмом работы из данной матрицы располагаются в требуемой последовательности в средней части образованной ранее очереди.
Планирование по критерию максимума загрузки средств обработки.
Если последовательность использования вычислительных устройств в системе при решении задач неизвестна, то планирование ведут на основе критерия максимальной загрузки устройств. В этом случае из J1, J2, …, J отбирается совокупность работ, которые могут выполняться совместно на базе имеющихся ресурсов. По мере окончания хотя бы одной работы из этой совокупности выполнения заменяется одной из работ, находящихся в ожидании.
Для определения составов совокупностей работ преобразуем матрицу трудоемкостей в матрицу загрузки устройств. Введенные ранее ресурсы R1 … R принадлежат некоторым устройствам У1 ...У. Тогда матрица загрузки может быть представлена в виде
У1 У2 У
где
элемент матрицы 3ij
показывает загрузку j-го
устройства
i-й
работой;
, i
=
1, 2, ..., ,
ij
– потребность i-й
работы в
использовании j-го
ресурса.
В каждой строке матрицы выделим элемент 3ij с наибольшим значением. Тогда значение j определит номер потока, к которому будет отнесена работа, соответствующая данной строке матрицы. Число потоков будет равно числу устройств, т. е. . Если в первой строке наибольшее значение имеет элемент З12, то работу J1 относим к потоку П2. Соответственно если во второй строке наибольшее значение имеет элемент 32, то работу J2 относим к потоку П. При разбиении работ на потоки примем ограничение, что каждая из них может быть отнесена только к одному потоку. Каждый поток включает тогда некоторую последовательность работ. Сформировав потоков, можно перейти к составлению совокупностей работ. Совокупности работ, поступающих на обработку, образуются путем выборки их из потоков П1 ... П. В начальный момент времени формируется первая совокупность, включающая работ, взятых по одной из каждого потока. Эти работы поступают на соответствующие устройства при условии, что они не перегружают некоторый общий ресурс. В качестве такого ресурса может выступать емкость оперативной памяти, поэтому для каждого момента формирования совокупности работ должно соблюдаться ограничение: сумма емкостей памяти, занимаемых работами, включенными в совокупность, не должна превышать общей емкости памяти. Пусть в начальный момент совокупность работ имеет вид C1 = {J3, J1, …, J2}. Эта совокупность содержит членов, из которых, как раньше приняли, работа J1 принадлежит потоку П2, а работа J2 принадлежит потоку П. Ограничение по оперативной памяти примет вид V3 + V1 + … + Vi + … + V2 V, где V — общий объем оперативной памяти; Vi - объем оперативной памяти, необходимый для работы i.
Если в некоторый момент времени завершается работа J1, то на ее место в совокупность работ включается следующая работа из того же потока П2. При этом опять проверяется ограничение. Если оно не соблюдается, то выбирается следующая работа из данного потока. При отсутствии работ, соответствующих ограничению, может быть выбрана новая из другого потока.
Рассмотренные варианты планирования вычислительных работ при решении вычислительных задач являются классическими. Разработано большое число методов планирования, которые базируются на теории расписаний. Принципы планирования работ широко используются в типовых операционных системах современных ЭВМ.
Вычислительный граф системы обработки.
Реальный
вычислительный
процесс состоит из работ. Каждая работа
реализуется на основе программы при
наличии соответствующих данных. В
процессе выполнения работы осуществляется
обработка имеющегося набора
данных. Перечень работ, возникающих при
решении вычислительной
задачи, определяется ее алгоритмом. На
логическом уровне
алгоритм решения задачи может быть
представлен граф-схемой,
приведенной на рис. 5, вершины которой
отображают
отдельные процедуры. Дуги граф-схемы
алгоритма — это отношения, т. е. связи
между процедурами в алгоритме. Обычно
процедуры реализуются на основе
стандартного программного обеспечения.
По своему содержанию процедуры могут
соответствовать
рассмотренным выше информационно-вычислительным
работам.
Так же как и работы, они выполняются
параллельно-последовательно
во времени, поэтому в корне графа
располагается некоторая
начальная (головная) процедура Р0,
а
в зависимых вершинах
— процедуры
Р1,
Р2,
Рn.
При наличии головной вершины
граф имеет древовидную структуру. Дуге
графа может быть
приписан вес ji,
отражающий число вызовов процедуры Рi,
при
однократном выполнении предшествующей
процедуры Pj.
Рис. 5
Если алгоритм имеет детерминированный характер, то ji = 1; для вероятностного алгоритма возникает условный переход, тогда ji отображает вероятность перехода по данной дуге, т. е. ji < 1; в случае итеративного перехода ji > 1. Совокупность алгоритмов обработки данных составляет алгоритмическую модель системы обработки.
Модель процесса накопления.
В автоматизированных системах обработки информации и управления данные являются основой для формирования концептуальной модели реального производственного процесса. Обработка информации при наличии алгоритмов управления требует входных данных, в процессе обработки формируются промежуточные и выходные данные. При структуризации данных могут возникать новые знания, формироваться информационный ресурс с целью оптимального управления производством. При известном наборе функциональных задач автоматизированной системы, составляющих ее функциональную структуру, и совокупности алгоритмов решения вычислительных задач, входящих в алгоритмическую структуру АСУ, возникает проблема создания информационного обеспечения. Информационная технология в управлении производством, в научных исследованиях, в проектировании, в обучении требует целенаправленного накопления данных. В основе этого процесса должны лежать формализованные модели, позволяющие синтезировать информационную базу АСУ.
Инфологическая модель предметной области. Исходная информация для синтеза информационной базы формально представляется в виде инфологической модели предметной области. Эта модель совместно с наборами хранимых данных и алгоритмами обработки информации позволяет построить каноническую схему информационной базы, от которой можно перейти к логической схеме, а от нее — к физическому уровню реализации информационного обеспечения. Таким образом, процесс обработки сопровождается накоплением данных.
Построение инфологической модели предусматривает определение:
1) множества данных и функциональных отношений между ними;
2) значений данных и функциональных отношений, задающих способы обращения к ним при реализации алгоритмов;
3) выбор оптимальных вычислительных схем алгоритмов.
Инфологическую модель предметной области задают следующие параметры:
{Dk} — множество имен элементов данных dk с длиной lk;
zk — количество изменений значения данных за определенный интервал
времени;
aj — множество алгоритмов;
fj — частота реализации j-го алгоритма;
N=N1 N2 N3 — множество наборов данных, где N1, N2, N3 —
совокупности входных, промежуточных и выходных данных
соответственно;
Ф — совокупность функциональных отношений.
Вычислительный граф системы обработки и информационный граф системы позволяют формализованно определить инфологическую модель предметной области. В процессе обработки и накопления данных формируются новые наборы данных, при этом можно различать два крайних случая:
Формирование набора данных на основе вычислительного алгоритма, т. е. для имеющихся входных наборов данных на основе вычислений получают выходные данные. Последовательность использования вычислительных модулей для формирования выходного набора данных определяется вычислительной граф-схемой алгоритма в виде ориентированного графа без петель. В вершинах графа располагаются вычислительные модули, а дуги графа отображают отношение предшествования между ними.
Вычисление значений набора данных по имеющимся старым значениям и по совокупности изменений, возникающих в первичном наборе данных. Эти процедуры осуществляются на основе алгоритмов корректировки набора данных. Корректировка возможна в том случае, если корректируемый набор данных уже ранее был запрошен и хранится в информационной базе.
Таким образом, в модели накопления данных может быть выявлено два основных типа алгоритма нахождения новых наборов: вычислительный алгоритм и алгоритм корректировки набора данных. Реализация вычислительного алгоритма при запросе обычно необходима тогда, когда запрашиваемый набор данных не хранится в информационной базе. При наличии этого набора более удобно использовать алгоритм корректировки. Вычислительный алгоритм реализуется на базе информационного графа системы, алгоритм корректировки базируется на списке изменений, вносимых в первичный набор данных.
Независимо от используемого алгоритма вычислительный модуль выполняет определенные процедуры, включающие в себя действия над данными. На логическом уровне возникает задача спецификации действий, т. е. определение входных и выходных наборов данных для действий, а также взаимосвязей между различными действиями. При этом можно выделить два типа функциональных (логических) элементов: элементы — действия Q и элементы — объекты действий D. Элементы действия Q характеризуются внешними связями и ресурсами. Такой элемент реализует определенное преобразование над данными с использованием в качестве ресурсов элементов типа Q и элементов типа D. В качестве объектов действий выступают данные, которые характеризуются именем, типом и значением. Тип определяет множество значений, которые принимают объекты данного типа. Объект действий задается структурой, т. е. составом компонентов и связей между ними. Элемент Q взаимодействует с элементами D1, О2, D3 через связи типа: 1 — «вход», 2 — «выход», 3 — «вход — выход» (рис. 6).
Рис. 6
Каноническая структура информационной базы. При известной инфологической модели предметной области, наличии вычислительного и информационного графов возникает проблема создания модели накопления данных, в основе которой лежит задача выбора хранимых данных. Пусть совокупность используемых наборов данных N разделена на N1 первичных (входных), N2 промежуточных и N3 выходных наборов данных, т. е. N=N1 N2 N3.
Получение наборов данных N3 осуществляется на основе вычислительных алгоритмов и алгоритмов корректировки. Вычислительный алгоритм представляется вычислительной схемой, т. е. подграфом вычислительного графа. Алгоритм корректировки базируется на множестве первичных данных N1. Даже при наличии лишь двух классов алгоритмов возникает задача выбора типа алгоритма в соответствии с запросом пользователя. Если по запросу необходимо получить некоторый набор данных, то в качестве критерия выбора типа алгоритмов можно использовать полное время создания этого набора по данному запросу. При использовании вычислительного алгоритма это время складывается из времени, которое затрачивается на получение входных наборов данных для выбранного вычислительного модуля, и времени вычислении набора данных этим модулем. Для сравнения необходимо найти время, которое затрачивается в случае применения алгоритма корректировки. Корректировка набора целесообразна, если структура данных уже ранее была задана в одном из предыдущих запросов. В качестве дополнительного ограничения при решении задачи выступает объем используемой памяти. Рациональное сочетание вычислительных алгоритмов и алгоритмов корректировки данных позволяет уменьшить суммарное время реализации всех запросов при накоплении данных.
Инфологическая модель предметной области позволяет подойти к решению двух задач: задачи синтеза информационной базы и задачи управления вычислительным процессом. При синтезе информационной базы необходимо установить ее структуру. Представление информации пользователей дает каноническая структура информационной базы, поэтому построение модели накопления данных должно базироваться на синтезе канонической структуры. Это проводится при следующих требованиях:
- единство инфологической модели для множества предметных областей, обслуживаемых информационной базой;
- выбор безизбыточного набора информационных элементов и связей между ними;
- реализация интерфейса пользователя с информационной базой в терминах инфологической модели предметной области;
- возможность простого перевода понятий канонической структуры в понятия логического и физического уровней представления информационной базы.
Решение задачи синтеза канонической структуры информационной базы предполагает:
выбор и упорядочение ключевых реквизитов для множества бинарных отношений, хранимых в информационной базе;
формирование логических записей на основе объединения значений реквизитов;
определение множества логических записей и связей между ними на основе критерия минимума суммарного времени работы с наборами данных как в режиме вычислительных алгоритмов, так и в режиме алгоритмов корректировки.
Упорядочение ключевых реквизитов отношений должно базироваться на возможности физической реализации информационной базы. Учитывая, что современные СУБД не могут реализовать п-арные отношения между данными, представим любое отношение в виде совокупности бинарных отношений. Это означает упорядочение реквизитов, входящих в ключ каждого функционального отношения Ф, что можно осуществить на основе построения графа, отображающего (di dj)2, где iJ; i, j=1-N; 1 < r < N-1. Для этого графа матрица Q, отображающая взаимосвязь между отдельными данными и группами данных, имеет вид
В общем случае под di, dj можно понимать некоторые обобщенные информационные элементы, представляющие собой элементы данных либо группы, составленные из этих элементов: qij = 1, если существует взаимосвязь (в том числе возможна и семантическая) между элементами di, dj; qij = 1 при отсутствии взаимосвязи. Если строка матрицы Q содержит все нулевые элементы, то этой строкой отображаются входные данные. В информационном графе эти данные соответствуют корневым вершинам. Если столбец матрицы Q содержит все нулевые элементы, то он отображает терминальные, т. е. выходные, данные. На информационном графе эти данные соответствуют концевым вершинам. Остальные информационные элементы, отображаемые строками и столбцами матрицы Q, отнесем к групповым элементам. На информационном графе они располагаются в промежуточных вершинах. Объединение множеств значений реквизитов можно выполнить на основе оценки взаимосвязи групповых элементов с подчиненными им выходными.
