Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Введение в АИС.doc
Скачиваний:
3
Добавлен:
20.09.2019
Размер:
1.2 Mб
Скачать

4.3. Логическая структура и физическая организация информацинних массивов

Информационный массив как составная часть внутримашинного информационного обеспечения может быть охарактеризован на трех модельных уровнях. На концептуальном уровне массив определяется некоторым составом, который зависит от объекта управления, описываемого этим массивом, а также от характеристик, содержащихся в массиве в связи с необходимо­стью управления. Здесь возникает ряд задач по наиболее рацио­нальному распределению информации между массивами, ком­плексами массивов, между локальными базами данных. На кон­цептуальном уровне правильное решение о составе информаци­онных массивов может быть найдено только при тщательном изучении объекта управления и понимании конечной цели функ­ционирования АИС. На логическом уровне необходимо соз­дать структуру информационного массива. Логическая структура информационного массива определяется тем признаком, по кото­рому производится расположение записей. Для упорядочения записей могут быть выбраны различные признаки, однако наи­более целесообразно выбрать некоторый основной—ключевой признак, согласно значениям этого признака упорядочить записи в информационном массиве.

Так как ключевой признак представляет собой некоторую ве­личину, характеризующуюся различными значениями, то порядок расположения записей может быть выбран либо по возрастанию, либо по убыванию этой величины. Поэтому наряду с информа-' ционным полем массива необходимо выделить некоторое поле записи, которое занимает ключевой признак—поле упорядоче­ния.

Если в информационном массиве возникает ряд записей с оди­наковым значением ключевого признака, то вводят второй ключе­вой признак по упорядочению записей с одинаковым значением основного ключевого признака. Число ключевых признаков мо­жет быть увеличено для формализации порядка расположения записей. Упорядоченный массив обозначим через М (x1,x2…,xn), где х1 ключевой признак, по которому информационный массив упорядочен в зависимости от возрастания значений;х2—клю­чевой признак, по которому информационный массив упорядочен в зависимости от убывания значений. Выбор ключевого призна­ка сложен. Целесообразно в качестве ключевого выбирать при­знак, наиболее часто используемый при решении данной функцио­нальной задачи. Учитывая то, что один и тот же информацион­ный массив может быть использован при решении нескольких функциональных задач, могут быть выбраны и разные ключевые признаки в зависимости от функциональной задачи. Так как в качестве первого признака выбирается какой-то один, то для от­дельных задает упорядочение информационного массива может быть не оптимальным и потребуется переупорядочение информа­ционного массива при переходе к следующим функциональным задачам.

На логическом уровне может быть решена проблема уплотне­ния и приведения информационных массивов. При долгосрочном хранении информации целесообразно провести ее уплотнение. Сжатая форма информации позволяет сократить объем памяти, занятой внутримашинным информационным обеспечением. Тог­да информация при записи уплотняется, а при считывании раз­вертывается. В соответствии с этим может включаться еще один признак—признак уплотнения, позволяющий учесть необходи­мость уплотнения массивов, следующих за этим реквизитом.

Весьма важным является согласование длин массивов с ма­шинными единицами информации. Элементарной единицей ин­формации является бит, т. е. одна двоичная единица информации. Если использовать в качестве символа цифры и буквы, то алфа­вит насчитывает менее 62 символов и можно иметь в двоичном представлении 26 символов для кодирования информации неиз­быточным кодом. С учетом избыточности количество символов, кодирующих один элемент информации, увеличивается. В маши­не за слово принимается байт, который отображается восемью двоичными разрядами. В информационном массиве реквизит мо­жет иметь произвольную длину, т. е. не соответствовать машин­ному слову. При обработке отдельных элементов массива возни­кает необходимость преобразования, т. е. приведения записи пе­ременной длины к записям постоянной длины, кратной длине машинного слова. Массивы, состоящие из записей переменной длины, называются исходными, а массивы, сформированные пу­тем приведения,—приведенными.

Применяют следующие способы приведения информационных массивов.

Максимизация первой части записи. В этом слу­чае реквизиты переменной части записи сводятся в один рекви­зит увеличенной, но фиксированной длины. В качестве исходной берется самая длинная запись. Любая запись меньшей длины до­полняется необходимым числом незначащих символов, в соответ­ствии с чем происходит увеличение длины массива, но упроща­ется процесс программирования. При этом может увеличиться быстродействие системы по обработке информации. На рис. 4.3 представлена процедура приведения массивов путем максимиза­ции первой частя записи.

Повторение постоянной части записи при каждом реквизите переменно и части. Если перемен­ная часть содержит ряд реквизитов (P1,P2,P3,P4,P5) то посто­янная часть (П) повторяется столько раз, сколько реквизитов содержит переменная часть. В итоге каждая приведенная запись оказывается короче исходной, то в целом их число и объем ин­формации будут больше, избыточность информационного массива возрастает. Однако процедура восстановлевня исходных данвых значительно упрощается. Данная процедура приведения пред­ставлена на рис. 4.4.

Выравнивание длин постояннойчасти записи и реквизита переменной части. Идея способа в том, что из двух реквизитов менее длинный по числу символов допол­няется фиксированными символами одного и того же значения.

Количество добавленных символов равно разности длин данных реквизитов. После выравнивания реквизит переменной исходной записи и постоянная часть считаются отдельными приведенными записями и имеют одинаковую фиксированную длину. Данная процедура приведения информационных массивов, представлена на рис. 4.5. В итоге приведения возникают различные структуры, каждой из которых может соответствовать наиболее рациональный метод обработки информации.

На физическом уровне рассматривается расположение записей информационного массива относительно друг друга в памяти ЭВМ. Логическая и физическая структуры массивов могут совпа­дать либо не совпадать. Если логическая структура определяется степенью использования информационного массива в различных функциональных задачах АИС, то физическая зависит от физи­ческих характеристик памяти, от способов организации записи в машине, от формы представления информации о размещении записей в массиве.

Приняты следующие структуры информационных массивов на уровне физической организации.

Последовательная структура информацион­ного массива. Физическая организация информационного массива соответствует логической структуре, т. е. записи распо­лагаются в соответствии с некоторым ключевым признаком. По­рядок записи соответствует возрастанию или убыванию значения ключевого признака либо некоторой лекси ко- графической форме представления его значений, а поэтому сами записи хранятся компактно, отсутствует адрес записи, так как каждая предыду­щая запись указывает на последующую. Включение или исклю­чение записей означает смещение всех записей массива. После­довательная структура массива удобна при использовании маг­нитной ленты, магнитного барабана, диска. При таком способе при каждом изменении переписывается весь информационный массив.

Цепная структура. Записи в информационном массиве при цепной структуре располагаются произвольно. Чтобы мож­но было считать набор записей, каждая предыдущая запись в адресной части содержит адрес расположения последующей. В цепной структуре (в отличие от последовательной) затрачива­ется большой объем памяти, однако легко находятся записи, до­статочно просто исключаются устаревшие и происходит реорга­низация информационного массива.

Ветвящаяся структура. Может быть эффективно применена, если значения некоторого признака объекта непре­рывно повторяются в записях информационного массива в раз­личных сочетаниях. При обычной организации это приводит к по­вторяющимся полям основного массива. Если такие поля основ­ного массива убрать, объединить их в небольшой дополнительный информационный массив и в этом массиве поля упорядочить по некоторому признаку, например в соответствии с последователь­ной либо цепной структурой, то каждая запись информационного массива адресов будет соответствовать записи основного масси­ва. Тогда основной массив включает в себя записи фиксирован­ной длины, возникает адресный массив, который может иметь переменную длину записи. Ветвящаяся структура обладает большой гибкостью, позволяет достаток во просто включать дополнительные записи как в основной, так и в адресный массивы. Нали­чие ссылок позволяет в отдельных случаях сравнивать ее по объ­ему памяти с последовательной структурой массивов.

ширение любого элемента списка в легко уничтожаются старые элементы списка и вводятся новые. Однако время доступа к требуемым записям может быть доста­точно большим. Списковая структура (по сравнению с последо­вательной) требует большего объема памяти.

Рассмотренные методы физической организации информаци­онных массивов должны быть тесно увязаны с носителями ин­формации в ЭВМ. В качестве технических средств хранения ин­формации выступают запоминающие устройства (ЗУ), которые имеют иерархическое построение, обладают различными объе­мами памяти, разными возможностями ввода и вывода, различ­ными скоростями обмена с запоминающими устройствами более высокого уровня.

Наиболее существенной характеристикой качества запоминаю­щего устройства для автоматизированной системы является вре-мя доступа к записи» зависящее от носителя информации. В опе­ративной памяти это время составляет несколько микросекунд;

для памяти, организованной на магнитной ленте,—несколько минут.

Списковая структура. При ее использовании логиче­ская структура информационных массивов не совпадает с их фи-зичдекой реализацией. При списковой структуре предполагается наличие некоторого списка как совокупности адресных ссылок, расположенных в некотором логическом порядке. Список содер­жит наименования, поля данных и адреса этих полей. Поле дан­ных и адрес последующего поля образуют элемент списка. Таким образом, каждый элемент включает имя списка и адрес следую­щего элемента. В простейшем случае список может быть описан таблицей, в первом столбце которой указано поле данных, а во втором — адрес следующего элемента данных. Если элементы списка фиксированы, то может быть организовано несколько списков с применением механизма многократных адресных ссы­лок. Это приводит к экономии памяти, поскольку нет необходи­мости многократно хранить один и тот же элемент. На рис. 4.6 в виде графа, представлен механизм адресных ссы­лок. Каждый элемент списка состоит из трех частей: маркерного поля М, поля данных Д и ад­ресного поля А. Списко­вая структура является оптимальной для реорга­низации базы. Весьма просто происходит рас-самостоятельный список,

Для характеристики запоминающего устройства используют коэффициент доступа:— время считывания записи Коэффициент доступа меняется в зависимости от типа запоминающего устройства. Различают следующие типы запоминающих устройств. [

ЗУ с параллельным доступом. Такие ЗУ обеспечива­ют одновременное считывание большого числа записей. Коэффи­циент доступа kд=0. Особенность данного типа ЗУ в том, что операции загрузки записей и сопоставление их с требуемым при­знаком совершаются параллельно, время этих операций соизме­римо с временем, затрачиваемым в обычном ЗУ на одну запись.

Ассоциативное ЗУ. Отличается от ЗУ с параллельным доступом тем, что процессы сопоставления записи с требуемым признаком выполняются последовательно. Оно обеспечивает од­новременное считывание большого числа записей. Наибольшее время тратится на поиск первой записи, а поэтому коэффициент доступа первой записи является наибольшим, для всех последую­щих записей он намного меньше.

ЗУ прямого доступа. Обращение к информации в дан­ном ЗУ осуществляется по адресу: каждый элемент информации имеет свой адрес. Считывание какой-либо промежуточной инфор­мации здесь не нужно» в качестве конкретных физических носи­телей могут использоваться дисководы, записывающие информа­цию на магнитных дисках.

ЗУ с последовательным доступом. В этих ЗУ ин­формация в виде записей размещается последовательно, адреса информации отсутствуют, а поэтому для нахождения требуемой записи необходимо просмотреть все предшествующие записи. Время доступа здесь зависит от номера записи. Весьма важна начальная установка механизма считывания относительно тре­буемой записи.

ЗУ с равным временем доступа. Для таких ЗУ в данный момент времени разрешается доступ только к одному элементу информации. Примером такого ЗУ служит магнитное оперативное запоминающее устройство, коэффициент доступа которого близок к нулю.

Зная свойства запоминающих устройств, оцениваемые време­нем доступа либо коэффициентом доступа, можно определить наиболее эффективные методы физической организации инфор­мационных массивов с учетом носителя информации.

Современные ЭВМ позволяют использовать следующие мето-тоды организации.

Последовательный метод организации. Он со­ответствует последовательной логической структуре информаци­онных массивов, когда последовательность адресов в записи со­впадает с последовательностью значений их ключевого признака. Последовательный метод организации информационных массивов эффективен, если требуется последовательная обработка информационного массива. Поиск информации при последовательном методе достаточю длителен, потому последовательный просмотр всех записей от начала до момента нахождения требуемой запи­си может оказаться неэффективным. Поэтому часто используют метод последовательного деления информационного массива— дихотомический поиск, когда имеется информационный массив, упорядоченный по значениям ключевого признака. Требуемую запись находят путем определения промежуточного значения ключевого признака и сравнения его с требуемым значением. Для этого массив делится последовательно пополам, в итоге оп­ределяется область, которая просматривается последовательно. Такой областью в магнитном диске может быть предварительно определенная дорожка.

Индексно-последовательный метод. Здесь запи­си в массиве располагаются также последовательно. Каждая запись обладает некоторым индексом, который заносится в ката­лог. Информационный массив, снабженный индексом, называется индексированным массивом. Если используется несколько маг­нитных носителей, например несколько магнитных дорожек на магнитном барабане, то кроме индекса записи необходимо ука­зывать и номер дорожки. Последовательности индексов записей фиксируются на индексной дорожке. При замене какой-либо записи другой необходимо сдвинуть последующие записи с тре­буемого номера. При этом меняется индекс на дорожке и обес­печивается прямой доступ к требуемой записи. Время доступа по сравнению с последовательным методом резко сокращается.

Прямой метод организации информационных массивов. Он базируется на некоторой функциональной связи между адресом записи и значением ее ключа. Адрес вычисляется дополнительным арифметическим устройством, благодаря чему реализуется функциональная адресация записей в массиве. Зная функцию вида A==f(K), где А—адрес записи, К—ключ записи, нетрудно установить место записи и обеспечить прямой доступ к ней. Например, при непосредственной адресации адрес записи будет таким: А=Ао+а(К-1), где Aо-адрес начала информа­ционного массива; о—количество ячеек, занятых записью; К— значение ключа записи. Этот метод дает наибольшую эффектив­ность, если в массиве существуют записи со всеми значениями ключей. При отсутствии отдельных записей в памяти необходимо оставлять место для всех возможных значений ключей, хотя они могут и не использоваться в дальнейшем.

Расчлененный метод. Информационный массив в этом методе расчленяется на ряд последовательных частей и должен включать дополнительный справочник, который определяет имена и адреса этих составных частей. Записи адресов в справочнике располагаются последовательно в соответствии с реальным рас­положением составных частей массива. Части массива могут вы­бираться фиксированной или переменной длины. Данный метод представляет собой определенное развитие последовательного метода организации информационных массивов и обеспечивает меньшее время доступа.