Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Левковиц, Д. Структуры информационных массивов оперативных систем

.pdf
Скачиваний:
3
Добавлен:
21.10.2023
Размер:
8.9 Mб
Скачать

 

 

 

Т а б л и ц а 8-13

Прикрепление

ЗУПД к компонентам файла

 

 

 

Инвертнрован-

Секторпопо­

Компонента

файла

Мультисписок

следовательная

ныіі список

 

 

 

структура

 

 

 

 

Справочник

 

Быстро­

Быстро­

Быстро­

 

 

действующая действующая действующая

Инвертированный

список

 

Медленная

Быстро­

Данные

 

Медленная

действующая

 

Медленная

Медленная

пользована комбинация быстродействующей и медленной

памяти

З У П Д ,

где

быстродействующая

память

З У П Д

представляет

собой

что-то

подобное

дисковой

памяти,

а медленная

память

З У П Д — память

на

магнитных

по­

лосках.

В

табл .

8-13

указывается

распределение спра-

 

 

 

 

 

 

 

 

 

 

Т а б л и ч а

8-14

Сравнительные характеристики

расчетного

времени

обновления

 

Процедура*

 

 

Мультисписок

Инвертирован­

Секторно-по­

 

 

 

следователь­

 

 

 

ный список

 

 

 

 

 

 

 

 

 

 

 

ная

структура

Поиск, сек

 

 

 

 

 

86,8

 

13,9

 

 

3.6

 

Добавление

полной

записи,

 

4,0

 

15,0

 

 

0,6

 

сек

 

 

 

 

 

 

 

 

 

 

 

 

 

Уничтожение

полной записи,

 

1,3

 

15,8

 

 

1,3

 

сек

 

 

 

 

 

 

 

 

 

 

 

 

 

Уничтожение

двух

ключей,

 

1,3

 

2,8

 

 

1,3

 

сек

 

 

 

 

 

 

 

 

 

 

 

 

 

Изменение неключевых, сек,

 

1,3

 

1,3

 

 

1,3

 

данных

(без перемещения)

 

 

 

 

 

 

 

 

Изменение неключевых дан­

 

4,8

 

25,8

 

 

1,3

 

ных (с перемещением),

сек

 

 

 

 

 

 

 

 

Добавление

двух

ключей,

 

1,7

 

2,8

 

 

1,3

 

сек

* Все процедуры включают перекодирование трехуровневого дерева; верхний уровень занесен в оперативную память [см. (6-11)].

вочника, инвертированных списков и файла по этим уст­ ройствам, а в табл . 8-14 содержатся вычисленные резуль­ таты. В табл . 8-9 приведены вычисления д л я времени поиска и обновления. Вычисления д л я времени поиска сделаны по формулам (7-1) — (7-3).

180

О д н а ко нельзя делать категорических обобщении из

этих результатов, так как они сильно

зависят

от

значе­

ний п а р а м е т р о в

устройств. Например,

значения

р и а

сильно зависят

от типа списка. М о ж н о ,

однако,

подтвер­

дить некоторые интуитивные утверждения, сделанные ра­ нее. Поиск в инвертированных списках происходит зна­ чительно быстрее, чем в мультисписке. Поиск в списке

последовательных

секторов

происходит быстрее, чем

в инвертированном

списке,

если р ~ а .

С а м у ю высокую

поисковую статистику дает

система

инвертированного

списка. Время поиска вычисляется по

формуле

и в этом примере равно

5,3 сек (см. т а б л .

7-

4).

П р и операции обновления структура с инвертирован­

ным списком х у ж е по

быстродействию,

чем

система

с мультисписком, и почти не зависит от параметров . Сек- торно-последовательная система при условии, что пере­ мещение происходит всегда внутри сектора, либо эквива­ лентна, либо не намного лучше по быстродействию, чем мультсписковая система.

8-6. СРАВНЕНИЕ МЕТОДОВ ОРГАНИЗАЦИИ ФАЙЛА

И з формул и таблиц д л я вычисления объема памяти фай­ ла и времени обработки, предложенные в гл. 6—8, видны трудности, возникающие при попытке д а т ь общую оцен­ ку одной структуры файлов по сравнению с другой. Н у ж ­ но учитывать всевозможные качественные и количествен­ ные факторы, такие как однозначное и неоднозначное декодирование, неявные издержки памяти З У П Д , поиско­ вые возможности декодеров, скорость декодера, требова­ ния п а м я т и д л я декодера, скорость поиска файла, выход­ ное оборудование (пишущая машинка, печатающее уст­

ройство,

Э Л Т ) , требования межзаписной обработки, тип

З У П Д ,

распределение компонентов ф а й л а (справочник,

инвертированные списки, ф а й л данных) по типам З У П Д ,

характеристики запроса, требования обновления в ре­

альном

мастшабе времени в противоположность пакетно­

му, сложность

программирования . В табл . 8-15

содер­

ж а т с я

сводка

наиболее существенных

свойств,

относя­

щихся

к файлу, и относительные оценки

мультисписков,

181

инвертированных списков и сскторпо-последопателыіых

структур.

 

 

 

 

 

В системах с телетайпом скорость

начального

ответа

м о ж е т - б ы т ь

более в а ж н ы м фактором,

чем скорость по­

следовательных ответов

или

суммарное время

ответа,

так как время последовательного поиска в любой

систе­

ме обычно

меньше, чем

время

печати. О д н а к о в

случае

межзаписной обработки суммарное время ответа более существенно. В мультисписковых и секторных системах это время плохо учитывается, так как первое пересечение списков д л я конъюнкции ключей может появиться в лю­ бом месте самого короткого списка, хотя списки с управ ­ ляемой длиной и секторные варианты увеличивают веро­ ятность быстрого ответа. С другой стороны, в инверти­ рованной списковой структуре начальное время ответа представляет собой явную функцию длины и количества списков, п о д л е ж а щ и х обработке. Если не требуется до-

поисковая статистика,

исполнительная

система

может

быть сконструирована

так, чтобы начать

выборку

запи­

сей из файла, как только логическая обработка выдает первый поисковый адрес и в дальнейшем выборка из ф а й л а может перекрываться с процедурами обработки списка. Это приведет к более быстрому начальному от­ вету д л я систем инвертированных списков. В системе с Э Л Т время последовательного ответа становится кри­ тическим, если оператор хочет быстро просмотреть отве­ ты. Поэтому инвертированный список в этом случае предпочтительнее, т а к как он всегда самый быстрый в этом случае и время ответа зависит только от среднего времени доступа к З У П Д . В оперативной системе с вы­ сокоскоростным печатающим механизмом время выборки (последовательное и общее) является самым в а ж н ы м фактором .

Секторно-последовательная система требует наимень­ шего числа произвольных доступов в файл, но большего количества последовательных передач. В терминах чи­ стых списковых структур инвертированные списковые структуры превосходят мультисписковые системы, хотя последние могут (в некоторых случаях) быть улучшены

спомощью секторных разбиений.

Всекторно-последовательных системах нельзя вычис­ лить допоисковую статистику, за исключением некоторых

характеристик секторов

и оценки ожидаемого ответа.

Это вполне осуществимо,

легко поддается программиро -

182

 

 

 

 

Сводная таблица характеристик различных структур файла

Т а б л и ц а

8-15

 

 

 

 

 

 

 

 

 

 

 

Мультисписок

Мультисписок с

Секторный

 

Инвертированный

Секторно-последова-

 

 

 

 

управляемой

мультисписок

 

список

тельный список

 

 

 

 

 

длиной

списка

 

 

 

 

 

 

Скорость начального от­

Первого пере­

Первого

пересе­

Количества секто­

Длин списка

Длин (по секторам)

вета

является

функ­

сечения списков

чения списков и

ров и первого

пе­

запросов

списка

запросов,

цией

 

 

 

 

распределения по

ресечения списков

 

размера

сектора и

 

 

 

 

 

секторам

 

 

 

первого пересече­

Время

последовательной

 

 

 

 

 

 

ния

 

 

 

 

 

 

1

 

3

 

выборки

 

 

Последователь­

 

 

 

 

 

 

 

 

Время

последовательной

Последовательного) Последовательного1

Среднего вре­

Последовательного

выборки является функ­

ного пересече­

пересечения и рас­

пересечения

и

мени доступа

пересечения и рас­

цией

 

 

 

ния списков

пределения по

распределения

по

ЗУПД

пределения

по

 

 

 

 

 

секторам

секторам

 

 

секторам

 

Общее

время

выборки

4

 

3

2

 

1

 

1

 

Количество произвольных

4

 

4

3

 

2

 

1

 

обращений

к файлу/за­

 

 

 

 

 

 

 

 

 

прос

 

 

 

 

 

 

 

 

 

 

 

 

Допоисковая

статистика

 

 

 

 

 

 

 

 

 

поиска

 

 

 

 

 

 

 

 

 

 

 

Сложность программиро­

 

 

 

 

 

 

 

 

 

вания

 

 

 

 

 

 

 

 

 

1

 

Время

обновления

 

 

 

 

 

 

3

 

 

Требование к объему па­

 

 

 

 

 

3/1*

Ь/2*

 

мяти

(исключая

спра­

 

 

 

 

 

 

 

 

 

вочник)

 

 

 

 

 

 

 

 

 

 

 

* Включая ключи записи для файла с инвертированным списком (исключая ключи в записи файла).

ваншо, и оценка может быть достаточно точной. В даль ­ нейшем выборочные ответы могут быть выведены на экран и, если пользователь укажет, выборка будет уве­ личена, что обеспечит более достоверную оценку и при дальнейшем поиске. В инвертированном списке получа­ ется наиболее точная допоисковая статистика, затем сле­

дует

секторный мультисписок, оценка в котором

получа­

ется

как сумма кратчайших

списков в к а ж д о м

из вы­

бранных секторов, 'И, наконец, мультисписок, в

котором

оценку дает самый короткий

список.

 

Сложность программирования — это довольно субъ­ ективное понятие, представляющее собой некоторую функцию от опыта программистов . Однако система по­ следовательных секторов и мультисписковые системы имеют «меньше подвижных частей», чем инвертирован­ ные и частично инвертированные списковые системы, и поэтому они потенциально менее сложны .

Главными преимуществами мультисписковых систем являются присущая им простота и большая скорость обновления, однако эта скорость получается за счет не­ упорядоченности файла . В этом случае проблема обслу­ живания пространства д о л ж н а решаться либо с помощью списка полезного пространства, либо с помощью методов упорядочивания пространства. В противном случае об­ служивание пространства д о л ж н о проектироваться и вы­ полняться как регенерация файлов .

Сравнение требований к памяти файла зависит от наличия или отсутствия ключей в записи. Ключи могут быть опущены в записях только в инвертированной списковой системе. Если ключи используются только для внутризаписной логической обработки и не используются в межзаписной обработке, то д л я печати они могут быгь исключены из записи файла . В этом случае инвертиро­ ванная списковая структура предъявляет наименьшие требования к памяти, т а к как она не содержит ключей (единственная ссылка на ключ находится на выходе справочника инвертированного списка) . Следующей по экономии памяти стоит секторно-последовательная струк­ тура, которая хотя и имеет ключи в записях, но не имеет адресов связи, за исключением адресов связи в инверти­ рованных списках секторов, которые занимают значитель­ но меньше места. Мультисписковые и инвертированные

списковые структуры требуют наличия ключей в

записи

и адресов связи. Однако так как инвертированные

списки

184

д о л ж н ы

заноситься на более дорогой

З У П Д (диски), чем

записи

файла (магнитные д о р о ж к и ) ,

то стоимость памя­

ти для инвертированной списковой структуры выше, чем для мультисписка потому, что адреса связи в мультисписковой структуре хранятся внутри записи файла . Такое разделение памяти проводится д л я того, чтобы умень­ шить время поиска ответа на запрос. Частично инверти­ рованные мультисписковые системы предъявляют высо­

кие требования к памяти, т а к к а к они д о л ж н ы

содержать

все адреса

связи,

а т а к ж е

некоторые данные

частичной

инверсии в

виде

секторных

адресов.

 

ПРИЛОЖЕНИЕ 1

РЕАЛИЗАЦИЯ ИНФОРМАЦИОННОЙ СИСТЕМЫ

Требования, предъявляемые к каждой системе, определяются целью ее создания. Процесс создания системы начинается с того, что не­ сколько человек собираются вместе и принимают неофициальное ре­ шение о необходимости создания системы и определяют требования, которым она должна отвечать. Это решение отражается в документе,

иногда называемом

«Определение требований». Указанный документ

 

 

 

 

Спецификация

Общая

 

 

 

Определение]

 

Оценка

 

системы с-

разработка

 

Оцзнхо

 

и

анализ

альтернативными]

системы и

 

стоимость/

Не)

требований

 

требований

 

уровнями

стоимостный —>

производитель­

 

 

 

 

 

выполнения

анализ

 

ность

 

 

 

 

 

 

и обучение

 

 

 

 

 

 

 

 

 

персонала

 

 

 

 

 

 

 

 

 

 

Создание

 

 

 

 

 

 

 

 

 

файлов

 

 

 

і/дцеуная

 

1

Конечная

Приобрете-\

остановка

и\Проверна\АРабота

 

(Д}*\спезнрвкдция

»•

разравотка\А[*\ние обору

и проверка

 

 

 

 

1 систілы

 

 

системы

давания

оборудования]

 

 

 

Реализация

программного]

обеспечения

Рис П1-1. Процесс реализации системы.

можно использовать для утверждения политики разработки и реа­ лизации, а также для принятия решений о выделении средств.

Первый ответственный шаг состоит в оценке и анализе требо­ ваний. При этом необходимо провести анализ требований, предъяв­ ляемых к системе известными и потенциальными пользователями системы. Затем выпускается формализованный документ, определяю­ щий требования, предъявляемые к системе. Конкретный вид указан­ ных процедур зависит от структуры данной проектной организации. На рис. П1-1 представлена блок-схема создания системы (с откло­ нениями в зависимости от величины и структуры проектной органи­ зации).

Документ с оценкой и анализом требований обычно содержит сведения о пользователях системы и об объеме информации, которую они будут посылать. Кроме того, в этом документе прогнозируется

186

ожидаемыіі рост системы, основанный па существующих и разраба­ тываемых методах работы. Эта информация дает возможность вы­ полнить следующую стадию процесса, заключающуюся в разработке общей системной спецификации, содержащей различные уровни реа­ лизации системы. В этом документе определяются все функции, вы­ полняемые системой для удовлетворения всех заданных требований. Исключая определение требований, общая системная спецификация— это первый содержательный документ проекта системы.

Если при разработке системы будут использоваться новые прин­ ципы и методы, желательно создать несколько общих системных спецификаций с различными уровнями исполнения. На их основе можно разработать несколько соответствующих проектов и для каждого проекта оценить соотношение стоимость/производитель­ ность. На финансовой основе и некоторых качественных факторах можно определить наилучшее организационное управление систе­ мой.

На рис. П'1-l выход блока спецификаций указывает последова­ тельность документов, выпускаемых при разработке системы. Каждый из них содержит общий проект системы и анализ стоимости. Блок >под назватием «оценка/стоимость/произіводительносгь» выполняет оценку представленных на рассмотрение проектов.

На этой стадии проект системы является достаточно общим, так как при разработке крупных систем часто возможны существен­ ные расходы. Поэтому реализация каждого предложенного проекта практически невозможна.

После выделения (на основе оценки) наилучшего проекта его можно полностью довести до реализации.

На следующей стадии создается последовательность различных документов, необходимых для приобретения требуемого оборудова­ ния, разработки программного обеспечения и найма и обучения пер­ сонала (см. рис. П1-1). Конечно, не всегда требуется оборудование для электронной обработки данных. Для более простых полуавтома­ тических систем, в которых используются только табуляторы, может существовать упрощенный и более рациональный вариант рассмат­ риваемого процесса.

На заключительной стадии проектирования системы или при ее реализации выполняется разработка программного обеспечения. В процессе приобретения оборудования может потребоваться прове­ дение специальных разработок. Кроме того, надо учесть развитие системы после окончания разработки.

•Как указано на рисунке, после найма и обучения персонала обычно начинаются неавтоматизированные («ручные») работы: ре­ дактирование форматов, подготовка перфокарт и проверка. Эти процедуры вместе называются созданием файлов.

Иногда отладка программного обеспечения до установки и про­ верки аппаратуры выполняется на другой машине. После частичного или полного создания файлов, установки :і проверки аппаратуры и разработки большей части или всего программного обеспечения про­ водится полная проверка системы. Затем можно заняться организа­ цией работы пользователей на системе.

Многие (особенно правительственные) организации, нуждаю­ щиеся в крупных системах и ис имеющие квалифицированных спе­ циалистов-разработчиков, могут заключать контракты с другими организациями иа разработку различных блоков системы. На прак­ тике это является обычным делом.

187

На рис. Ш-2

объясняются идеи, сформулированные для рис. П1-1,

с точки зрения

управления персоналом системы. После завершения

разработки системы назначается управляющий реализацией систе­ мы. Он непосредственно связан с тремя руководителями боіее низ­ кого ранга. Один из них занимается приобретением оборудования. В его функцию входит приобретение центральных процессоров и

устройств

массовой

памяти,

средств

связи

и терминалов

(если тре­

буется) и

невычислительного

оборудования

(проекционная, печатаю­

щая и множительная

аппаратура).

 

 

 

 

Второй руководитель занимается разработкой и внедрением

программного обеспечения. Он

отвечает за

сопряжение с

операцнон-

 

 

 

 

Упрабляющцй

 

 

 

 

 

 

 

реализацией

 

 

 

 

 

 

 

 

системы

 

 

 

 

 

 

 

 

Разработка

 

 

 

Приобретение

 

 

и

реализация

 

Организационное

оборудования

 

 

программного

 

сопряжение

 

 

 

 

обеспечения

 

 

 

 

1

 

 

 

 

 

 

 

 

Процессор]

Проекционное,

Сопряжение с

Прикладные

 

 

печатающее

 

Операции'

 

и массовая]

 

операционной]

Обслуживание]

и размножающее\

программы

ввода

память

оборудование

 

системой

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Средства

 

 

 

Система

 

Наем

связи

 

 

 

 

хранения

 

обучение

и терминалы]

 

 

 

и поиска

 

персонала

 

Рис. П1-2. Управление

реализаций

системы.

 

ной системой и исполнительные программы, руководит программи­ рованием подсистемы хранения и поиска и разработкой различных прикладных программ.

Производитель ЭВМ обычно поставляет операционную систему, включающую ассембер для программирования на уровне языка ма­ шины, один или несколько компиляторов и средства, дающие воз­ можность работать в режимах распределения времени и оперативной работы. При эксплуатации операционной системы и особенно языка ассемблера может потребоваться обучение персонала, за которое также ответствен второй руководитель. Дополнительно может по­ требоваться разработка центральной исполнительной программы и интерпретатора языка запросов.

Подсистема хранения и поиска является основной исполнитель­ ной программой информационной системы. При помощи этой под­ системы обрабатываются файлы данных. Подсистема создает файлы для ЭВМ, обновляет их и производит поиск информации в ответ на запросы системного исполнителя.

Поиск отдельных записей файлов выполняется прикладными про­ граммами. Накопление этих программ может не прекращаться даже после ввода системы в работу.

188

Третий руководитель занимается организационным сопряжением. По существу, это лицо, устраняющее неувязки, почти всегда возни­ кающие при внедрении конечного проекта системы. Он работает в контакте с персоналом организации-заказчика. Следовательно, он уточняет и интерпретирует спецификацноиние и проектные докумен­ ты для программистов. Кроме того, этот руководитель занимается наймом и обучением персонала и работой по ручному вводу при создании файлов; обеспечивает работу системы в соответствии с про­ ектом. В основном вес это относится к разработке прикладных про­ грамм.

ПРИЛОЖЕНИЕ 2

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ДЛЯ ПРОЦЕССОВ ПОИСКА

Предлагается новый подход к задаче классификации документов, основанный на применении ЭВМ. Вместо априорной классификации знаний каждый документ может быть индексирован основными де­ скрипторами (настолько глубоко, насколько это считается необхо­ димым), а затем полный словарь дескрипторов может быть класси­ фицирован в соответствии с его фактическим употреблением в общем наборе документов. Преимущества такого способа: 1) классификация может автоматически перестраиваться при изменениях технологии и философии, что отражается в новых связях дескрипторов, используе­ мых при описании документа; 2) новые дескрипторы и модифици­ рованные значения старых легко приспособляемы; 3) ссылки на раз­ личные документы внутри набора становятся более систематическими и полными; 4) используя иерархическую классификацию, пользова­ тель может сделать запрос более узким или, наоборот, более общим, получая соответственно избыточный или недостаточно полный ответ.

Основой для машинной классификации служит не априорная классификация знаний, а описание документа. Таким образом, каж­ дая подборка документов создает свою собственную классификацию, основанную на всех описаниях документов в библиотеке. Когда добавляются новые документы, классификация перестраивается.

Классификация включает в себя иерархическую или деревообразную структуру, в которой множество дескрипторов обозначаются как вершины деревьев, а каждая вершина низшего уровня (и ассо­ циируемое с ним множество дескрипторов) есть в некотором смысле подчиненная и более специфическая по отношению к вершине, его порождающей, или к некоторой вершине более высокого уровня (являющейся обобщением). Смысл этого подчинения будет далее полностью определен.

Возьмем в качестве основной модели структуру дерева, показан­ ную иа рис. П2-1. На практике дерево может содержать любое количество уровней и произвольно ветвиться в каждой вершине.

Дерево, показанное

здесь,

содержит

четыре

уровня,

две

ветви

в вершинах 1.1.1 и 1.2 <и три ветви ів вершине

1.2.2. Терминальные

(конечные)

вершины

дерева — 1 . 1 . 2 ,

1.2.1,

1.2.2.1, 1.2.2.2 и

1.2.2.3.3. .Вершина представляет собой

'некоторое

множество

дес­

крипторов

тіли ключевых терминов словаря.

Каждый

табор

дес­

крипторов

обозначается Si,,

где k — номер

вершины. Документ

пред­

ставляется в виде набора дескрипторов и ассоциируется с одной из терминальных вершин.

189

Соседние файлы в папке книги из ГПНТБ