
Осробенности предметной области, хорошо моделируемой фактографической информацией
При информационном моделировании на ЭВМ такая предметная область просто отображается в компьютерные данные следующим образом:
Предметная область Компьютерная модель
Параметр (свойство, хар-ка) 1. Данное
2. Значение параметра 2. Значение данного
3. Перечень возможных значений 3. Классификатор значений параметра для объектов (словарь) одного типа
Группа параметров, описывающих 4. Схема файла
однотипные объекты с определенной
стороны
О
писание множества однотипных 4.1. Файл базы данных
объектов по этой группе параметров
4.2 Описание одного объекта по этой 4.2. Одна либо несколько записей
группе параметров (значения параметров файла
объекта)
5. Описание однотипных объектов с 5. Система файлов метной области различных сторон (база данных)
Описание предметной области в целом 6. Система баз данных
(все множество типов объектов)
Средства отображения информационной модели – база данных и система управления данными. Концепцию баз данных, обоснование её появления и успешного использования рассмотрим несколько позже.
Вначале рассмотрим окружение.
Система актуализации БДвключает две подсистемы:
отображения структуры предметной области (ПО) в структуру БД;
отображения состояния объектов ПО в состояние БД.
Отображение структуры предметной области в структуру БДможет трактоваться какпроектирование БД.
Процесс проектирования можно представить в виде трех основных этапов:
формирование концептуальной информационной модели предметной области (КИМПО);
выбор СУБД;
отображение КИМПО в логическую и физическую структуру БД выбранной СУБД.
Построение концептуальной модели самый сложный и трудно формализуемый процесс. Отсутствуют конструктивные методики, процесс структуризации по существу является искусством, опирающимся на опыт проектировщика и участие профессионала – работника моделируемой предметной области.
Следует заметить, что если концептуальная модель определена, то процесс проектирования физической структуры БД для всех современных СУБД может быть автоматизирован с помощью средств, имеющихся на рынке программного обеспечения.
Общие сведения о моделировании предметной области
Концептуальное проектирование является ядром всего процесса проектирования БД. Подходы к концептуальному проектированию. Реализованные в разнообразных CASE-системах, отличаются друг от друга. Процессы концептуального моделирования чаще всего реализуются в средеDESIGN/IDEFиERWin.
Уточнение понятия концептуальной модели.
Часть реального мира, представляющая интерес для данного исследования, называется предметной областью. Для того, чтобы БД адекватно отражала предметную область, проектировщик должен хорошо представлять себе все нюансы и уметь отобразить их в БД. Предметная область должна быть предварительно описана. Чаще используют искусственные формализованные языковые средства. Формализованное описание предметной области называется ее концептуальной моделью. Моделирование ПредОб выполняется с различными целями (реинжиниринг, прогнозирование, при проектировании БД и ПО). Подходы к проектированию БД различных классов будет существенно отличаться. Особый интерес представляют структурированные БД.
Изучение ПредОб складывается из непосредственного наблюдения процессов, изучения документов, циркулирующих в системе, а также интервьюирования участников этих процессов. Т.к. описание инфологической модели выполняется на специализированном языке, необходимо владение этим языком. Построение концептуальной модели может выполняться вручную или с использованием автоматизированных средств проектирования. Средства автоматизации проектирования отличаются как нотациями, так и алгоритмами преобразования концептуальной модели в модели БД.
Основные компоненты концептуальной модели:
· Описание объектов ПО и связей между ними
· Описание информационных потребностей пользователей
· Описание существующей ИС (документы, документооборот, при наличии АИС – ее описание)
· Описание алгоритмических зависимостей показателей
· Описание ограничений целостности
· Описание функциональной структуры системы, для которой создаетсяАИС
· Требования к ИС и существующие ограничения
· Лингвистические отношения
Чаще всего описание объектов По и связей между ними представляется в виде так называемых или ERDiagramm.
Эти модели представляют собой графические описания предметных областей в терминах «объект-свойство-связь» и являются элементами концептуальных моделей, имея целый ряд преимуществ, главными из которых является отсутствие привязки к конкретной СУБД. Существует большое число нотаций и методик построения . ER—моделей. В предметной области существует множество разнообразных объектов, под которыми понимают некие сущности, о которых собирается информация. Классом объектов называется совокупность объектов, обладающих одинаковым набором свойств. Объекты могут быть реальными и абстрактными.ER—модель строится на уровне классов объектов, а не экземпляров объектов. Каждому классу объектов присваивается уникальное имя. Именем класса объектов является грамматический оборот существительного. Если в предметной области имеет место синонимия, все имена следует зафиксировать и лишь одно выбрать за основное. Помимо имени классов может использоваться кодовое обозначение. Желательно дать интерпретацию каждой сущности. Уникальное имя экземпляра объекта будем называть идентификатором (ИО)
Сейчас остановимся лишь на вопросе о целесообразности кодирования значений хранимых данных.
Вопрос о кодировании значений хранимых данных рассматривается, как правило, лишь к данным, возможные значения которых составляют словарь.
Кодирование значений заключается в том, что вместо символьного значения в памяти хранится компактный цифровой код, а процессы перехода от символьного к кодовому (при вводе информации) и от кодового к символьному (при выводе информации конечному пользователю) осуществляется через специальный файл – кодификатор, записи которого, чаще всего, содержат поля с кодированными и не кодированными значениями.
Целесообразность кодирования значений может быть обусловлена следующими причинами:
экономией компьютерной памяти, занимаемой хранимыми данными;
сокращением времени внутри машинной обработки кодов меньшего размера, особенно при полном «просмотре» файлов;
частичной защитой хранимой информации при несанкционированном доступе (при выборе данных не средствами информационной системы невозможно сразу понять смысл значения данного).
Учитывая, что первые две причины обусловлены экономией занимаемой памяти, можно предположить следующие формальные условия целесообразности кодирования значений данных:
если n
l>
n
l
+ m
(l
+ l
)
,
где n
– число записей в основном файле, m
– число возможных значений данного
(число записей в файле-кодификаторе),
l-
длина не кодированного значения, l
- размер кода.
если на одном и том же домене (словаре) определены несколько данных.
Первое условие говорит о том, что целесообразно кодировать те данные, для которых объем хранения не
кодированных значений больше, чем объем хранения кодированных значений в основном файле плюс объем файла-кодификатора, что и иллюстрируется на рис.
l
l
l
l
1 1 1
n n m
Если учесть, что цифровые коды, как правило, не превышают 5 разрядов (даже в символьном представлении можно закодировать 99999 возможных значений), а средний размер значений символьных данных около 30 символов, то
n
6l
> n
l
+ m (l
+ 6l
)
6n > n +
7m
5n > 7m
n/m >
n/m > 1,4
То есть значения данного целесообразно кодировать даже при однократном использовании кодификатора, если число записей в файле больше числа возможных значений в 1,4 раза, тогда значения такого данного как ПОЛ безусловно целесообразно кодировать, а данного Ф.И.О. – вряд ли.
Второе условие целесообразности кодирования иллюстрируем на следующем примере