
- •Введение
- •1.Понятие экономической информационной системы (эис)
- •1.1. Понятие системы
- •1.2. Понятие эис. Назначение эис
- •1.3.Классификация эис
- •1.4. Основные принципы и методы построения эис
- •1.4.1. Принципы построения и функционирования эис.
- •1.4.2.Структурный и объектно-ориентированный подходы к проектированию.
- •1.4.3.Понятие жц эис.
- •2.Теоретические основы работы с информацией
- •2.1. Понятие информации
- •2.2. Измерение количества информации
- •Задания на дом
- •2.3.Кодирование информации
- •2.3.1.Оптимальное основание кода
- •2.3.2.Запись натурального числа в двоичной системе
- •2.3.3.Код Грэя
- •2.3.4.Оптимальное кодирование
- •2.3.5.Помехозащищенное кодирование
- •2.4.Методы организации данных в памяти эвм
- •2.4.1.Типы данных, структуры данных и абстрактные типы данных
- •2.4.2.Время выполнения программ
- •2.4.3.Списки
- •2.4.4.Реализация списков
- •Реализация списков посредством массивов
- •Реализация списков с помощью указателей
- •Реализация списков с помощью курсоров
- •2.4.5.Стеки
- •2.4.6.Реализация стеков
- •2.4.7.Очереди
- •2.4.8.Реализация очередей
- •2.4.9.Графы и деревья
- •2.4.10.Некоторые сд для хранения графов и деревьев
- •3.Особенности работы с экономической информацией
- •3.1.Классификация и кодирование экономической информации.
- •3.2.Единая система классификации и кодирования
- •3.3.Штриховое кодирование
- •Алгоритм расчета контрольного разряда ean
- •4.Модели данных
- •4.1.Атрибуты, составные единицы информации, показатели, документы
- •4.2.Операции над сеи
- •4.3.Реляционная модель данных
- •4.3.1. Отношения, как основа реляционной модели данных
- •4.3.2. Операции над отношениями
- •Операции объединения, пересечения и разности отношений
- •Операция декартова произведения отношений
- •Отношение «список программистов» и результат выполнения проекции
- •Операция натурального соединения отношений
- •4.3.3. Нормализация отношений
- •4.3.4. Функциональные зависимости
- •4.3.5. Нормальные формы
- •Результат первого шага приведения к 2нф отношения преподаватель_предмет (отношение преподаватель в 2нф)
- •Результат первого и второго шагов приведения к 2нф отношения преподаватель_предмет (все отношения в 2нф)
- •4.3.8. Пример проектирования реляционной бд
- •5.Модели знаний
- •5.1. Классификация знаний
- •5.2. Продукционная модель представления знаний
- •5.3.Представление знаний в виде семантической сети
- •5.4. Фреймовая модель представления знаний
- •5.5. Логическая (предикатная) модель представления знаний
- •6.Моделирование предметных областей в экономике
- •6.1.Понятие модели предметной области
- •6.2.Структурная модель предметной области
- •6.2.1.Функциональная методология idef0
- •6.2.2. Функциональная методика потоков данных
- •6.3.Объектная модель предметной области
- •6.4. Сравнение методик моделирования предметной области
- •7.Алгоритмы, наиболее часто использующиеся при обработке информации в эис
- •7.1.Алгоритмы поиска
- •7.1.1.Поиск элемента в неупорядоченном массиве
- •7.1.2.Поиск элемента в упорядоченном массиве.
- •7.1.3.Фонетический поиск
- •7.2.Алгоритмы сортировки
- •7.2.1.Сортировка методом пузырька.
- •7.2.2.Сортировка вставками
- •7.2.3.Сортировка выбором
- •7.2.4.Пирамидальная сортировка
- •7.2.5.Быстрая сортировка.
- •7.2.6.Сортировка слиянием
- •7.3.Поиск на графах
- •7.3.1.Поиск в глубину
- •7.3.2.Поиск в ширину
- •7.4.Топологическая сортировка графа
- •7.5.Сетевое планирование
- •7.5.1.Алгоритм расчета наиболее ранних сроков наступления событий
- •7.5.2.Алгоритм расчета наиболее поздних сроков наступления событий
- •7.5.3.Алгоритм расчета резервов времени.
- •Литература Рекомендуемая основная литература
- •Рекомендуемая дополнительная литература
- •Приложение 1.Форматы штрих-кодов
- •Приложение 2. Коды некоторых стран
2.Теоретические основы работы с информацией
Поскольку ЭИС работает с экономической информацией, рассмотрим теоретические основы такой работы.
2.1. Понятие информации
В широком смысле невозможно дать одно точное определение информации. С одной стороны, информация может рассматриваться как ресурс (аналогично трудовым, материальным, денежным и т.д.). Информация в этом смысле - новые сведения, позволяющие улучшить процессы, связанные с преобразованием вещества, энергии и самой информации. С другой стороны, информация неотделима от процесса информирования, где есть источник и потребитель информации: здесь информация - сведения, расширяющие запас знаний конечного потребителя.
Различают три фазы существования информации:
1.Ассимилированная информация - представление сообщений в сознании человека, наложенное на его систему понятий и оценок.
2.Документированная информация - сведения, зафиксированные в знаковой форме на каком-то физическом носителе.
3.Передаваемая информация - сведения, рассматриваемые в момент передачи информации от источника к приемнику.
В дальнейшем будем рассматривать фазы 2 и 3.
Основная масса информации собирается, передается и обрабатывается с помощью знаков. Знаки - сигналы, которые могут передавать информацию при наличии соглашения об их смысловом содержании между источником и приемником информации. Набор знаков, для которых существует указанное соглашение, называется знаковой системой.
Информация на пути от источника к потребителю проходит через ряд преобразователей - кодирующие и декодирующие устройства, ЭВМ и т.д. Смысловые свойства сообщений при этом отступают на второй план и понятие «информация» заменяется общим понятием «данные». Данные - набор утверждений, фактов и (или) цифр, логически связанных между собой.
Экономическая информация - информация об экономических процессах (производстве, распределении, обмене и потреблении материальных благ). Для ее обработки характерны сравнительно простые алгоритмы (упорядочение, выборка, корректировка).
Экономическая информация классифицируется по следующим признакам:
1.По отношению к системе - входная, выходная, внутренняя информация.
2.По признаку времени:
перспективная (прогнозная) информация;
ретроспективная (учетная) информация;
периодические сообщения;
непериодические сообщения.
3.По функциональным признакам (по функциональным подсистемам экономического объекта, например, о трудовых ресурсах, финансах, планирование, нормирование, учет и т.д.).
Единой меры информации на всех стадиях ее обработки не существует.
2.2. Измерение количества информации
Информация передается с помощью некоторых сигналов. Сигналы могут быть самые разные: световые, голосовые, электрические и т.д. К сигналам также относятся книги, письма и т.п. В общем случае под сигналом понимают физический процесс, однозначно отображающий передаваемое сообщение с заданной точностью, пригодный для обработки и передачи сообщения на расстояние.
Рассмотрим процесс перехода от непрерывного сигнала к близкому дискретному сигналу (дискретизацию сигнала). Устройство, осуществляющее переход от непрерывных (аналоговых) сигналов к дискретным (цифровым) сигналам называют аналого-цифровым преобразователем.
Пример дискретного сигнала – последовательность импульсов с изменяющейся амплитудой. Процесс дискретизации состоит из двух этапов (см. рис.2.1):
1.Дискретизация по времени.
2.Дискретизация по уровню.
При
выборе частоты дискретизации по времени
используют теорему В.А. Котельникова,
согласно которой всякий непрерывный
сигнал, имеющий ограниченный частотный
спектр, полностью определяется своими
дискретными значениями в моменты
отсчета, отстоящие друг от друга на
интервал
,
где
- максимальная
частота в спектре сигнала. Другими
словами дискретизация по времени не
приводит к потере информации, если
частота дискретизации
в два раза выше
.
Однако,
допущение об ограниченности частотного
спектра для реальных сигналов как
правило не выполняется. Поэтому на
практике частоту дискретизации выбирают
следующим образом:
,
а
выбирают
так, чтобы в диапазоне частот
содержалось
не менее 90% средней мощности сигнала.
Если
сигнал имеет конечную длительность
,
то число его дискретных отсчетов во
времени можно оценить с помощью теоремы
Котельникова
.
Число уровней сигнала определяется как
.
Количество информации, которое можно перенести сигналом, будет тем больше, чем больше число комбинаций сигнала (сообщений).
Для подсчета числа таких комбинаций в нашем случае воспользуемся аксиомой комбинаторики – правилом произведения.
Правило
произведения. Если некоторый выбор
A можно осуществить
m способами, а для
каждого из этих способов некоторый
другой выбор B можно
осуществить
способами, то выбор «A
и B» в указанном порядке
можно осуществить
способами.
Это правило можно обобщить для
произвольного числа выборов.
В
нашем случае в каждый дискретный момент
времени сигнал может принимать одно из
значений. Т.е. в
первый момент времени можно выбрать
любой из
возможных уровней сигнала, во второй
момент времени можно выбрать любой из
возможных уровней сигнала и так далее.
Всего моментов времени
,
следовательно, по
правилу произведения число
возможных
комбинаций сигнала или число возможных
сообщений выражается формулой
.
Число
дает комбинаторную оценку информации,
содержащейся в произвольном дискретном
сообщении (слове) из
элементов (букв), каждая из которых
принимает одно из
возможных значений, составляющих
некоторый алфавит.
В качестве меры количества информации принято использовать логарифм числа возможных сообщений
Таким
образом, количество информации в сигнале
пропорционально длительности сигнала
(числу отсчетов
).
Выбор основания логарифма
определяет
единицу измерения количества информации.
Если
,
то
измеряется
в битах.
Один бит – это количество информации,
соответствующее одному из двух
равновозможных сообщений типа «да» или
«нет» (0 или 1). Таким
образом
(1)
Бит
является наименьшей единицей измерения
информации. Кроме того в ЭВМ в качестве
единицы измерения информации используется
байт (Б). Байт представляет собой вектор
состоящий из 8 бит.
Очевидно,
что байтом можно закодировать одно из
различных
сообщений. Также
широко используются килобайт (КБ), 1КБ=
Б и мегабайт
(МБ), 1МБ=
Б.
Основы количественной оценки информации были заложены Н.Виннером и К.Шенноном в 1948 году.
Далее попытаемся ответить на вопрос - сколько бит информации приходится на одну букву русского языка?
В русском
языке 33 буквы. Однако, буквы
«е» и «ё» принято ститать за одну букву.
Также за одну букву можно считать твердый
и мягкий знаки. А промежуток между
словами (пробел), наоборот следует
считать за букву. В итоге в
русском языке имеется 32 кодовых знака.
Тогда информация, приходящаяся на одну
букву, будет равна
бит.
Это максимальная информация приходящаяся на букву. Однако буквы в тексте встречаются с различной частотой. Например относительная частота пробела равна 0.175. Это означает, что на 1000 букв текста в среднем приходится 175 пробелов. Относительная частота буквы «о» равна 0.09, буквы «а» – 0.062, буквы «щ» – 0.003 и т.д. Используемый термин «частота появления» обычно заменяют на термин «вероятность».
Отметим, что различная частота появления букв (вероятность) в текстах ложиться в основу построения систем сжатия информации (архиваторов). Принцип работы таких систем основан на том, что для кодирования частовстречающихся букв используются короткие кодовые слова, а для кодирования редковстречающихся букв используются более длинные слова.
Из-за того, что буквы неравновероятны, информация , которую несет одна буква, уменьшается с 5 бит до 4.35 бита. Но и эта оценка завышена. Дело в том, что здесь информация вычисляется в предположении, что рассматривается одна изолированная буква текста, а предыдущие буквы неизвестны. На самом деле это не так. Действительно, если Вы прочитали слово «котор...», то следующей буквой может быть лишь «а», «ы», «о» или «у», т.о. выбор делается из 4 букв, а не из 32. В результате получается, что с учетом текстовых и стилистических связей, информация, реально приходящаяся на букву равна 0.5-1.5 бита.
Для
оценки информативности текстов используют
понятие избыточности текста. Пусть
текст состоит из
букв и
содержит
лишних букв,
тогда избыточность текста вычисляется
следующим образом:
Реальная
информация, приходящаяся на букву,
вычисляется следующим образом
.
Шеннон
предложил следующий способ подсчета
избыточности текста: прочитываете 10-20
слов текста, при этом последующая часть
текста должна быть закрыта, далее
пытаетесь угадать с одной попытки первую
закрытую букву, затем открываете эту
букву и угадываете следующую и т.д. Опыт
производится на 100-200 буквах текста.
Отношение числа угаданных букв к общему
числу угадываемых букв дает приближенное
значение избыточности текста
.
Чем продолжительнее опыт, тем точнее
результат.
Примером языка, лишенного избыточности, является язык цифр.
Все рассуждения о количестве информации в текстах относятся и к произвольным сигналам. В формуле (1) не учитывалось, что различные значения (уровни) дискретного сигнала могут появляться с различными вероятностями.
Пусть
- вероятности
появления
-го
значения сигнала
(
).
Пусть также
отсчетов
сигнал принимает значение
,
отсчетов -
значение
и т.д.
Вероятность
появления такого сигнала определяется
следующим образом
Если
общее число отсчетов
достаточно
велико, то можно положить
,
,...,
.
Тогда
При
достаточно большом числе отсчетов
(
)
можно
считать, что все возможные комбинации
сигнала (
)
равновероятны,
т.е.
,
следовательно
Логарифмируя, найдем количество информации в сигнале
Используя
тождества
и
,
окончательно получим
(2)
Если
все значения сигнала равновероятны
(
),
то формулы
(1) и (2) совпадают
.
Если
сигнал принимает какое-либо значение
с вероятностью,
равной единице (
),
то для
и в соответствии
с формулой (2) получим
.
Количество информации, приходящееся на один отсчет сигнала, называют удельной информативностью или энтропией сигнала.
Энтропия является мерой неопределенности исследуемого процесса.