
книги из ГПНТБ / Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие
.pdfДля простоты и наглядности анализ 'информации доку мента произведем на уровне десятичных символов.
Всего в одной строке представлен 31 десятичный символ. При использовании ЭВМ, телетайпной связи и технических средств в управлении потребителю информации для оценки наблюдаемогопроцесса добычи угля достаточно первого числа каждого месяца представлять данные трех колонок (2-й, 4-й, 9-й), а в остальные дни месяца передавать только фактические данные за прошедшие сутки. Указанная инфор мация позволит полностью восстановить все необходимые показатели документа как по данной строке, так и по всем предыдущим. Для этого в памяти ЭВМ достаточно хранить показатели добычи угля с начала года на конец предыдуще го месяца, план на сутки (±) за каждый рабочий день текущего месяца и, естественно, расчетную программу. Все остальные данные учетной ведомости могут быть всегда вос созданы, если в этом появится необходимость. К тому же многие из показателей формы нужны лишь при подготовке документа вручную (колонки 4 и 5). Некоторые из них 'дуб лируют друг друга (например, колонки 6 и 8). Фактически для анализа и принятия решения достаточно иметь данные всего по трем колонкам: 3-й, б-й и 9-й.
Другими словами, необходимая для принятия решения информация каждые сутки может быть представлена всего 13-ю десятичными символами, или, примерно, 58% всей ин формации строки — избыточна.
Эффект от использования данного способа описания со-, общений очевиден:
—передача и представление значительно.меньшего ко личества символов, что весьма благоприятно для АСУ;
—лучшее восприятие информации состороны ее потре
бителя;
—упрощение формы документа;
—более - оперативное и качественное управление про цессом производства.
Редукция или свертка информации — это представле ние'результатов наблюдения за объектом в компактной фор ме, удобной для опубликования, хранения, контроля и сопо ставления с другими данными.
70
Областью применения данного'метода сжатия информа ции являются случайные процессы, количественная опенка которых производится на основании статистического анализа результатов наблюдений. Примером таких процессов могут быть оценки времени обработки деталей, выемки полосы угля в лаве, фактические скорости перевозок грузов и т.'д.
Сущность, метода проиллюстрируем на следующем при мере.
Пусть имеем выборку (табл. 3), характеризующую дли тельность выемки полосы угля в лаве.
|
|
|
|
|
|
Таблица 3 |
Длительность |
Количество |
; |
Длительность |
Количество |
||
времени, |
мин. |
наблюдений |
j |
времени, мин. |
наблюдений |
|
|
|
|
|
I |
|
|
30 |
|
• |
2 |
|
40 |
14 |
32 |
|
5 |
|
42 |
9 |
|
34 |
|
|
9 |
|
44 |
5 |
36 |
|
13 |
|
46 |
•2 |
|
38 |
|
19 |
|
48 |
1 |
|
По выборке |
строим |
гистограмму частот |
наблюдений. |
|||
Например, |
для выборки, |
близкой к нормально |
распределен |
ной генеральной совокупности, вместо того, чтобы приводить значения всех наблюдений (длительностей времени) и их количество, достаточно привести три величины — выбороч
ное среднее х, выборочную дисперсию з 2(х) и число наблю дений п.
Эти три величины дают всю необходимую информацию, содержащуюся в выборке. Они позволяют оценивать не только интересующие нас параметры — среднее и диспер сию, но и доверительные границы, задаваемые размером вы борки, то есть числом наблюдений.
Итак, в общем случае, если ИТР или служащему пред приятия необходимо представить информацию о распределе нии случайной величины через несколько описывающих ее параметров или определить форму интересующего распреде ления, то для этого достаточно вычислить на основе имею щихся статистических данных следующие показатели.
П
1.Точку, вокруг которой группируется распределен
Известны три различных способа определения этой точки:
а) наиболее распространенный способ определения це ра распределения является вычисление математического ожидания случайной величины, которое равно
М (х) = J xf(x)dx
—00
для непрерывной и случайной величины и
М (х )= 2iх , Р, (х, ),
если х — дискретная случайная величина с распределени ем P(xi).
Эмпирический центр распределения, обозначенный через х, вычисляется как
п
2Xj
—i = l
где Xi(i = l, 2, ...n) — значения результатов наблюдений;
б) другой характеристикой центра распределения яв ется срединная точка (медиана). Для плотности распреде ления непрерывной случайной величины f (х) медианой яв ляется такая точка А, что
Уf(x)dx — 0,5.
—00
Другими словами, медиана равна такому значению слу чайной величины, которая делит пополам площадь, распо ложенную под кривой плотности распределения. При опре делении медианы дискретной случайной величины интеграл заменяется суммой значений случайной величины.
Медиана, в отличие от математического ожидания, яв ляется удобной характеристикой центра распределения слу чайных величин, распределение которых не является симмет ричным. Она к тому же не так чувствительна к небольшому количеству крайних значений.
72
Для определения медианы по эмпирическим, данным их Еначале следует упорядочить по величине; При этом, если п нечетное число, то медиана равна
то есть значению П - упорядоченного наблюдения. Если
же п четное число, то медиана равна среднему значению*
между |
и -g- -f 1, то есть |
Ме = х ( т + ( т + 1}) ;
в) третья характеристика центра распределения — мо да. Для дискретной случайной величины модой является значение случайной Величины, имеющей наибольшую веро ятность. Мода непрерывной случайной величины равна зна чению, соответствующему максимуму плотности распределе-
.ния, если, конечно, максимум один.
По эмпирическим наблюдениям мода находится как ре зультат наблюдений, который встречается наиболее часто. Если же данные группируются по интервалам частот одина ковой длины, то мода при этом берется как центральная точ ка частотного интервала, содержащего наибольшее число наблюдений, то есть
М0 = X {fli max}-
2. Показателем рассеяния наблюдений относительно среднегоявления является дисперсия з2, которая представ ляет собой математическое ожидание квадрата разности случайной величины и ее математическим ожиданием
D(x) = Mf х — M(x)J*.
Квадратный корень из дисперсии называют средним квадратичным отклонением и обозначают символом з. Он’ предназначен для тех же целей, что и дисперсия.
73
Эмпирической формулой для определения дисперсии яв ляется
2 ( х , - X)2
1=1
где х — эмпирическое математическое ожидание, или выбо рочное среднее.
Известно, что при нормальном распределении случайной
величины в интервале х ± |
з заключено 68,3% ее |
значений, |
а в интервалах х ± 2з и |
х ± Зз соответственно |
95,5% и |
99,7%. |
|
|
Указанные пределы значений случайной величины часто бывает целесообразно определять не только для нормально го распределения, но и для других распределений случайных величин.
Теорема Чебышева, согласно которой для любого рас пределения с конечным математическим ожиданием и дне-
персиеи как минимум |
• Ч |
ч |
100% значений случайной |
|
|
величины находится в интервале х ± кз часто, с достаточной степенью точности позволяет осуществлять редуцирование информации о случайной величине на основе ее статистичес ких данных.
3. Асимметрия или показатель оценки симметричнос распределения случайной величины удобно использовать для унимодальных (одновременных) распределений. Она соот ветствует третьему моменту относительно среднего и опреде ляется по эмпирическим данным с использованием выраже ния
m |
(Xt ~ х): |
|
i=l |
||
|
При Шз<0 имеет место левосторонняя отрицательная асимметрия (хвост распределения слева). Если же пгз>0, то распределение правостороннее. Для симметричного распре деления т 3=0. Сигнал об изменении знака асимметрии рас пределения, полученный от какого-либо производственного
74
объекта, может вызвать необходимость в срочном анализе причин, обуславливающих его.
4. Эксцесс или четвертый момент относительно среднего связан с островершинностью распределения. По эмпиричес ким данным он определяется до формуле
В производственной практике этот показатель удобно использовать когда, например, необходимо установить, как устойчиво появление' наиболее благоприятствующих призна ков какой-либо производственной ситуации.
5. Квантили, представляющие собой такие значения слу чайных величин, ниже которых располагается часть функции распределения.
Определение квантилей для дискретной случайной вели чины производится суммированием аналогично интегриро ванию. При этом обычно точного решения получить невоз можно.
Примером квантилей может быть м'едиана. Но в произ водственной практике интерес' часто могут представлять точки, далеко отстоящие от среднего значения, такие как А (0,01). Квантили, выраженные в процентах, называют процентилями.
Способы определения показателей распределения как дискретных, так и непрерывных случайных в'еличип при за ранее известных законах их распределения изложены во многих работах по математической статистике. Их можно найти для следующих распределений: нормального, Гаммараспределения, Бетта-распределения, логарифмически нор мального, Коши, Релея, Вейбула, равномерного, треугольно го, параболического, биноминального, гипергеометрического, геометрического, Паскаля и Пауссоновского.
■ В принципе круг процессов, имеющих случайный харак тер, учитывая требуемую точность, всегда может быть опи сан одним из приведенных распределений.
При рассмотрении показателей, с помощью которых можно рационально свертывать производственно-экономиче скую информацию, обращает на себя внимание простота рас
75
четных алгоритмов. Благодаря этому для свертывания ин формации могут быть применены сравнительно простые вы числительные устройства, которые можно располагать в не посредственной близости от управляемых объектов. Редуци рованная информация частично может преобразовываться в управляющих ЭВМ и использоваться в оперативном управ лении, а частично транзитом через управляющую машину по телетайпным или другим каналам связи передаваться в кус товой вычислительный центр.
Сжатие информации с учетом количества • информации сообщений основной своей областью применения имеет про цесс оперативного управления предприятием или совокуп ностью предприятий. Так, например, в оперативном анализе часто используется такой показатель, как процент выполне ния плана за определенный отрезок времени (смену, сутки, неделю, декаду, месяц). Этот показатель необходим для то го, чтобы определить момент, когда следует вмешиваться в процесс производства. Исходя из плана и анализа динамики
производства |
можно выделить |
некоторый |
интервал |
значе |
ний процента |
выполнения плана, вероятность достижения |
|||
которых в последующий период |
наиболее |
велика, а |
также |
интервал значений с наименьшими вероятностями. Интерва лы уровня выполнения плана можно рассматривать как воз можные исходы. В табл. 4 приведены реальные, вероятности
исходов различных интервалов |
выполнения |
плана по суткам |
в течение месяца и соответствующее каждой |
из вероятностей |
|
количество информации, содержащееся в сообщении. |
||
Количество информации |
определено по Шеннону. Как |
известно, количество информации зависит от числа возмож ных исходов и вероятности каждого из них. При меньшей вероятности исхода получаем большее количество информа ции, узнав о наступлении интересующего события.
Расчетная формула для определения количества инфор мации имеет вид
1 = — log Pi ,
где Pi — вероятность 1-го исхода.
По данным таблицы видно, что сообщения, относящиеся к различным интервалам, в значительной мере неравнове роятны и содержат неодинаковое количество информации.
76
Так, сообщения, относящиеся к четвертому интервалу, со держат примерно в 16 раз меньше информации, чем сообще ния, относящиеся к седьмому интервалу, или в 7,5 раза меньше, чем сообщения, относящиеся ко всем шести интер валам.
Другими словами, значительные отклонения процесса функционирования от планового режима, требующие опера тивного вмешательства управляющего органа, как правило, маловероятны, но сообщения о них содержат значительно большее количество информации. Напротив, незначительные отклонения, не выходящие за пределы допустимых значений, весьма вероятны, но обычно не требуют вмешательства в процесс производства. Зная предварительно допустимые пре делы невмешательства в процесс, которые для каждого предприятия хотя и конкретные, но легко определимые, и используя приведенный метод определения' количества ин формации, можно получить рациональную схему представ ления данных.
Так, для условий приведенного в табл. 4 примера исклю чение сообщений, относящихся к четвертому интервалу, поз воляет сократить поток регистрируемых, передаваемых и пе рерабатываемых показателей на 75% от общего числа пока зателей данной совокупности. При этом потеря полезной информации совсем незначительна — 0,41 бит. Такая потеря вполне допустима для практики.
|
|
|
|
Таблица 4 |
|
Нол ер |
Процент |
|
Количество информации |
||
выполне |
Вероятность |
||||
интервала |
в сообщении |
||||
ния |
плана |
|
|||
|
|
|
|||
1 |
до |
90 |
0,02 |
5,62 |
|
2 |
90—94 |
0,02 |
5,62 |
||
3 |
95—99 |
0,10 |
3,32 |
||
4 |
100— 104 |
0,75 |
0,41 |
||
5 |
105— 109 |
0,08 |
3,64 |
||
6 |
110—119. |
0,02 |
5,62 |
||
7 |
120 и |
более |
0,01 |
6,64 |
|
Всего |
|
|
1,00 |
32,87 |
77
§ 3. С татистическое к оди ров ан и е
Сжатие данных с использованием статистического коди рования представляет сббой сокращение среднего числа сим волов, передаваемых в кодах по каналам связи и хранимых в памяти ЭВМ, для чего при статистическом кодировании элементам сообщений с высокой вероятностью появления ставятся в соответствие более короткие кодовые комбинации.
Априори, зная статистические свойства источника сооб щения, можно минимизировать среднее число двоичных или* иных символов, требующихся для выражения одного элемен та сообщения, что в итоге позволяет уменьшить время пере дачи информации и объем запоминающих устройств ЭВМ.
В основу статистического кодирования положена теоре ма Шеннона о кодировании для дискретного капала без по мех. Согласно теореме, если источник информации имеет эн тропию Н единиц информации на символ сообщения, а ка нал связи обладает пропускной способностью С единиц ин формации в единицу времени, то сообщения источника всегда можно закодировать таким образом, чтобы скорость V' их передачи была сколь угодно близкой к величине, определяе мой соотношением
и не существует способа кодирования, позволяющего достичь таково положения, чтобы выполнить неравенство V>V z . При этом величину H'=VH называют потоком информации, созда ваемой источником.
Теорема фактически не указывает конкретного способа кодирования, но из нее следует весьма важное свойство, что при выборе каждого символа кодовой комбинации необ ходимо стараться, чтобы он нес максимальную информацию.
Другими словами, по возможности каждый символ со общения должен принимать значения 0 и 1 с равными веро ятностями, 'и каждый выбор должен быть независим от. зна чений предыдущих символов.
Рассмотрим следующий пример. Пусть необходимо оп тимально закодировать наименование некоторых материа-
78
лов, отпускаемых со склада. Перечень материалов и вероят ность запроса на них представлены в табл. 5.
|
|
|
|
|
Таблица 5 |
|
|
|
Частота |
Традиционмое |
Статистическое |
||
|
|
кодирование |
кодирование |
|||
|
Наименование |
или |
||||
|
материала |
вероятность |
код |
КОЛ-ВО |
код |
КОЛ-ВО |
|
|
запроса |
СИМВО |
симво |
||
|
|
|
|
ЛОВ |
|
лов |
1. |
Бензин |
0,15 |
0 |
1 |
11 |
2 |
2. |
Керосин |
0,10 |
1 |
1 |
100 |
3 |
3. |
Нигрол |
0,05 |
10 |
2 |
1 |
3 |
4. |
1— 13 |
0.3 |
11 |
• й |
0 |
1 |
5. |
Солидол |
0,18 |
100 |
3 |
10 |
2 |
6. |
Графитная смазка |
0,22 |
101 |
3 |
101 |
1 |
С учетом вероятности запроса на представление и пере дачу всех сообщений о материалах необходимо затратить в среднем двоичных символов
i= m
О = 2 Pi ni , i=i
где Pj — вероятность запроса на i-й материал;
n г — количество двоичных символов в коде i-ro мате риала.
В нашем случае; а) при традиционном кодировании
Q=0,15-1+0,10-1+0,05-2+0,3-2+0,18-2 + 0,22-3= 1,9'
дв. символов; б) при использовании теоремы Шеннона
<3 = 0,15-2 + 0,10-3+0,05-3+0,3-1+0,18-2+0,22-1 = 1,63 дв. сим волов.
Таким образом, использование принципов статистичес кого кодирования позволяет в данном случае сократить коли чество двоичных символов, необходимых для передачи сооб щений или ^отражения в соответствующих документах про цесса движения материалов, примерно на 20%.
79