
книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdf
|
|
|
|
|
|
Т а б л и ц а 1 6 .3 |
||
|
Зависим ост ь |
объема |
сл о в а р я |
словоф орм и |
сл о в а р я |
|||
основ |
слов от |
объем а |
сл о в а р я |
наименований |
понят ий |
|||
Объем |
|
Объем |
|
(С Н П ) |
Объем |
Объем |
Объем слова |
|
|
словаря |
Объем слова |
словаря |
|||||
^СНП |
|
ря основ слов |
СНП |
ря основ слов |
||||
|
словоформ |
словоформ |
||||||
500 |
|
527 |
436 |
6500 |
4367 |
|
2665 |
|
1000 |
|
918 |
686 |
7000 |
4654 |
|
2811 |
|
1500 |
|
1292 |
922 |
7500 |
4872 |
|
2922 |
|
2000 |
|
1717 |
1187 |
8000 |
5033 |
|
2995 |
|
2500 |
4 |
1989 |
1356 |
8500 |
5232 |
|
3095 |
|
3000 |
2333 |
1571 |
90С0 |
5394 |
|
3172 |
||
3500 |
|
2672 |
1747 |
9500 |
5633 |
|
3305 |
|
4000 |
|
2942 |
1908 |
10000 |
5862 |
|
3416 |
|
4500 |
|
3282 |
2116 |
10500 |
6091 |
|
3527 |
|
5000 |
|
3596 |
2276 |
11000 |
6160 |
|
2552 |
|
5500 |
|
3837 |
2378 |
11500 |
6251 |
|
3596 |
|
6000 |
|
4032 |
2515 |
11620 |
6283 . |
3612 |
Следует оговорить, что при описании распределений элементов сообщений с помощью формулы (16.2) эти элементы располагаются по убыванию частот их появле ния в выборке. Затем каждому элементу присваивается его порядковый номер, который в дальнейшем рассма тривается в качестве случайной величины.
Покажем на нескольких примерах, как полученные нами аналитические выражения для эмпирических функ ций могут быть использованы для решения ряда задач, возникающих при проектировании АИС.
Т а б л и ц а 16.4
Зави си м ост ь |
объем а |
сл о в а р я |
наим енований понят ий |
||||
от |
объема |
массива |
элем ент арны х, |
сообщ ений |
в |
||
|
|
|
ф акт ограф ической И П С |
|
|
||
Объем мас |
Объем |
Объем мас |
Объем |
Объем мас |
Объем |
||
сива сообще |
словаря |
сива сообще |
словаря |
сива сообще |
словаря |
||
ний |
ний |
ний |
|||||
100 |
164 |
|
|
6000 |
713 |
14000 |
933 |
500 |
361 |
|
|
7000 |
751 |
15000 |
956 |
1000 |
444 |
|
|
8000 |
789 |
16000 |
973 |
1500 |
501 |
|
|
9000 |
819 |
17000 |
989 |
2000 |
542 |
|
10000 |
845 |
17600 |
996 |
|
3000 |
596 |
|
11000 |
867 |
17690 |
1002 |
|
4000 |
637 |
|
12000 |
894 |
— |
— |
|
5000 |
670 |
|
13000 |
913 |
|
|
2 7 0
|
|
|
|
Т а б л и ц а 1 6 .5 |
|
Зависим ост ь объем а сл о в а р я |
зн а ч ен и й |
ха р а к т ер и ст и к |
|||
от |
объем а |
массива эл ем ен т а р н ы х |
сообщ ений |
|
|
|
в |
ф акт ограф ической И П С |
|
||
Объем мас |
Объем |
Объем мас |
Объем |
Объем мас |
Объем |
сива сообще |
словаря |
сива сообще |
словаря |
сива сообще |
словаря |
ний |
ний |
ний |
1608 |
||
500 |
177 |
6500 |
1004 |
12500 |
|
1000 |
275 |
7000 |
1047 |
13000 |
1654 |
1500 |
342 |
7500 |
1090 |
13500 |
1708 |
2000 |
436 |
8000 |
1137 |
14000 |
1773 |
2500 |
514 |
8500 |
1189 |
14500 |
1871 |
3000 |
589 |
9000 |
1260 |
15000 |
1963 |
3500 |
643 |
9500 |
1341 |
15500 |
2041 |
4000 |
720 |
10000 |
1396 |
16000 |
2113 |
4500 |
824 |
10500 |
1453 |
16500 |
2160 |
5000 |
867 |
11000 |
1498 |
17000 |
2240 |
5500 |
908 |
11500 |
1522 |
17500 |
2280 |
6000 |
945 |
12000 |
1557 |
18000 |
2350 |
А. Определение объема памяти, необходимой для записи массива кодов переменной длины
Будем исходить из следующих предположений:
1.Известно максимальное количество п символов кода, которое может быть записано в одной ячейке памяти. ЭВМ .
2.Каждый код записывается с начала ячейки и при необхо димости размещается в нескольких соседних ячейках. При этом последняя ячейка может быть заполнена не до конца.
3.Разделительные знаки между кодами учитываются при опре делении количества символов п, размещаемых в одной ячейке (они могут быть учтены также отдельно).
Т а б л и ц а 16.6
Зависим ост ь |
объем а |
классиф икационного сл о в а р я |
) |
||||
п он я т и й К С П |
от объем а сл о в а р я |
наим енований |
|||||
п онят и й |
(объем |
К С П |
и зм ер я е т ся числом кодов |
п о н я т и й |
|||
( |
) |
|
|
|
|
||
Объем |
Объем |
Объем |
Объем |
Объем |
Объем |
||
снп |
КСП |
СНП |
КСП |
СНП |
КСП |
||
500 |
1548 |
|
4500 |
14235 |
8500 |
29002 |
|
1000 |
2807 |
|
5000 |
15000 |
9000 |
35771 |
|
1500 |
3937 |
|
5500 |
16909 |
9500 |
38901 |
|
2000 |
6172 |
|
6000 |
19218 |
10000 |
41627 |
|
2500 |
7772 |
|
6500 |
20311 |
10500 |
45720 |
|
3000 |
9614 |
|
7000 |
22147 |
11000 |
48367 |
|
3500 |
10483 |
|
7500 |
23433 |
11500 |
51478 |
|
4000 |
12707 |
|
8000 |
27739 |
11635 |
53041 |
271
|
|
|
|
|
|
|
|
Т а б л и ц а |
16.7 |
||
Р а сп р ед ел ен и е |
словоф орм |
и основ слов в им енны х |
|
||||||||
|
сл овосочет ан иях (объем |
вы борки |
30000 сл ов)* |
|
|
|
|||||
|
|
F ( x ) |
|
|
|
|
|
F ( x ) |
|
|
|
X |
|
|
Основы |
X |
|
Словоформы |
Основы |
||||
Словоформы |
слов |
|
|
|
слов |
||||||
1 |
0,016 |
|
0,018 |
800 |
|
|
0,879 |
|
0,969 |
||
10 |
0,111 |
|
0,145 |
900 |
|
|
0,895 |
|
0,977 |
||
20 |
0,185 |
|
0,241 |
1000 |
|
0,909 |
|
0,983 |
|||
30 |
0,237 |
|
0,312 |
1100 |
|
0,919 |
|
0 ,9S6 |
|||
40 |
0,287 |
|
0,374 |
1200 |
|
0,930 |
|
0,989 |
|||
50 |
0,329 |
|
0,422 |
1300 |
|
0,937 |
|
0,997 |
|||
100 |
0,478 |
|
0; 613 |
1450 |
|
|
— |
|
1,000 |
||
200 |
0,628 |
|
0,783 |
1500 |
|
0,951 |
|
— |
|
||
300 |
0,710 |
|
0,859 |
2000 |
|
|
0,968 |
|
— |
|
|
400 |
0,763 |
|
0,909 |
2500 |
|
0,991 |
|
|
|||
|
|
|
— |
|
|||||||
500 |
0,805 |
|
0,931 |
2687 |
|
|
1,000 |
|
— |
|
|
700 |
0,861 |
|
0,962 |
— |
|
|
|
— |
|
— |
|
* Здесь X —порядковый номер словарной |
единицы |
при |
расположении |
словарных |
|||||||
единиц по убыванию частот; F(*)—относительная |
накопленная частота. |
|
|
|
|||||||
|
|
|
|
|
|
|
|
Т а б л и ц а |
16.8 |
||
Р а сп р ед ел ен и е длин словоф орм |
и основ |
слов в сл овар е |
|
||||||||
Длина |
|
Вероятность появления |
Длина |
|
Вероятность появления |
||||||
|
словарной единицы |
|
словарной‘ единицы |
||||||||
словарной |
заданной длины |
словарной |
|
заданной длины |
|||||||
единицы |
|
|
единицы |
|
|
|
|
|
|||
(количество |
слово |
основы |
(количество |
|
слово |
|
ОСНОВЫ |
||||
букв) |
|
формы |
слов |
букв) |
|
|
формы |
|
СЛОВ |
||
1 |
|
0,0009 |
0,0010 |
. |
17 |
|
|
0,0114 |
|
0,0045 |
|
2 |
|
0,0026 |
0,0063 |
18 |
|
|
0,0090 |
|
0,0027 |
||
3 |
|
0,0108 |
0,0315 |
' |
19 |
|
|
0,0042 |
|
0,0030 |
|
4 |
|
0,0266 |
0,0649 |
|
20 |
|
|
0,0027 |
|
0,0027 |
|
5 |
|
0,0586 |
0,0951 |
|
21 |
|
|
0,0029 |
|
0,0010 |
|
6 |
|
0,0904 |
0,1242 |
|
22 |
|
|
0,0030 |
|
0,0008 |
|
7 |
- |
0,1110 |
0,1304 |
|
23 |
|
|
0,0031 |
|
0,0001 |
|
8 |
|
0,1220 |
0,1392 |
|
24 |
|
|
|
|
0,0003 |
|
9 |
|
0,1207 |
0,1199 |
|
|
|
|
0,0011 |
|
0,0004 |
|
10 |
|
0,1135 |
0,0872 |
|
26 |
|
|
. 00,0005,0 0 ГО |
|
0,0004 |
|
12 |
|
0,0971 |
0,0648 |
|
2527 |
|
|
0,0004 |
|
0,0004 |
|
|
0,0702 |
0,0456 |
|
28 |
|
|
0,0004 |
|
|
|
|
1113 |
|
|
|
|
|
|
— |
||||
14 |
|
0,0522 |
0,0336 |
|
29 |
|
|
0,0003 |
|
0,0001 |
|
|
0,0381 |
0,0200 |
|
30 |
|
|
0,0003 |
|
|
— |
|
15 |
|
0,0284 |
0,0132 |
|
31 |
|
|
0,0002 |
|
|
— |
16 |
|
0,0173 |
0,0094 |
|
32 |
|
|
0,0001 |
|
|
— |
272
Т а б л и ц а 16.9
Р а сп р ед ел ен и е дл ин им енны х сл овосочет ан ий в сл овар е
Длина слово |
Вероятность появления |
Длина словосоче |
Вероятность появления |
сочетания |
|||
(количество |
словосочетаний |
тания (количество |
словосочетаний |
слов) |
заданной длины |
слов) |
заданной длины |
1 |
0,06108 |
7 |
0,00923 |
2 |
0,40164 |
8 |
0,00422 |
3 |
0,27810 |
9 |
0,00371 |
4 |
0,14243 |
10 |
0,00033 |
5 |
0,07290 |
11 |
0,00009 |
6 |
0,02827 |
— |
--- ' |
4. |
Распределение длин кодов описывается |
Р і |
формулой (16.2) |
(см. тш. |
5— 13 табл. 16.2). |
|
выполнения |
Из |
формулы (16.2) следует, что вероятность |
|
|
условия |
определяется выражением |
|
|
P t |
|
F |
|
F |
|
-fcef |
|
- к х |
? |
|
|
|
|
|
|
|
п ), |
[п, п ), |
[2п, |
|
|||
= |
х , |
(х2) — |
(Xj) = |
е 1 — е |
2 . |
|
|
||||
|
|
полуинтервалов |
(0, |
|
2 |
|
Зга)... |
||||
Для последовательных |
|
|
|||||||||
изменения величины |
|
|
с |
|
|
|
|
|
|
|
|
|
Р |
соответствующих случаям записи кодов в од |
|||||||||
ной, двух, трех и т. д. ячейках памяти, получим последовательность |
|||||||||||
значений вероятности |
|
|
|
|
-к(п)т |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
|
|
Р г = |
е— fe(«)m _ |
e-fe(2ra)m > |
|
(16.6) |
|||||
|
|
р |
г = |
е—k |
( 2 n ) m _ |
e-ft(3ra)m> |
|
|
|
|
|
|
|
Т а б л и ц а 16.10 |
|
Р аспределение числа подчиненны х понятий в тезаурусе |
|||||
Количество |
Относительная накоп |
Количество |
Относительная накоп |
||
подчиненных |
подчиненных |
||||
ленная частота |
ленная частота |
||||
понятий |
понятий |
|
|||
|
|
|
|||
1 |
0,331 |
25 |
’ |
0,891 |
|
2 |
0,482 |
30 |
|
0,905 |
|
3 |
0,564 |
40 |
|
0,928 |
|
4 |
0,621 |
50 |
|
0,940 |
|
5 |
0,666 |
70 |
|
0,958 |
|
6 |
0,723 |
100 |
|
0,972 |
|
10 |
0,780 |
150 |
|
0 ,983 |
|
15 |
0,837 |
1347 |
|
1,000 |
|
20 |
0,872 |
— |
|
— |
18— 310 |
273 |
п№
/п
1
2
3
4
5
6
7
8
9
10
11
|
|
|
|
|
Т а б л и ц а |
16.11 |
Н ек о т о р ы е |
числовые ха ракт ери ст ики |
элем ент ов |
|
|||
инф орм ационны х массивов |
|
|
||||
Наименование |
|
Значение характери стики |
Примечание |
|
||
Средняя длина слова в неформали |
6,67 |
|
|
|||
зованных текстах |
(в буквах без учета |
|
|
|
||
пробелов между |
словами) |
в ело- |
9,56 |
С м . п. 5 табл. |
16.2 |
|
Средняя длина |
словоформы |
|||||
варе (в буквах) |
|
|
|
8,20 |
См. п. 6 табл. 16.2 |
|
Средняя длина основы слова в |
||||||
словаре (в буквах) |
|
|
2,92 |
См. п. 7 табл. |
16.2 |
|
Средняя длина именного словосоче- |
||||||
танин в словаре (в словах) |
|
4,25 |
С м . п. 8 табл. |
16.2 |
||
Среднее число подчиненных понятий |
||||||
в классификационном |
словаре |
(коли |
|
|
|
|
чество подчиненных |
понятий, |
прихо |
|
|
|
|
дящихся на один термин тезауруса) |
7,25 |
См. п. 9 табл. |
16.2 |
|||
Средняя длина значения характери- |
||||||
стики в массиве сообщений Ф И П С (в |
|
|
|
|||
символах) |
|
|
|
12,6 |
См. п. ^ т а б л . |
16.2 |
Средняя длина значения характери- |
||||||
стики по словарю (в символах) |
1,87 |
См. п. 10 табл. |
16-.2 |
|||
Среднее число слов в значении |
||||||
характеристики по тексту |
|
3,1 |
См . п. 11 табл. 16.2 |
|||
Среднее число слов в значении |
||||||
характеристики по словарю |
в мае- |
3,9 |
С м . п. 13 табл. 16.2 |
|||
Средняя длина |
словоформы |
|||||
сиве значений характеристик |
(в сим |
|
|
|
||
волах) |
|
|
|
4 ,3 |
— |
|
Средняя длина словоформы в слова |
|
|||||
ре значений характеристик (в симво |
|
|
|
|||
лах) |
|
|
|
|
|
|
В среднем один код будет записываться в /Ср ячейках памяти:
00
|
|
/ер = £ ‘‘- Л |
(16.7) |
|||
Подставляя в (16.7) вместо* Р,- |
1=0 |
части |
формул (16.6), полу |
|||
правые |
||||||
чим |
|
/ер = 2 |
|
|
|
(16.8> |
Окончательно объем |
|
1=0 |
из |
|
кодов |
определится выраже |
ѵ |
массива |
W |
||||
|
|
|
|
|
нием v = W lcр.
274
|
|
|
Б. Определение среднего значения коэффициента |
|
|
|||||||||||||||
|
|
|
сжатия именных словосочетаний при переходе |
|
|
|
||||||||||||||
|
|
|
от их |
пословных |
кодов |
к порядковым номерам |
|
|
|
|||||||||||
|
|
|
|
|
|
по |
словарю |
наименований понятий |
|
понятий |
у |
|||||||||
от |
Пусть зависимость |
объема |
словаря |
наименований |
|
|||||||||||||||
количества формализованных |
сообщений |
х |
определяется выра |
|||||||||||||||||
жением |
у = к у Х т', |
а |
зависимость |
объема |
условаря |
основ |
слов |
z |
от |
|||||||||||
объема |
словаря |
|
наименований2у, |
понятий |
— выражением |
z = k 2 |
у т‘ |
|||||||||||||
(ki, |
|
т и |
к2, |
т 2 |
— параметры). Тогда длина кода |
|
номераh =словосочеr a P \og2z, |
|||||||||||||
тания будет |
/i = log |
|
а средняя |
длина |
пословных |
кодов словосо |
||||||||||||||
четаний (если слова кодируются номерами их основ)k am |
— |
|
|
|
||||||||||||||||
где |
г |
ср — среднее количество слов в словосочетании. |
|
|
|
|
||||||||||||||
|
Среднее |
значение |
коэффициента сжатия |
|
|
при переходе |
от |
пословных кодов именных словосочетаний к их номерам по словарю наименований понятий определится как отношение величин 12 и l t:
|
|
|
|
|
|
|
|
|
, |
_ |
гср |
logg 2 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
еж - |
log2 У |
' |
|
у |
и |
|
z |
через |
х |
и произ |
|||
Выразив в полученной формуле величины |
|
|
|
|
|
||||||||||||||||||
ведя |
элементарные преобразования,( |
получим»logo К |
|
окончательно\ |
(16.9) |
||||||||||||||||||
|
|
|
kQm |
|
= |
Л* [ т 2 + |
1о2г ^ + |
|
log2х J . |
|
|||||||||||||
|
Величина |
|
К т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
изменяется в пределах от |
К при |
|
|
1 |
|
|
||||||||||||||
|
Ксж т іп = г срт2 |
|
|
|
|
|
|
10g2 К |
|
|
|
|
|||||||||||
до |
при |
1ср |
|
logs |
К |
X |
= |
|
|
||||||||||||||
|
|
|
|
|
|
X— >-оо. Полагая |
|
=А Ъ \ |
|
Оті=0,319;k cm* 2 =тах==6,54J |
|||||||||||||
m2=0,681; kr0pc ж |
=т2,92іп |
|
(см. пп. 4, |
6 табл. |
16.1 |
и |
п. |
|
4 |
табл. |
16.11), най |
||||||||||||
дем, |
что коэффициент |
сжатия |
изменяется |
|
в |
пределах от |
результаты |
||||||||||||||||
= 3,3 |
до |
|
|
|
= 2,0. |
Формула |
|
(16.9) |
дает хорошие |
||||||||||||||
при х>100. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
В. Определение коэффициента сжйтия информации |
|||||||||||||||||||||
|
Состав основных |
в фактографической |
И П С |
|
|
|
|
• |
|||||||||||||||
|
массивов |
фактографической |
И П С следующий: |
||||||||||||||||||||
|
1) массив |
|
сообщений |
(каждое |
|
сообщение |
состоит из |
|
кода объ |
екта, кода характеристики, кода значения характеристики и кода
отношения между элементами сообщения); |
|
для перевода |
сооб |
|||||
|
2) |
словарь |
наименований понятий (СНП ) |
|||||
щений |
с русского языка на информационный |
(наименования |
поня |
|||||
тий |
представлены в словаре в виде |
сочетаний |
номеров основ |
слов); |
||||
. |
3) |
классификационный |
словарь понятий |
(КСП ) — наименования |
||||
понятий представлены в словаре их номерами по С Н П ; |
|
|||||||
|
4) |
словарь |
основ слов |
(основы |
слов |
представлены в словаре |
впобуквенном коде);
5)словарь значений характеристик (значения характеристик представлены в побуквенном коде);
6)словарь наименований понятий для декодирования сообщений
(наименования понятий представлены сочетаниями номеров слово форм);
18* |
275 |
7) |
|
|
словарь словоформ для декодирования |
наименований понятий |
|||||||||||||||||
(словоформы представлены в побуквенном коде). |
|
|
|
|
|
||||||||||||||||
Введем следующие условные обозначения: |
|
|
|
|
|
|
|||||||||||||||
X |
— количество элементарных сообщений; |
|
|
|
|
|
|
||||||||||||||
Пі — длина |
машинного кода |
элементарного |
сообщения (в |
двоич |
|||||||||||||||||
L |
|
|
ных знаках); |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
к |
|
— количество различных наименований понятий; |
|
|
|
|
|||||||||||||||
«2 |
— длина |
номера |
наименования |
понятия |
(в двоичных знаках); |
||||||||||||||||
к |
|
— количество различных основ слов в |
наименованиях |
поня |
|||||||||||||||||
к |
|
|
тий; |
номера |
основы |
слова |
(в |
двоичных знаках); |
|
||||||||||||
|
— |
длина |
|
||||||||||||||||||
Пз — количество различных значений характеристик; |
|
|
|
|
|||||||||||||||||
|
|
— длина |
номера |
значения |
характеристики |
(в двоичных зна |
|||||||||||||||
|
|
|
ках); |
|
|
|
различных |
словоформ в |
наименованиях |
поня |
|||||||||||
я4— количество |
|
||||||||||||||||||||
|
|
|
тий; |
номера |
словоформы |
(в двоичных знаках); |
|
|
|||||||||||||
к |
|
-— длина |
|
|
|||||||||||||||||
я5 — общее |
количество |
номеров |
наименований понятий |
в |
клас |
||||||||||||||||
к |
|
|
сификационном словаре; |
|
|
кода |
наименования |
понятия |
|||||||||||||
|
|
— средняя |
длина |
пословного |
|
||||||||||||||||
к |
|
|
в С Н П |
|
(в двоичных знаках); |
наименования |
понятия |
||||||||||||||
|
|
— средняя |
длина |
пословного |
|
кода |
|||||||||||||||
к |
|
|
в словаре, предназначенном для декодирования сообщений |
||||||||||||||||||
|
|
|
|
(в двоичных знаках); |
|
|
кода |
основы |
слова |
по |
словарю |
||||||||||
|
|
—-средняя |
длина |
буквенного |
|||||||||||||||||
к |
|
|
|
(в буквах) |
|
*{ |
буквенного |
кода |
словоформы |
по |
словарю |
||||||||||
к |
— средняя |
длина |
|||||||||||||||||||
|
|
|
|
(в буквах); |
|
буквенного |
кода |
значения характеристики |
|||||||||||||
|
|
— средняя |
длина |
||||||||||||||||||
V |
|
|
по словарю |
(в буквах); |
|
в |
наименовании |
понятия; |
|
|
|||||||||||
Гер — среднее |
количество |
слов |
|
|
|||||||||||||||||
к о |
|
— объем |
классификационного |
|
словаря понятий |
(в |
двоичных |
||||||||||||||
|
|
|
знаках); |
|
|
|
|
|
|
|
между |
элементами |
|
сообщения |
|||||||
|
— длина |
кода отношения |
|
|
|||||||||||||||||
kiß rrii |
|
|
(в двоичных знаках); |
|
|
|
Нижние |
индексы |
этих |
пара |
|||||||||||
|
— параметры |
|
формулы (16.1). |
||||||||||||||||||
|
|
|
метров совпадают с соответствующими нижними индексами |
||||||||||||||||||
|
|
|
величин |
/г, 0 = 1 , 2, 3,...). |
|
|
|
|
|
|
|
|
|
|
|||||||
Длина кода элементарцого сообщения может быть определена |
|||||||||||||||||||||
как сумма длин кодов его компонент: |
|
|
|
|
|
|
(16.10) |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
к |
|
к , |
|
|
|
|
|
|
|||
Длина |
кодов |
|
|
L = 2 l i + k + k o - |
в свою очередь, может быть |
||||||||||||||||
компонент |
|
и |
|
|
|||||||||||||||||
приближенно выражена через логарифм соответствующихк и к ъ |
величин я. |
||||||||||||||||||||
При этом величины я могут быть |
определены |
на основе |
данных |
||||||||||||||||||
табл. |
16.1. |
Подставляя |
выражения для |
|
|
формулу |
(16.10), |
||||||||||||||
придем к выражению вида L -= a x + b 1lo g 2 x , |
|
|
|
|
|
|
|
||||||||||||||
где |
|
|
|
ai = 2 |
log2 Äi + logü |
k3+ l K0; b l = 2m l + |
m 3. |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
* В дальнейшем мы будем считать, что буквы кодируются ком бинациями из шести двоичных разрядов.
2 76
Длина |
элементарного |
формализованного |
сообщения в буквен |
ном коде, |
до его ввода в |
машину, в среднем |
равна величине |
L ' = Q(2r срД ф.ср + ізн.ср) + / ко-
(^сф.ср — средняя длина слова в тексте; /зн.с р — средняя длина бук венного кода значения характеристики в массиве сообщений). Сле довательно, коэффициент сжатия сообщений
|
|
|
U |
|
|
U |
(16.11) |
|
|
|
|
каж = |
L |
— |
a .- H i l o g ,* ' |
||
Как видно из (16.11), при |
Іѵвозрастании объема х массива сооб |
|||||||
щений коэффициент сжатия йсда уменьшается. Обращаясь к данным |
||||||||
табл. |
16.1 |
и 16.11 и полагаяксж =о=6, |
получим, что |
в фактографиче |
||||
ской |
И П С |
для |
л:== 103 йсш = 17,5; |
для |
х = 8 - 1 0 3 £Сж = 19,2; для * = |
|||
= 105 £ СЖ = П ,9; |
для х = 1 0 6 |
|
10,3. |
|
|
|||
При оценке степени сжатия информации мы не учитывали не |
||||||||
обходимости хранения в памяти |
ЭВ М |
словарей. Определим объем |
словарной информации, необходимой для функционирования фак тографической И П С .
|
1. Объем словаря основ слов |
|
(в двоичных знаках); |
||||||||||||||
где |
|
|
|
|
а т а = то, = |
6 |
п г1і = Ы^к^х”1* , |
|
|
||||||||
k0 = |
k'[t,k 2, |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
лт2. |
|
|
|
|
|
|
|
|
|||||
|
2. Объем словаря наименований понятий для перевода сооб |
||||||||||||||||
щений с русского языка на информационный, |
|
|
|||||||||||||||
|
3. |
|
ѵ2 |
= |
logs «г = |
Topfe!*'” ' (logs fe0 -f- /и„ logs * ) . |
|||||||||||
|
Объем классификационного словаря понятий: |
||||||||||||||||
|
4. |
|
‘0 ) = к ьп ^ і 1 1 |
= |
|
k j t f * |
хт'т>(logs fe, + ш , log2 х). |
||||||||||
|
Объем словаря значений характеристик: |
|
|||||||||||||||
|
|
|
|
|
|
Ѵі |
= |
6л,/9 = 6 |
12к3х тъ. |
|
|
||||||
|
5. Объем словаря наименований понятий для декодирования |
||||||||||||||||
сообщений: |
Т0РЯ, logs «4 = |
|
Тсpfe!*m' flogs ( к ? ‘ fe4) + |
от,/и* logs X ]. |
|||||||||||||
|
|
Ѵъ — |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6. Объем словаря словоформ для декодирования наименований |
||||||||||||||||
понятий: |
|
|
ив = |
|
n J z |
= |
|
6/sfe4fe|”* х'”1'”* . |
|
||||||||
|
|
|
|
|
|
6 |
|
|
|
|
|||||||
|
Суммарный объем массивов словарей равен |
|
|||||||||||||||
|
|
|
|
|
V = |
1>1 + |
Ü2 + |
|
|
|
5 |
0 |
|
||||
|
|
|
|
|
|
Ѵз + Цд+ О + Ü . |
|
||||||||||
|
Введем величину относительного объема словарей: |
||||||||||||||||
Тощ а |
с учетом |
|
|
|
|
|
|
R |
= |
ѵ/х. |
|
|
|
||||
необходимости хранения словарей коэффициент сж а |
|||||||||||||||||
тия сообщений может быть определен согласно формуле |
|||||||||||||||||
|
|
|
|
|
|
|
|
k 'cm = L ' f ( L + R ) . |
|
( 6. 12) |
|||||||
1 9 — 3 1 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
277 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
На основех =данных8 ■ ІО3 /г'сжтабл. 16.1 и 16.11 находим:/г'Сж |
|
|
|
|
|
||||||||||
для объема f eсообщений х = 1 0 3 /:'сж = 3,14; |
= 9,3;k 'аук |
|
|
|
|||||||||||
для |
х = 1 0 6 |
|
|
= 7,86; для |
х = 1 0 5 |
|
L |
|
|
||||||
для |
'c > K |
= 9,3. |
|
|
|
|
|
|
|
|
|
||||
При |
х = 1 0 6 коэффициент |
сжатия |
сообщений |
достигает |
мак |
||||||||||
симального значения |
(в |
Rформуле (16.12) |
величина |
|
— монотонно |
||||||||||
возрастающая, величина |
|
— монотонно убывающая). |
|
|
|
||||||||||
Отношение объема словарей к объему массива сообщений мож |
|||||||||||||||
но определить как величину |
d — R IL . |
|
что для |
х = 1 0 3 d=4 ,6 ; |
|||||||||||
Произведя необходимыеk'cm |
d |
вычисления, |
найдем, |
||||||||||||
для х = 8 - 1 0 3 |
d = l ,l ; |
для x = 1 0 5 |
d = |
0,28; |
для |
%=106 |
d = 0 ,ll. |
|
|||||||
Величины |
|
|
и |
|
были |
определены |
в |
предположении, |
что |
длина ячейки памяти машины не оказывает влияния на объемы
массивов |
сообщений и словарей. Это ограничение может быть сня |
то, если |
обратиться к формуле (16.8). |
Г л а в а 17 ТЕХНИЧЕСКИЕ СРЕДСТВА АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
Классификация технических средств
Технические средства АСУ, с помощью которых реа лизуются АИС, можно условно разделить на следующие основные группы в соответствии с выполняемыми ими
функциями, назначением |
и местом в системе: |
||
— средства, |
предназначенные для обработки инфор |
||
мации,— ЭВМ и комплексы ЭВМ; |
между элементами |
||
— средства |
обмена |
данными |
|
АСУ — технические средства связи, |
средства коммута |
ции, контроля, преобразования сигналов, повышения до стоверности передаваемой информации и т. д.;
— средства оконечных объектов (органов-) АСУ, вклю чающие аппаратуру преобразования и распределения информации, аппаратуру ввода — вывода данных, пред ставленных в различных формах и на различных носите лях информации; средства отображения, документирова ния, размножения, подготовки и контроля подготовки информации, а также специальные рабочие места, обес печивающие работу операторов АСУ.
Центральное место среди перечисленных технических средств автоматизации процессов управления принадле жит электронной вычислительной технике. ЭВМ реали зуют вычислительный процесс, который в широком смыс-
'278
ле этого слова можно трактовать как процесс двусторон него обмена информацией между человеком и машиной и переработки информации в машине. Специальные вы числительные средства, предназначенные для обеспече
ния решения таких |
задач, |
часто называют |
и н ф о р м а |
ц и о н н о - л о г и ч е с к и м и |
электронными |
вычислитель |
|
ными машинами |
(ИЛ ЭВМ) или комплексами (ИЛ |
ЭВК).
Заметим, что понятие «комплекс» часто имеет неод нозначное толкование. Оно может относиться либо к не скольким ЭВМ, либо к отдельной ЭВМ совместно со средствами обмена данными и техническими средствами оконечных объектов АСУ. Договоримся, что при даль нейшем изложении понятие «комплекс» будем относить к совместно работающим ЭВМ, т. е. ЭВМ, скомплексированным на уровне вычислителей (процессоров), памяти или так называемых каналов. Во всех остальных случа ях, включая соединенные линиями связи машины, будем говорить об отдельных ЭВМ, работающих в системе.
Отметим также, что разработка любой ЭВМ обычно ориентируется на решение некоторого класса определяю щих задач. В связи с этим деление ЭВМ на универсаль ные и специализированные весьма условно. Эта услов ность проявляется особенно сильно, когда мы рассма триваем ИЛ ЭВМ, в которых элементы универсальности выражены в значительно большей степени, чем в обыч ных ЭВМ, которые правильно называть у н и в е р с а л ь- н ы м и.
Существует, хотя и не очень четко определенное, де ление ЭВМ на первое, второе и третье поколения. В ос нове этого деления лежат особенности, обусловленные элементной базой ЭВМ. Так, первое поколение исполь зовало в качестве элементной базы электровакуумные приборы, второе связано с использованием полупровод никовой техники, а третье создавалось на основе микро электроники с малой степенью интеграции схем. Есть от дельные попытки перехода к созданию образцов вычи слительной техники четвертого поколения. В их основе лежат большие интегральные схемы (микроэлектроника с большой степенью интеграции схем). Если исходить из приведенной классификации, то возможности и особен ности современных ИЛ ЭВМ в значительной степени определяются возможностями машин второго и в основ ном третьего поколения. Это связано с тем, что период
19: |
279 |