Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf

Скачиваний:

Добавлен:

25.10.2023

Размер:

14.28 Mб

Скачать

☆

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 3328 29 30 31 32 33 > Следующая >>>

						Т а б л и ц а 1 6 .3
	Зависим ост ь		объема	сл о в а р я	словоф орм и		сл о в а р я
основ		слов от	объем а	сл о в а р я	наименований		понят ий
Объем		Объем		(С Н П )	Объем	Объем		Объем слова
Объем		словаря	Объем слова		Объем	словаря		Объем слова
^СНП		словаря	ря основ слов		СНП	словаря		ря основ слов
^СНП		словоформ	ря основ слов		СНП	словоформ		ря основ слов
500		527	436		6500	4367		2665
1000		918	686		7000	4654		2811
1500		1292	922		7500	4872		2922
2000		1717	1187		8000	5033		2995
2500	4	1989	1356		8500	5232		3095
3000	4	2333	1571		90С0	5394		3172
3500		2672	1747		9500	5633		3305
4000		2942	1908		10000	5862		3416
4500		3282	2116		10500	6091		3527
5000		3596	2276		11000	6160		2552
5500		3837	2378		11500	6251		3596
6000		4032	2515		11620	6283 .		3612

Следует оговорить, что при описании распределений элементов сообщений с помощью формулы (16.2) эти элементы располагаются по убыванию частот их появле ния в выборке. Затем каждому элементу присваивается его порядковый номер, который в дальнейшем рассма тривается в качестве случайной величины.

Покажем на нескольких примерах, как полученные нами аналитические выражения для эмпирических функ ций могут быть использованы для решения ряда задач, возникающих при проектировании АИС.

Т а б л и ц а 16.4

Зави си м ост ь		объем а		сл о в а р я	наим енований понят ий
от	объема	массива		элем ент арны х,		сообщ ений	в
			ф акт ограф ической И П С
Объем мас	Объем		Объем мас		Объем	Объем мас	Объем
сива сообще	словаря		сива сообще		словаря	сива сообще	словаря
ний	словаря		ний		словаря	ний	словаря
100	164			6000	713	14000	933
500	361			7000	751	15000	956
1000	444			8000	789	16000	973
1500	501			9000	819	17000	989
2000	542		10000		845	17600	996
3000	596		11000		867	17690	1002
4000	637		12000		894	—	—
5000	670		13000		913

2 7 0

				Т а б л и ц а 1 6 .5
Зависим ост ь объем а сл о в а р я			зн а ч ен и й	ха р а к т ер и ст и к
от	объем а	массива эл ем ен т а р н ы х		сообщ ений
	в	ф акт ограф ической И П С
Объем мас	Объем	Объем мас	Объем	Объем мас	Объем
сива сообще	словаря	сива сообще	словаря	сива сообще	словаря
ний	словаря	ний	словаря	ний	1608
500	177	6500	1004	12500	1608
1000	275	7000	1047	13000	1654
1500	342	7500	1090	13500	1708
2000	436	8000	1137	14000	1773
2500	514	8500	1189	14500	1871
3000	589	9000	1260	15000	1963
3500	643	9500	1341	15500	2041
4000	720	10000	1396	16000	2113
4500	824	10500	1453	16500	2160
5000	867	11000	1498	17000	2240
5500	908	11500	1522	17500	2280
6000	945	12000	1557	18000	2350

А. Определение объема памяти, необходимой для записи массива кодов переменной длины

Будем исходить из следующих предположений:

1.Известно максимальное количество п символов кода, которое может быть записано в одной ячейке памяти. ЭВМ .

2.Каждый код записывается с начала ячейки и при необхо димости размещается в нескольких соседних ячейках. При этом последняя ячейка может быть заполнена не до конца.

3.Разделительные знаки между кодами учитываются при опре делении количества символов п, размещаемых в одной ячейке (они могут быть учтены также отдельно).

Т а б л и ц а 16.6

Зависим ост ь		объем а		классиф икационного сл о в а р я			)
п он я т и й К С П			от объем а сл о в а р я		наим енований
п онят и й	(объем	К С П	и зм ер я е т ся числом кодов			п о н я т и й
п онят и й	(	)
Объем	Объем	Объем		Объем	Объем	Объем
снп	КСП	СНП		КСП	СНП	КСП
500	1548		4500	14235	8500	29002
1000	2807		5000	15000	9000	35771
1500	3937		5500	16909	9500	38901
2000	6172		6000	19218	10000	41627
2500	7772		6500	20311	10500	45720
3000	9614		7000	22147	11000	48367
3500	10483		7500	23433	11500	51478
4000	12707		8000	27739	11635	53041

271

								Т а б л и ц а			16.7
Р а сп р ед ел ен и е			словоф орм	и основ слов в им енны х
	сл овосочет ан иях (объем			вы борки		30000 сл ов)*
		F ( x )						F ( x )
X			Основы	X		Словоформы			Основы
Словоформы			слов			Словоформы				слов
1	0,016		0,018	800			0,879			0,969
10	0,111		0,145	900			0,895			0,977
20	0,185		0,241	1000			0,909			0,983
30	0,237		0,312	1100			0,919			0 ,9S6
40	0,287		0,374	1200			0,930			0,989
50	0,329		0,422	1300			0,937			0,997
100	0,478		0; 613	1450				—		1,000
200	0,628		0,783	1500			0,951			—
300	0,710		0,859	2000			0,968			—
400	0,763		0,909	2500			0,991			—
400	0,763		0,909	2500			0,991			—
500	0,805		0,931	2687				1,000		—
700	0,861		0,962	—				—		—
* Здесь X —порядковый номер словарной				единицы		при		расположении		словарных
единиц по убыванию частот; F(*)—относительная					накопленная частота.
								Т а б л и ц а			16.8
Р а сп р ед ел ен и е длин словоф орм					и основ			слов в сл овар е
Длина		Вероятность появления		Длина				Вероятность появления
Длина		словарной единицы		Длина				словарной‘ единицы
словарной		заданной длины		словарной				заданной длины
единицы				единицы
(количество		слово	основы	(количество				слово		ОСНОВЫ
букв)		формы	слов	букв)				формы		СЛОВ
1		0,0009	0,0010	.	17			0,0114		0,0045
2		0,0026	0,0063	.	18			0,0090		0,0027
3		0,0108	0,0315	'	19			0,0042		0,0030
4		0,0266	0,0649		20			0,0027		0,0027
5		0,0586	0,0951		21			0,0029		0,0010
6		0,0904	0,1242		22			0,0030		0,0008
7	-	0,1110	0,1304		23			0,0031		0,0001
8		0,1220	0,1392		24					0,0003
9		0,1207	0,1199					0,0011		0,0004
10		0,1135	0,0872		26			. 00,0005,0 0 ГО		0,0004
12		0,0971	0,0648		2527			0,0004		0,0004
12		0,0702	0,0456		28			0,0004
1113		0,0702	0,0456		28			0,0004			—
14		0,0522	0,0336		29			0,0003		0,0001
14		0,0381	0,0200		30			0,0003			—
15		0,0284	0,0132		31			0,0002			—
16		0,0173	0,0094		32			0,0001			—

272

Т а б л и ц а 16.9

Р а сп р ед ел ен и е дл ин им енны х сл овосочет ан ий в сл овар е

Длина слово	Вероятность появления	Длина словосоче	Вероятность появления
сочетания	Вероятность появления	Длина словосоче	Вероятность появления
(количество	словосочетаний	тания (количество	словосочетаний
слов)	заданной длины	слов)	заданной длины
1	0,06108	7	0,00923
2	0,40164	8	0,00422
3	0,27810	9	0,00371
4	0,14243	10	0,00033
5	0,07290	11	0,00009
6	0,02827	—	--- '

4.	Распределение длин кодов описывается	Р і	формулой (16.2)
(см. тш.	5— 13 табл. 16.2).		выполнения
Из	формулы (16.2) следует, что вероятность		выполнения
условия	определяется выражением

P t		F		F		-fcef		- к х	?
P t		F		F				п ),	[п, п ),	[2п,
=	х ,		(х2) —		(Xj) =	е 1 — е			2 .
	х ,			полуинтервалов			(0,		2		Зга)...
Для последовательных				полуинтервалов			(0,		2		Зга)...
изменения величины			с
изменения величины		Р	соответствующих случаям записи кодов в од
ной, двух, трех и т. д. ячейках памяти, получим последовательность
значений вероятности						-к(п)т
						-к(п)т
		Р г =		е— fe(«)m _		e-fe(2ra)m >				(16.6)
		р	г =	е—k	( 2 n ) m _	e-ft(3ra)m>

				Т а б л и ц а 16.10
Р аспределение числа подчиненны х понятий в тезаурусе
Количество	Относительная накоп	Количество		Относительная накоп
подчиненных	Относительная накоп	подчиненных		Относительная накоп
подчиненных	ленная частота	подчиненных		ленная частота
понятий	ленная частота	понятий		ленная частота
понятий		понятий
1	0,331	25	’	0,891
2	0,482	30		0,905
3	0,564	40		0,928
4	0,621	50		0,940
5	0,666	70		0,958
6	0,723	100		0,972
10	0,780	150		0 ,983
15	0,837	1347		1,000
20	0,872	—		—

18— 310

273

п№

/п

					Т а б л и ц а	16.11
Н ек о т о р ы е	числовые ха ракт ери ст ики				элем ент ов
инф орм ационны х массивов
Наименование				Значение характери стики	Примечание
Средняя длина слова в неформали				6,67
зованных текстах	(в буквах без учета
пробелов между	словами)		в ело-	9,56	С м . п. 5 табл.	16.2
Средняя длина	словоформы
варе (в буквах)				8,20	См. п. 6 табл. 16.2
Средняя длина основы слова в
словаре (в буквах)				2,92	См. п. 7 табл.	16.2
Средняя длина именного словосоче-
танин в словаре (в словах)				4,25	С м . п. 8 табл.	16.2
Среднее число подчиненных понятий
в классификационном		словаре	(коли
чество подчиненных		понятий,	прихо
дящихся на один термин тезауруса)				7,25	См. п. 9 табл.	16.2
Средняя длина значения характери-
стики в массиве сообщений Ф И П С (в
символах)				12,6	См. п. ^ т а б л .	16.2
Средняя длина значения характери-
стики по словарю (в символах)				1,87	См. п. 10 табл.	16-.2
Среднее число слов в значении
характеристики по тексту				3,1	См . п. 11 табл. 16.2
Среднее число слов в значении
характеристики по словарю			в мае-	3,9	С м . п. 13 табл. 16.2
Средняя длина	словоформы
сиве значений характеристик			(в сим
волах)				4 ,3	—
Средняя длина словоформы в слова
ре значений характеристик (в симво
лах)

В среднем один код будет записываться в /Ср ячейках памяти:

		/ер = £ ‘‘- Л				(16.7)
Подставляя в (16.7) вместо* Р,-			1=0		части	формул (16.6), полу
			правые
чим		/ер = 2				(16.8>
Окончательно объем		1=0	из		кодов	определится выраже
	ѵ	массива		W

нием v = W lcр.

274

Б. Определение среднего значения коэффициента

сжатия именных словосочетаний при переходе

от их

пословных

кодов

к порядковым номерам

по

словарю

наименований понятий

понятий

от

Пусть зависимость

объема

словаря

наименований

количества формализованных

сообщений

определяется выра

жением

у = к у Х т',

зависимость

объема

условаря

основ

слов

от

объема

словаря

наименований2у,

понятий

— выражением

z = k 2

у т‘

(ki,

т и

к2,

т 2

— параметры). Тогда длина кода

номераh =словосочеr a P \og2z,

тания будет

/i = log

а средняя

длина

пословных

кодов словосо

четаний (если слова кодируются номерами их основ)k am

—

где

ср — среднее количество слов в словосочетании.

Среднее

значение

коэффициента сжатия

при переходе

от

пословных кодов именных словосочетаний к их номерам по словарю наименований понятий определится как отношение величин 12 и l t:

гср

logg 2

еж -

log2 У

через

и произ

Выразив в полученной формуле величины

ведя

элементарные преобразования,(

получим»logo К

окончательно\

(16.9)

kQm

Л* [ т 2 +

1о2г ^ +

log2х J .

Величина

К т

изменяется в пределах от

К при

Ксж т іп = г срт2

10g2 К

до

при

1ср

logs

X— >-оо. Полагая

=А Ъ \

Оті=0,319;k cm* 2 =тах==6,54J

m2=0,681; kr0pc ж

=т2,92іп

(см. пп. 4,

6 табл.

16.1

п.

табл.

16.11), най

дем,

что коэффициент

сжатия

изменяется

пределах от

результаты

= 3,3

до

= 2,0.

Формула

(16.9)

дает хорошие

при х>100.

В. Определение коэффициента сжйтия информации

Состав основных

в фактографической

И П С

•

массивов

фактографической

И П С следующий:

1) массив

сообщений

(каждое

сообщение

состоит из

кода объ

екта, кода характеристики, кода значения характеристики и кода

отношения между элементами сообщения);							для перевода	сооб
	2)	словарь	наименований понятий (СНП )
щений		с русского языка на информационный					(наименования	поня
тий	представлены в словаре в виде				сочетаний		номеров основ	слов);
.	3)	классификационный		словарь понятий		(КСП ) — наименования
понятий представлены в словаре их номерами по С Н П ;
	4)	словарь	основ слов	(основы	слов	представлены в словаре

впобуквенном коде);

5)словарь значений характеристик (значения характеристик представлены в побуквенном коде);

6)словарь наименований понятий для декодирования сообщений

(наименования понятий представлены сочетаниями номеров слово форм);

18*

275

словарь словоформ для декодирования

наименований понятий

(словоформы представлены в побуквенном коде).

Введем следующие условные обозначения:

— количество элементарных сообщений;

Пі — длина

машинного кода

элементарного

сообщения (в

двоич

ных знаках);

— количество различных наименований понятий;

«2

— длина

номера

наименования

понятия

(в двоичных знаках);

— количество различных основ слов в

наименованиях

поня

тий;

номера

основы

слова

(в

двоичных знаках);

—

длина

Пз — количество различных значений характеристик;

— длина

номера

значения

характеристики

(в двоичных зна

ках);

различных

словоформ в

наименованиях

поня

я4— количество

тий;

номера

словоформы

(в двоичных знаках);

-— длина

я5 — общее

количество

номеров

наименований понятий

клас

сификационном словаре;

кода

наименования

понятия

— средняя

длина

пословного

в С Н П

(в двоичных знаках);

наименования

понятия

— средняя

длина

пословного

кода

в словаре, предназначенном для декодирования сообщений

(в двоичных знаках);

кода

основы

слова

по

словарю

—-средняя

длина

буквенного

(в буквах)

буквенного

кода

словоформы

по

словарю

— средняя

длина

(в буквах);

буквенного

кода

значения характеристики

— средняя

длина

по словарю

(в буквах);

наименовании

понятия;

Гер — среднее

количество

слов

к о

— объем

классификационного

словаря понятий

(в

двоичных

знаках);

между

элементами

сообщения

— длина

кода отношения

kiß rrii

(в двоичных знаках);

Нижние

индексы

этих

пара

— параметры

формулы (16.1).

метров совпадают с соответствующими нижними индексами

величин

/г, 0 = 1 , 2, 3,...).

Длина кода элементарцого сообщения может быть определена

как сумма длин кодов его компонент:

(16.10)

к ,

Длина

кодов

L = 2 l i + k + k o -

в свою очередь, может быть

компонент

приближенно выражена через логарифм соответствующихк и к ъ

величин я.

При этом величины я могут быть

определены

на основе

данных

табл.

16.1.

Подставляя

выражения для

формулу

(16.10),

придем к выражению вида L -= a x + b 1lo g 2 x ,

где

ai = 2

log2 Äi + logü

k3+ l K0; b l = 2m l +

m 3.

* В дальнейшем мы будем считать, что буквы кодируются ком бинациями из шести двоичных разрядов.

2 76

Длина	элементарного	формализованного	сообщения в буквен
ном коде,	до его ввода в	машину, в среднем	равна величине

L ' = Q(2r срД ф.ср + ізн.ср) + / ко-

(^сф.ср — средняя длина слова в тексте; /зн.с р — средняя длина бук венного кода значения характеристики в массиве сообщений). Сле довательно, коэффициент сжатия сообщений

			U				U	(16.11)
			каж =	L	—	a .- H i l o g ,* '
Как видно из (16.11), при				Іѵвозрастании объема х массива сооб
щений коэффициент сжатия йсда уменьшается. Обращаясь к данным
табл.	16.1	и 16.11 и полагаяксж =о=6,				получим, что		в фактографиче
ской	И П С	для	л:== 103 йсш = 17,5;		для		х = 8 - 1 0 3 £Сж = 19,2; для * =
= 105 £ СЖ = П ,9;			для х = 1 0 6		10,3.
При оценке степени сжатия информации мы не учитывали не
обходимости хранения в памяти					ЭВ М		словарей. Определим объем

словарной информации, необходимой для функционирования фак тографической И П С .

1. Объем словаря основ слов

(в двоичных знаках);

где

а т а = то, =

п г1і = Ы^к^х”1* ,

k0 =

k'[t,k 2,

лт2.

2. Объем словаря наименований понятий для перевода сооб

щений с русского языка на информационный,

ѵ2

logs «г =

Topfe!*'” ' (logs fe0 -f- /и„ logs * ) .

Объем классификационного словаря понятий:

‘0 ) = к ьп ^ і 1 1

k j t f *

хт'т>(logs fe, + ш , log2 х).

Объем словаря значений характеристик:

Ѵі

6л,/9 = 6

12к3х тъ.

5. Объем словаря наименований понятий для декодирования

сообщений:

Т0РЯ, logs «4 =

Тсpfe!*m' flogs ( к ? ‘ fe4) +

от,/и* logs X ].

Ѵъ —

6. Объем словаря словоформ для декодирования наименований

понятий:

ив =

n J z

6/sfe4fe|”* х'”1'”* .

Суммарный объем массивов словарей равен

V =

1>1 +

Ü2 +

Ѵз + Цд+ О + Ü .

Введем величину относительного объема словарей:

Тощ а

с учетом

ѵ/х.

необходимости хранения словарей коэффициент сж а

тия сообщений может быть определен согласно формуле

k 'cm = L ' f ( L + R ) .

( 6. 12)

1 9 — 3 1 0

277

На основех =данных8 ■ ІО3 /г'сжтабл. 16.1 и 16.11 находим:/г'Сж

для объема f eсообщений х = 1 0 3 /:'сж = 3,14;

= 9,3;k 'аук

для

х = 1 0 6

= 7,86; для

х = 1 0 5

для

'c > K

= 9,3.

При

х = 1 0 6 коэффициент

сжатия

сообщений

достигает

мак

симального значения

(в

Rформуле (16.12)

величина

— монотонно

возрастающая, величина

— монотонно убывающая).

Отношение объема словарей к объему массива сообщений мож

но определить как величину

d — R IL .

что для

х = 1 0 3 d=4 ,6 ;

Произведя необходимыеk'cm

вычисления,

найдем,

для х = 8 - 1 0 3

d = l ,l ;

для x = 1 0 5

d =

0,28;

для

%=106

d = 0 ,ll.

Величины

были

определены

предположении,

что

длина ячейки памяти машины не оказывает влияния на объемы

массивов	сообщений и словарей. Это ограничение может быть сня
то, если	обратиться к формуле (16.8).

Г л а в а 17 ТЕХНИЧЕСКИЕ СРЕДСТВА АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ

Классификация технических средств

Технические средства АСУ, с помощью которых реа лизуются АИС, можно условно разделить на следующие основные группы в соответствии с выполняемыми ими

функциями, назначением		и местом в системе:
— средства,	предназначенные для обработки инфор
мации,— ЭВМ и комплексы ЭВМ;			между элементами
— средства	обмена	данными
АСУ — технические средства связи,			средства коммута

ции, контроля, преобразования сигналов, повышения до стоверности передаваемой информации и т. д.;

— средства оконечных объектов (органов-) АСУ, вклю чающие аппаратуру преобразования и распределения информации, аппаратуру ввода — вывода данных, пред ставленных в различных формах и на различных носите лях информации; средства отображения, документирова ния, размножения, подготовки и контроля подготовки информации, а также специальные рабочие места, обес печивающие работу операторов АСУ.

Центральное место среди перечисленных технических средств автоматизации процессов управления принадле жит электронной вычислительной технике. ЭВМ реали зуют вычислительный процесс, который в широком смыс-

'278

ле этого слова можно трактовать как процесс двусторон него обмена информацией между человеком и машиной и переработки информации в машине. Специальные вы числительные средства, предназначенные для обеспече

ния решения таких	задач,	часто называют	и н ф о р м а
ц и о н н о - л о г и ч е с к и м и		электронными	вычислитель
ными машинами	(ИЛ ЭВМ) или комплексами (ИЛ

ЭВК).

Заметим, что понятие «комплекс» часто имеет неод нозначное толкование. Оно может относиться либо к не скольким ЭВМ, либо к отдельной ЭВМ совместно со средствами обмена данными и техническими средствами оконечных объектов АСУ. Договоримся, что при даль нейшем изложении понятие «комплекс» будем относить к совместно работающим ЭВМ, т. е. ЭВМ, скомплексированным на уровне вычислителей (процессоров), памяти или так называемых каналов. Во всех остальных случа ях, включая соединенные линиями связи машины, будем говорить об отдельных ЭВМ, работающих в системе.

Отметим также, что разработка любой ЭВМ обычно ориентируется на решение некоторого класса определяю щих задач. В связи с этим деление ЭВМ на универсаль ные и специализированные весьма условно. Эта услов ность проявляется особенно сильно, когда мы рассма триваем ИЛ ЭВМ, в которых элементы универсальности выражены в значительно большей степени, чем в обыч ных ЭВМ, которые правильно называть у н и в е р с а л ь- н ы м и.

Существует, хотя и не очень четко определенное, де ление ЭВМ на первое, второе и третье поколения. В ос нове этого деления лежат особенности, обусловленные элементной базой ЭВМ. Так, первое поколение исполь зовало в качестве элементной базы электровакуумные приборы, второе связано с использованием полупровод никовой техники, а третье создавалось на основе микро электроники с малой степенью интеграции схем. Есть от дельные попытки перехода к созданию образцов вычи слительной техники четвертого поколения. В их основе лежат большие интегральные схемы (микроэлектроника с большой степенью интеграции схем). Если исходить из приведенной классификации, то возможности и особен ности современных ИЛ ЭВМ в значительной степени определяются возможностями машин второго и в основ ном третьего поколения. Это связано с тем, что период

19:

279

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 3328 29 30 31 32 33 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ