Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

1_Пример проектирования лексического анализатора.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

306.18 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

Пример проектирования лексического анализатора

Пусть {L_i | L_i A^* , i [1,3]} – семейство из трех регулярных языков над входным алфавитом A, где L_i – класс лексем языка Си или его ограничение (подмножество) для всех i [1, 3].

Язык L₁ – множество идентификаторов языка Си; L₂ - множество целочисленных констант языка Си в системе счисления с основанием 8; L₃ – множество «пробельных» лексем, интерпретируемых как непустые слова над алфавитом {s, t}. Символы s и t условно обозначают «пробел» и «знак табуляции» соответственно.

Входной алфавит A представляют 256 символов в 8 – разрядной (байтовой) ASCII-кодировке. Числовой код символа «пробел»  0x20 и «знака табуляции»  0x09.

Языки L_i индуцируют разбиения _i алфавита A, i [1,3]: ₁ = {[_a-zA-Z], [0-9], [^_a-zA-Z]}; ₂ = {[0], [1-7], [lL], [uU], [^01-7 lL uU]}, ₃ = {[\x20\x09], [^\x20\x09]}. Абстрактные алфавиты, соответствующие разбиениям, следующие: B₁ = {a, 9, ? }, B₂ = {0, 7, l, u, ? }, B₃ = {s, ? }, Регулярные выражения е_i представляют языки L_i в соответствующих абстрактных алфавитах B_i , i [1,3] : e₁ = а(а | 9)^*, e₂ = 0(0 | 7)^* (λ|u|l|ul|lu), e₃ = ss ^*.
Эквивалентные λ-диаграммы D_i для е_i , i [1,3] :

e₁ = а (а | 9)^*;

а:

(а | 9):

( а | 9)^*:

e₁ = а (а | 9)^*:

λ-диаграммa D₁

а|9

e₂ = 0(0 | 7)^* (λ|u|l|ul|lu):

λ-диаграммa D₂

e₃ = s s^*:

λ-диаграммa D₃

Детерминированные конечные автоматы Mi, допускающие языки l(Di), I [1,3]. Символом ‘*’ помечены финальные состояния, символом   состояние “ошибки”. M1

Замыкание	q\a	a	9	?
[0]= {0}	0	1		
[1]={1, 2, 3} *	1	3	3	
[]=	2			
[{2,3}]={2,3} *	3	3	3	

M₂

Замыкание	q\a	0	7	l	u	?
[0]= {0}	0	1				
[1]={1,2,3,6} *	1	3	3	4	5	
[] =	2					
[2]={2,3, 6} *	3	3	3	4	5	
[{4,6}]={4,6} *	4				6	
[{5,6}]={5,6} *	5			5		
[6]= {6} *	6					

M₃

Замыкание	q\a	s	?
[0]= 0	0	1	2
[1]={1, 2, 3} *	1	3	
[] =	2		
[{2,3}]={2,3} *	3	3	

Языки L_i – не пусты, поскольку не пусты множества заключительных состояний автоматов M_i для всех i [1,3] , и λ-свободны, так как начальные состояния не являются заключительными;

Общий алфавит B = {0, 7, 9, a, l, u, s, ?}. Соответствующее разбиение алфавита A   = {[0], [1-7], [89], [_a-km-tv-zA-KM-TV-Z], [lL], [uU], [\x20\x09], [^0-9_a-zA-Z\x20\x09]}.

Элементы алфавитов связаны следующими соотношениями:

элементы B₁ = {a, 9, ?} – a = а | l | u,

9 = 0 | 7 | 9,

? = s | ?;

элементы B₂ = {0, 7, l, u, ?} – 0 = 0,

7 = 7,

l = l,

u = u,

? = 9 | a | s | ?;

элементы B₃ = {s, ?} –

s = s, t = t, ? = 0 | 7 | 9 | а | l | u | ?.

Применяя соотношения как правила подстановки к исходным выражениям, получаем регулярные выражения над общим алфавитом B:

e₁ = (а | l | u)(а | l | u | 0 | 7 | 9)^* ,

e₂ = 0(0 | 7)^* (λ|u|l|ul|lu),

e₃ = ss^*. Чтобы получить регулярные выражения, определяющие языки в исходном алфавите A, необходимо заменить вхождения символов алфавита B в регулярные выражения на выражения, представляющие соответствующие классы разбиения . Например, в языке C# выражения имеют следующие представления в формате строковых констант (литералов): e₁  @”([_a-km-tv-zA-KM-TV-Z] | [lL] | [uU])”+ @”( [_a-km-tv-zA-KM-TV-Z] | [lL] | [uU] | [0] | [1-7] | [89])^*” ; e₂  @”[0]([0] | [1-7])^* ( [uU] | [lL] | [uU] [lL] | [lL] [uU])?”;

e₃  @” [\x20\x09] [\x20\x09]^*”.

Диаграммы D_i в алфавитах B_i также просто преобразуются в соответствующие диаграммы над общим алфавитом B: достаточно каждую a-дугу заменить параллельными b-дугами. Например, в диаграмме D₁ каждая дуга (i, a, j) заменяется на (i, а | l | u, j), дуга (i, 9, j) – на (i, 0 | 7 | 9, j) и (i, ?, j) – на (i, s | t |?, j).

Приведенные к общему алфавиту B λ-диаграммы D_i, i [1,3]:

e₁ = (а | l | u)(а| l | u | 0 | 7 | 9)^* ;

e₂ = 0(0 | 7)^* (λ|u|l|ul|lu):

λ-диаграммa D₂

e₃ = ss^* :

λ-диаграммa D₃

Детерминированные конечные автоматы M_i , приведенные к общему алфавиту B, i [1,3] . M₁

Замыкание	q\a	0	7	9	a	l	u	s	?
[0]= {0}	0				1	1	1		
[1]={1, 2, 3 } *	1	3	3	3	3	3	3		
[] =	2								
[{2,3}]={2,3} *	3	3	3	3	3	3	3		

M₂

Замыкание	q\a	0	7	9	a	l	u	s	?
[0]= {0}	0	1							
[1]={1,2,3,6} *	1	3	3			4	5		
[] =	2								
[2]={2,3,6} *	3	3	3			4	5		
[{4,6}]= {4,6} *	4						6		
[{5,6}]= {5,6} *	5					6			
[6]= {6} *	6								

M₃

Замыкание	q\a	0	7	9	a	l	u	s	?
[0]= 0	0							1	
[1]={1, 2, 3} *	1							3	
[] =	2								
[{2,3}]={2,3} *	3							3	

Языки L_i над общим алфавитом B так же не пусты, поскольку не пусты множества заключительных состояний автоматов M_i для всех i [1,3] , и λ-свободны, так как начальные состояния не являются заключительными.

Декартово произведение двух детерминированных конечных автоматов  aвтомат M_1,2= M₁x M₂ , допускающий объединение исходных языков: L₁ L₂. M_1,2

Вектор	q\a	0	7	9	a	l	u	s	?
(0,0)	0	1			3	3	3		
(2,1) 2	1	4	4			5	6		
(2,2)= 	2								
(1,2) 1	3	7	7	7	7	7	7		
(2,3) 2	4	4	4			5	6		
(2,4) 2	5						8		
(2,5) 2	6					8			
(3,2) 1	7	7	7	7	7	7	7		
(2,6) 2	8								

Декартово произведение трех детерминированных конечных автоматов  aвтомат M= M₁x M₂x M₃ , допускающий объединение исходных языков: L₁ L₂L₃. M

Вектор	q\a	0	7	9	a	l	u	s	?
(0,0,0)	0	1			3	3	3	4	
(2,1,2) 2	1	5	5			6	7		
(2,2,2)= 	2								
(1,2,2) 1	3	8	8	8	8	8	8		
(2,2,1) 3	4							9
(2,3,2) 2	5	5	5			6	7
(2,4,2) 2	6						10
(2,5,2) 2	7					10
(3,2,2) 1	8	8	8	8	8	8	8
(2,2,3) 3	9							9
(2,6,2) 2	10

Пусть M =(Q, B , g, q₀, F), где F= F₁ F₂F₃ , F₁ = {3, 8}, F₂= {1, 5, 6, 7, 10}, F₃ = {4, 8}. Соответствующие автоматы (Q, B , g, q₀, F_i) допускают языки L_i , i [1,3] .

Cемейство подмножеств {F₁, F_2, F₃} состоит из попарно не пересекающихся множеств, следовательно семейство языков {L₁, L₂_, L₃} состоит из трех попарно не пересекающихся регулярных языков;

Автомат M , построенный методом «слияния диаграмм переходов» автоматов M_1,2 и M₃. Автоматы M и M изоморфны, поскольку их диаграммы переходов изоморфны. M

F	q\a	0	7	9	a	l	u	s	?
	0	1			3	3	3	9	
2	1	4	4			5	6		
	2								
1	3	7	7	7	7	7	7		
2	4	4	4			5	6		
2	5						8		
2	6					8			
1	7	7	7	7	7	7	7		
2	8								
3	9							10	
3	10							10	

Классификация состояний и переходов. По построению все состояния достижимы из начального состояния q₀.

Множество «тупиковых» или состояний, сигнализирующих о лексической ошибке,  Error ={q| g*(q, x) F}.

В автомате M= M₁x M₂x M₃ множество Error = {2}, так как из q₂ не достижимо ни одно финальное состояние q  F.

Множество активных состояний  Active = Q\ Error. Множество активных переходов  ActiveTransition = {(q, a)| q  Active и g(q, a)  Active, a  B }. Множество переходов, определяющих условие распознавания лексемы класса L_i ,  EndL_i = {(q, a)| q  F_i и g(q, a)  Error, a  B }.

Символ a такой, что (q, a)  EndL_i определяет правый контекст лексемы x  L_i. Слово x переводит автомат из начального состояния в финальное состояние qF_i, причем q =g*(q₀, x).

Переходы множества ErrorL = {(q, a)| q  Active \ F и g(q, a)  Error, a  B } определяют условия обнаружения лексической ошибки. Если (q, a)  ErrorL, тогда слово x такое, что q =g*(q₀, x) переводит автомат из начального состояния в активное не финальное состояние q, определяет допустимый собственный префикс некоторой лексемы, но

слово xa – не допустимый префикс, так как не существует слова y  B*, что xaу  L.

Очевидно, ActiveTransition, EndL₁, EndL₂ , EndL₃, ErrorL,  попарно не пересекающиеся множества переходов.

Семантические процедуры

Определить (классифицировать) множество P «действий» (семантических процедур) значит определить функцию выхода f : QB → P, где B= B  {#}. Если f(q,a)=p  P, тогда p – действие, выполняемое лексическим анализатором в состоянии q  Q при входном символе a  B. Формально символ #  B служит признаком конца входного потока. Фактически результатом проектирования является разработка модели детерминированного конечного преобразователя M = (Q, B, P, f, g) простого типа.

Пусть P = { pActiveTransition, pEndL₁, … , pEndL_n, pErrorL}. Определим очевидным образом функцию выхода:

f(q,a)=pActiveTransition, если (q,a)ActiveTransition;

если (q,a) EndL_i , то (q,#) EndL_i , и f(q,a)=pEndL_i, если (q,a) EndL_i , i  [1, n];

если (q,a) ErrorL, то (q,#) ErrorL, и

f(q,a)=pErrorL, если (q,a) ErrorL.

Тогда программная реализация (интерпретация) преобразователя M = (Q, B, P, f, g) определяет основные действия (функции) лексического анализатора при сканировании входного потока символов алфавита B.

Ниже на псевдоязыке приводится в обобщенной форме одна из возможных программных интерпретаций.

Интерпретация символов выходного алфавита P.

pActiveTransition:

s = s + a; //добавить входной символ, расширить префикс некоторой //лексемы

// q₁ = <q>

q = g[q,b]; // b = [a] – класс входного символа а  #

// q₂ = <q> и (q₁, b, q₂) in ActiveTransition`

return;

pEndL_i , i  [1, n]:

//(q, b) in EndL_i , i  [1, n]

//<s> = x – лексема, b = [a] и <a> = a – правый контекст

tokenStream.WriteLine(“<L”, i, “>”, s);

if (b == [#])

{

//выход

return;

}

else

{

inputStream.UnGetC(a); // вернуть символ <a> = a во входной поток q = 0; // переключить автомат в начальное состояние

s=””; // очистить буфер для накопления символов очередной лексемы

return;

}

pErrorL:

s = s + a;

tokenStream.WriteLine(“<ErrorL>”, s); //s=xa

if (b == [#])

{

//выход

return;

}

else

{

//skip входной символ а, доставивший лексическую ошибку q = 0;

s=””;

return;

}

1 / 21 2 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.04.2019378.88 Кб3941_все_ИПО_УМК_Ваганова.doc
#
01.04.202520.46 Mб2041_ист_Археология Беларуси_Загорульский.doc
#
17.08.201967.58 Кб3791_ист_до_Ист_Др_Греции_и_Рима_Корзун_семинары.doc
#
25.12.2018390.14 Кб15761_ист_до_Ист_Др_мира_Ревяко_лекции.doc
#
08.12.2018504.32 Кб3781_ист_общ_арх_Егорейченко.doc
#
01.07.2025306.18 Кб871_Пример проектирования лексического анализатора.doc
#
30.08.2019232.96 Кб3711_спектр_ПХТ.doc
#
01.03.2016162.27 Кб3871_УСР_требования и задания.pdf
#
01.05.2025133.26 Кб1641вариант диплома.docx
#
22.11.201839.27 Кб2761вопрос по кср.docx
#
05.08.2019124.42 Кб2181ВОСТОЧНЫЕ СЛАВЯНЕ В ДОГОСУДАРСТВЕННЫЙ ПЕРИОД.doc

F	q\a	0	7	9	a	l	u	s	?
	0	1			3	3	3	9	
2	1	4	4			5	6		
	2								
1	3	7	7	7	7	7	7		
2	4	4	4			5	6		
2	5						8		
2	6					8			
1	7	7	7	7	7	7	7		
2	8								
3	9							10	
3	10							10	

F	q\a	0	7	9	a	l	u	s	?
	0	1			3	3	3	9	
2	1	4	4			5	6		
	2								
1	3	7	7	7	7	7	7		
2	4	4	4			5	6		
2	5						8		
2	6					8			
1	7	7	7	7	7	7	7		
2	8								
3	9							10	
3	10							10	

Пример проектирования лексического анализатора

Детерминированные конечные автоматы Mi, допускающие языки l(Di), I [1,3]. Символом ‘*’ помечены финальные состояния, символом   состояние “ошибки”. M1

F	q\a	0	7	9	a	l	u	s	?
	0	1			3	3	3	9	
2	1	4	4			5	6		
	2								
1	3	7	7	7	7	7	7		
2	4	4	4			5	6		
2	5						8		
2	6					8			
1	7	7	7	7	7	7	7		
2	8								
3	9							10	
3	10							10	