Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Yacc.docx
Скачиваний:
13
Добавлен:
20.03.2016
Размер:
121.86 Кб
Скачать

3. Процедура построения грамматического анализатора

Построение грамматического анализатора осуществляется в

два этапа. На первом этапе файл спецификаций входного языка

обрабатывается компилятором компиляторов yacc, для чего

задается командная строка

yacc [-vd] yfile

Здесь yfile - имя файла спецификаций, а флаги имеют следую-

щий смысл:

v - сформировать в файле y.output подробное описание грам-

матического анализатора;

- 5 -

d - сформировать в файле y.tab.h описание лексем. Тексто-

вые файлы y.output и y.tab.h содержат справочную инфор-

мацию для пользователя и никак не используются на вто-

ром этапе построения грамматического анализатора.

Основной результат работы yacc - процедура yyparse и

грамматические таблицы - помещается в файл y.tab.c. На вто-

ром этапе построения грамматического анализатора для получе-

ния в файле a.out исполняемой программы компилируется файл

y.tab.c и присоединяются другие программные компоненты:

cc y.tab.c [cfile...ofile...lfile...] -ly

cfile, ofile, lfile - имена исходных, объектных и библиотеч-

ных файлов, содержащих присоединяемые процедуры. В этот спи-

сок не включается имя стандартной библиотеки yacc

/lib/liby.a, ее подключение обеспечивается заданием флага

ly. Этот флаг полезно считать обязательным.

4. Задание входной информации yacc

4.1. Структура спецификационного файла

Пользовательские спецификации, задающие правила органи-

зации входной информации и алгоритм ее обработки, объединя-

ются в спецификационный файл следующей структуры:

декларации

%%

правила

%%

программы

Ядром спецификационного файла и единственной его обяза-

тельной частью является секция правил. При отсутсивии секции

программ может быть опущена вторая группа "%%"; следова-

тельно, минимальная допустимая конфигурация входного файла

имеет вид:

%%

правила

Пробелы, знаки табуляции и перевода строки игнориру-

ются, недопустимо лишь появление их в именах. Комментарий,

ограниченный символами "/*" в начале и "*/" в конце, может

находиться между любыми двумя разделителями в любой секции

входного файла.

- 6 -

Секция правил состоит из одного или нескольких грамма-

тических правил. Эти правила должны определять все допусти-

мые входные конструкции и связанные с определенными конст-

рукциями действия по обработке входного потока.

Назначение секции деклараций состоит в основном в зада-

нии информации о лексемах.

Секция программ представляет собой некоторый набор про-

цедур на языке Си, которые должны включаться в текст прог-

раммы грамматического разбора. Например, это могут быть

процедура лексического анализа yylex и пользовательские про-

цедуры, вызываемые в действиях.

4.2. Секция правил

В данной секции с помощью набора грамматических правил

должны быть определены все конструкции, из которых впос-

ледствии будут строиться входные тексты. Не подлежат опреде-

лению в секции правил лишь конструкЦии, выбранные пользова-

телем в качестве лексем, считающиеся для грамматического

анализа исходными единицами. Правила задаются в форме, близ-

кой БНФ.

Правило, определяющее синтаксический вид конструкции,

задается таким образом:

<имя_нетерминального_символа>: определение;

Здесь ":" и ";" - специальные символы yacc. Правая часть

правила - определение - представляет собой упорядоченную

последовательность элементов (нетерминальных символов и лек-

сем), составляющих описываемую конструкцию. При грамматичес-

ком разборе такая последовательность в результате применения

правила заменяется нетерминальным символом, имя которого

указано в левой части. нетерминальные символы в определении

задаются именами, а лексемы - именами или литералами. Запись

имен и литералов совпадает с записью идентификаторов и сим-

вольных констант, принятой в Си.

Правило:

P_Head: P_name '(' P_list ')';

определяет нетерминал P_Head как последовательность 4-х эле-

ментов: два элемента заданы литерально, два других - име-

нами. По виду правила нельзя заключить, относятся эти имена

к лексемам или нетерминальным символам. yacc считает именами

нетерминалов все имена, не объявленные в секции деклараций

именами лексем (разд.4.3). Все нетерминалы должны быть

- 7 -

определены, т.е. имя каждого из них должно появиться в левой

части хотя бы одного правила. Допустимо задание нескольких

правил, определяющих один нетерминальный символ, т.е. правил

с одинаковой левой частью. Такие правила определяют конст-

рукции, идентичные на некотором уровне. Ниже приводятся три

правила, определяющие виды операторов в некотором языке:

statement : assign_stat ;

statement : if_then_stat;

statement : goto_stat;

Правила с общей левой частью можно задавать в сокращен-

ной записи, без повторения левой части, используя для разде-

ления альтернативных определений символ "|". Предыдущие пра-

вила можно переписать в виде:

statement : assign_stat |

if_then_stat |

goto_stat;

При необходимости с любым правилом можно связать дейст-

вие - набор операторов языка Си, которые будут выполняться

при каждом распознавании конструкции во входном тексте.

Действие не является обязательным элементом правил.

Действие заключается в фигурные скобки и помещается

вслед за правой частью правила, т.е. правило с действием

имеет вид:

<имя_нетерминального_символа>:

определение {действие};

Точка с запятой после правила с действием может опускаться.

При использовании сокращенной записи правил с общей

левой частью следует иметь в виду, что действие может отно-

ситься только к отдельному правилу, а не к их совокупности.

Следующий пример иллюстрирует задание действий в случае пра-

вил с общей левой частью.

statement: assign_stat

|

if_then_stat {printf("if_оператор\n");}

|

goto_stat {kgoto++;

printf("goto_оператор\n");}

- 8 -

На операторы, входящие в действия, не накладывается

никаких ограничений. В частности, в действиях могут содер-

жаться вызовы любых функций. Отдельные операторы могут быть

помечены, к ним возможен переход из других действий.

Существует возможность задания действий, которые будут

выполняться по мере распознавания отдельных фрагментов пра-

вила. Действие в этом случае помещается после одного из эле-

ментов правой части так, чтобы положение действия соотвест-

вовало моменту разбора, в который данному действию будет

передано управление.

Например, в правиле

if_then_stat: if'(' expression ')' {действие1}

then statement ';' {действие 2}

действия заданы с таким расчетом, чтобы при разборе строки

вида

if (a>b) then x=a;

действие 1 выполнялось при нахождении правой круглой скобки,

а действие 2 - по окончании разбора.

Для того, чтобы действия имели реальный смысл, они, как

правило, должны использовать некоторые общие переменные,

т.е. переменные, доступные во всех действиях и сохраняющие

свои значения по окончании очередного действия. Такие пере-

менные описываются в начале секции правил, все описание

ограничивается с двух сторон строками

%{

и

%}

Здесь же могут находиться произвольные операторы Си, расс-

матриваемые как общие действия для всех правил.

Дополним приведенный выше фрагмент спецификаций для

statement с тем, чтобы осуществлялся подсчет и вывод на

печать операторов goto

- 9 -

%{

int kgoto;

%}

prog: DECLS {kgoto=0;}

stats {printf("%d\n",kgoto);}

stats: statement

| stats statement;

statement:assign_stat

...

|

if_then_stat

...

|

goto_stat {kgoto++;

... }

Укажем еще на два вида объектов, использующихся в

действиях. Это, во-первых, глобальные переменные, которые

описываются в секции деклараций (разд.4.3), и, во-вторых,

специальные переменные (псевдопеременные),облегчающие взаи-

мосвязь между действиями и связь их с лексическим анализато-

ром. Работе с псевдопеременными посвящен раздел 4.5. Струк-

тура входной информации описывается в наборе правил иерархи-

чески, т.е. каждое правило соответствует определенному

уровню структурного разбиения. Однако, последовательность

задания правил может не отражать этой иерархии и быть вполне

произвольной. Единственно необходимой для yacc является

информация о том, какой из нетерминалов задает вершину

иерархии, т.е. соотвествует конструкциям, определяющим вход-

ной текст в целом. Этот нетерминал принято называть началь-

ным символом. Приведение входного текста к начальному сим-

волу является целью грамматического анализатора. По умолча-

нию yacc считает начальным символом тот нетерминал, имя

которого стоит в левой части первого из правил. Однако, если

определять начальный символ в первом правиле пользователю

неудобно, он может явно задать имя начального символа в сек-

ции деклараций.

Существует два специфических вида правил, на которые

полезно обратить внимание. Во-первых, это пустое правило

вида

<имя_нетерминального_символа>: ;

определяющее пустую последовательность символов. Сочетание

пустого правила с другими правилами, определяющими тот же

нетерминальный символ, является одним из способов указать на

необязательность вхождения соответствующей конструкции.

Например, совокупность правил

- 10 -

целое_число:знак целое_без_знака;

знак: | '+'|'-';

определяет возможность задания целых чисел со знаком и без

него. Другой способ описать эту возможность состоит в зада-

нии следующей группы правил:

целое_число:знак целое_без_знака |

целое_без_знака ;

знак: '+'|'-';

С пустым правилом может быть обычным образом связано

действие:

ИМЯ: {тело_действия} ;

Во-вторых, правила часто описывают некоторую конструкцию

рекурсивно, т.е. правая часть может рекурсивно включать

определяемый нетерминальный символ. Различают леворекурсив-

ные правила вида:

<имя_нетерминала>:<имя_нетерминала>

<многократно_повторяемый_фрагмент>;

и праворекурсивные вида

<имя_нетерминала>:

<многократно_повторяемый_фрагмент>

<имя_нетерминала>;

yacc допускает оба вида рекурсивных правил, однако при

использовании правил с правой рекурсией объем анализатора

увеличивается, а во время разбора возможно переполнение

внутреннего стека анализатора.

Рекурсивные правила необходимы при задании последова-

тельностей и списков. Следующие примеры иллюстрируют уни-

версальный способ описания этих конструкций:

последовательность: элемент

| последовательность элемент;

список: элемент|список ',' элемент;

- 11 -

Заметим, что в каждом из этих случаев первое правило (не

содержащее рекурсии) будет применено только для первого эле-

мента, а второе (рекурсивное) - для всех последующих. Нетер-

минальные символы, связанные с последовательностями или

списками разнородных элементов, могут описываться произволь-

ным числом рекурсивных и нерекурсивных правил. Например,

группа правил

идентификатор: буква |

'$' |

идентификатор буква|

идентификатор цифра|

идентификатор '_' ;

описывает идентификатор как последовательность букв, цифр и

символов "_", начинающуюся с буквы или символа "$". Следует

обратить внимание на то, что рекурсивные правила не имеют

смысла, если для определяемого ими нетерминала не задано ни

одного правила без рекурсии. Для обеспечения возможности

задания пустых списков или последовательностей в качестве

нерекурсивного правила используется пустое:

последовательность :

| последовательность элемент ;

Сочетание пустых и рекурсивных правил является удобным

способом представления грамматик и ведет к большей их общ-

ности, однако,некорректное использование пустых правил может

вызывать конфликтные ситуации (раздел 5) из-за неоднознач-

ности выбора нетерминала, соответствующего пустой последова-

тельности.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]