
- •Формальные языки и грамматики Введение
- •1. Предварительные обсуждения
- •2. Формальные грамматики
- •3. Классификация формальных грамматик
- •4. Система составляющих
- •5. Синтаксические диаграммы
- •6. Синтаксическое дерево
- •7. Алгоритмы обхода вершин дерева разбора.
- •7.1 Алгоритм обхода "сверху-вниз".
- •7.2 Алгоритм обхода "снизу-вверх".
- •8. Двоичное дерево
- •9. Свойства двоичного дерева
- •10. Грамматический разбор цепочек
- •10.1. Разбор цепочки "сверху-вниз".
- •10.2. Разбор цепочки "снизу-вверх".
- •11. Операции над языками
- •Заключение
- •Контрольные вопросы и задачи
- •Индивидуальное задание
- •Указатель обозначений
- •Предметный указатель
- •Список литературы
- •1. Предварительные обсуждения.................................................... 4
3. Классификация формальных грамматик
Множество формальных грамматик можно разложить на классы в зависимости от ограничений, накладываемых на продукции. Такие ограничения формируют особые свойства грамматик и особые методы анализа и синтеза цепочек символов. Общепринятой классификацией грамматик и порождаемых ими языков является иерархия грамматик Хомского, содержащая четыре типа грамматик.
Грамматика типа 0- грамматика произвольного типа без каких-либо ограничений на цепочки символов. Продукции этой грамматики имеют вид:
. ( 11 )
В обеих частях продукции могут быть в произвольном порядке и любом количестве терминальные и нетерминальные символы, т.е. V*Такой тип грамматики порождает множество перечислимых языков, для которых существует перечисляющий алгоритм. Такой алгоритм может быть реализован на машине Тьюринга, являющейся классической моделью рекурсивной функции. Поэтому такие языки называют также рекурсивно-перечислимыми. Однако такой тип грамматики не нашел применения в языках программирования.
Пример 6. Пусть дана грамматика G1 = VT; VN; P; J , где
VT = { a; b } ; VN = { A;B;C;J };
P = { р1 : J ::= AbBb ; р2 : Ab ::= Bba ;
р3 : Bb ::= Cba ; р4 : Cb ::= ba }.
Какие цепочки терминальных символов формирует грамматика?
К цепочке символов AbBb, заданной начальным символом J, можно применить два правила (Ab ::= Bba и Bb ::= Cba) и организовать два вывода: левосторонний и правосторонний.
Левосторонний вывод:
J => AbBb => BbaBb => CbaaBb => baaaBb =>baaaCba => baaabaa;
Правосторонний вывод:
J => AbBb => AbCba => Abbaa => Bbabaa => Cbaabaa => baaabaa.
Грамматика G1 вне зависимости от направления вывода формирует для заданной начальной цепочки AbBb единственную цепочку терминальных символов языка L(G1):
L(G1) = { ba3ba2 }.
Пример 7. Пусть дана грамматика G2 = VT; VN; P; J , где
VT = { a; b } ; VN = { A;B;C;J };
P = { р1 : J ::= AbBb; р2 : J ::= AbJBb; р3 : Ab ::= Bba;
р4 : Bb ::= Cba; р5 : Cb ::= ba } .
Какие цепочки терминальных символов формирует грамматика ?
В этом пример добавлено одно правило J ::= AbJBb,которое существенно расширяет множество выводимых терминальных цепочек языка L(G2).Рассмотрим только левосторонний вывод:
J =>AbBb =>BbaBb =>CbaaBb =>baaaBb =>baaaCba = ( ba3)(ba2);
J =>AbJBb => BbaJBb => CbaaJBb => baaaJBb =>baaaAbBbBb => baaaBbaBbBb => baaaCbaaBbBb => baaabaaaBbBb => baaabaaaCbaBb =>
baaabaaabaaBb => baaabaaabaaCba => baaabaaabaabaa = (ba3)2(ba2)2;
J =>AbJBb => BbaJBb => CbaaJBb => baaaJBb => baaaAbJBb => baaaBbaJBb =>...=> baaabaaabaaabaabaabaa = (ba3)3(ba2)3; и т.д.
Грамматика G2 формирует множество цепочек, используя процедуру итерации:
L(G2) = { (ba3)i (ba2)i | i = 1;2;3;... }.
Пример 8. Пусть дана грамматика G3 = VT; VN; P; J , где
VT = { a; b } ; VN = { A;J } ;
P = { р1 : J ::= JAa | b; р2 : aA ::= Aa ; р3 : bA ::= ab }
Какие цепочки терминальных символов формирует грамматика ?
Используем также левосторонний вывод терминальных цепочек:
J => b;
J => JAa => bAa => aba;
J => JAa => JAaAa => bAaAa => abaAa => abAaa => aabaa = a2ba2;
J => JAa => JAaAa =>JAaAaAa => ... => aaabaaa = a3ba3; и т.д.
Грамматика G3 формирует множество цепочек, также используя процедуру итерации:
L(G3) = { aibai | i = 0;1;2;3;... }.
Грамматика типа 1. - это контекстно-зависимая грамматика или грамматика непосредственных составляющих (НС-грамматика). Второе название грамматики объясняется тем, что любую цепочку можно разложить на синтаксические составляющие (члены предложения естественного языка) и выполнить разбор каждой синтаксической переменной (части речи естественного языка) в составе синтаксической составляющей. В естественных языках для этого проводят грамматической разбор структуры предложения. В языках программирования - грамматический разбор структуры программы, что всегда необходимо при трансляции исходной программы на язык вычислительной машины.
Продукции этой грамматики имеют вид:
1212 , ( 12 )
где VN ;
1, 2, V*,
1 левый контекст,
2 правый контекст.
Каждый шаг вывода состоит в замене одного вхождения нетерминального символа вхождением цепочки терминальных и/или нетерминальных символов. Эта замена обусловлена наличием левого и правого контекстов.
Для НС-грамматики существенным является исполнение условия:
1212 13 )
где ... означает длину цепочки символов, заключенных между вертикальными линиями.
Это требует исполнения в каждом правиле второго условия:
. ( 14 )
Грамматики, в которых все правила обладают этими свойствами называют неукорачивающими.
Множество языков НС-грамматики является собственным подмножеством языков грамматики типа 0.
Для НС-грамматики возможны случаи:
1) 11когда 2 ;
2) 22 , когда 1 .
Для НС-грамматик также допустим лево- и правосторонний вывод, когда продукции грамматики применяются к самому левому или самому правому нетерминальному символу анализируемой цепочки.
Пример 9. Пусть дана грамматика G4 = VT; VN; P; J , где
VT = { a; b } ; VN = { A;B;C;D;J } ;
P = { р1 : J ::= ABA; р2 : B ::= ABCA | b; р3 : bC ::= bb;
р4 : AC ::= DC; р5 : DC ::= DA; р6 : DA ::= CA; р7 : A ::= a }.
Какие цепочки терминальных символов формирует грамматика ?
Применим левосторонний вывод терминальной цепочки:
J ABA aBA abA aba;
aABCAA aaBCAA aabCAA aabbAA
aaABCACAA aabbaA
aaaBCACAA aaabCACAA aabbaa = a2b2a2;
aaaABCACACAAaaabbACAA
aaabbDCAA
aaabbDAAA
aaabbCAAA
aaabbbAAA
aaabbbaAA
aaabbbaaA
aaabbbaaa = a3b3a3
Грамматика G4 формирует цепочки терминальных символов :
L(G4) = { aibiai| i= 1;2;3;... }.
Пример 10. Пусть дана грамматика G5 = VT; VN; P; J , где
VT = { a; b; c} ; VN = {B; C; J } ;
P = { р1 : J ::= aJBC | aBC; р2 : CB ::= DB;
р3 : DB ::= DC; р4 : DC ;;= BC; р15 : aB ::= ab;
р6 : bB ::= bb; р7 : bC ::= bc; р8 : cC ::= cc }.
Какие цепочки терминальных символов формирует грамматика ?
В каждом правиле есть либо левый, либо правый контексты.
Используем также левосторонний вывод терминальных цепочек:
J => aBC => abC => abc;
J => aJBC => aaBCBC => aabCBC =aabDBC => aabDCC => aabBCC => aabbCC => aabbcC => aabbcc = a2b2c2;
J => aJBC => aaJBCBC => ... => aaabbbccc = a3b3c3 и т.д.
Грамматика G5 формирует цепочки терминальных символов, используя операцию итерации:
L(G5) = { aibici | i = 1;2;3;... }.
Если сравнить результаты использования грамматик G4 и G5, то можно отметить одинаковость порождаемых ими цепочек. Это позволяет ввести отношение эквиваленции на множестве грамматик .
Грамматика типа 2 - это контекстно-свободная грамматика (КС-грамматика). Правила этой грамматики не зависят от контекста, т.е. в левой части каждого правила находится только один нетерминальный символ, а в правой части цепочка терминальных и/или нетерминальных символов.
Продукции этой грамматики имеют вид:
A ::= , ( 15 )
где V*
Каждый шаг вывода связан с заменой в цепочке одного нетерминального символа на цепочку терминальных и/или нетерминальных символов.
Множество КС-языков при выполнении условий 1 , 2 и является подмножеством НС-языков.
КС-грамматики наиболее эффективно описывают состав и структуру формального языка. Поэтому они нашли применение в большинстве языков программирования. Для унификации языков программирования были разработаны метаязыковые средства описания синтаксических конструкций. Особое место среди этих средств занимают формулы Бэкуса-Наура (БНФ). Основные правила и условные обозначения приведены в 1.
Для КС-грамматик также удобен фиксированный способ вывода (лево- или правосторонний ).
Пример 11. Пусть дана грамматика G6 = VT; VN; P; J ,
где VT = { буква; цифра} ; VN = {A; B; J } ;
P = { р1 : J ::= JA | JB | A;
р2 : A ::= буква;
р3 : B ::= цифра }.
Какие цепочки терминальных символов формирует грамматики?
Для удобства доказательства сохраним левосторонний вывод:
J => A => буква;
J => JA => AA => буква буква;
J => JB => AB => буква цифра;
J => JA => JAA => AAA => ... => буква буква буква;
J => JA => JBA => ABA => ... => буква цифра буква;
J => JB => JAB => AAB => ...=> буква буква цифра;
J => JB => JBB => ABB => ...=> буква цифра цифра и т.д.
Грамматика G6 формирует следующие цепочки терминальных символов:
L(G6) = { буква { буква | цифра } }.
Такова грамматика для формирования идентификаторов большинства языков программирования.
Пример 12. Пусть дана грамматика G7 = VT; VN; P; J ,
где VT = { a; b } ; VN = { J } ;
P = { р1 : J ::= aJb | ab }.
Какие цепочки терминальных символов формирует грамматика ?
Сохраним левосторонний вывод:
J => ab;
J => aJb =>aabb = a2b2;
J => aaJbb => aaabbb = a3b3 и т.д.
Грамматика G7 формирует цепочки терминальных символов, используя операцию итерации:
L(G7) = { aibi| i= 1;2;3;... }.
Пример 13. Пусть дана грамматика G8 = VT; VN; P; J ,
где VT = { x; y; &; ; ; (; ) } ; VN = { J } ;
P = { J ::= ( J & J ) | ( J J ) | J | x | y } .
Какие цепочки терминальных символов формирует грамматика ?
Используя приемы лево - или правостороннего вывода, получим цепочки терминальных символов
J => J => x ; J => J => y ;
J => ( J J ) => ... => ( x y ); J => ( J J ) => ... => ( x y );
J => ( J & J ) => ... => ( x & y ); J => ( J & J ) => ...=> ( x & y );
J => ( J J ) => .. =>( x y );
J => ( J & J ) => ... => ( x & y ) и т.д.
Грамматика G8 представляет любые формулы булевой алгебры,т.е.
L( G8 ) ={ x; y; x; y; (x y); ( x y); (x & y);(x y); (x & y); ...}.
Пример 14. Пусть дана грамматика G9 = VT; VN; P; J ,
где VT = { a; b;+; ;/ ; ( ; ) } ; VN = { J; T; M; S1;S2;S3;K } ;
P = {p1: J ::= T | J S1 T; p2 : T ::= M | TS2M; p3 : M ::= K |S31J S32;
p4 : S1::= "+" | "-"; p5 : S2::= "" | "/"; p61 : S31::= "(";
р62 : S32::= ")"; p7 : K ::= "a" | "b" }.
Примечание: все правила индексированы для нужд параграфа 9.
Какие цепочки терминальных символов формирует грамматика ?
Применим левосторонний вывод терминальной цепочки:
J => T => M => K => a; J => T => M => K => b;
J => J S1T =>T S1T =>MS1T =>KS1T =>aS1T => a + T => a + M => a + K => a + b;
J => T => TS2M => MS2M => KS2M => aS2M => a M => a K => a b;
J => T => M => S31 JS2 => ( J S32 => ( JS1TS32 =>( TS1TS32=>( TS2 MS1T S32 => ( MS2 MS1T S32=> ( KS2 MS1T S32=> ( aS2 MS1T S32 =>( a / MS1TS32=> ( a / K S1T S32 =>( a / aS1TS32=>( a / a S32=>( a / a S32 =>( a/a KS32 => ( a / a b S32 => ( a / a b ) ;
J =>...
Грамматика G9 представляет любые арифметические выражения, т.е. L(G9) = { a; b; a+b; a-b; ab; a/b; ... }.
Грамматика типа 3 - это линейная грамматика, правила которой содержат в правой части не более одного нетерминального символа.
Продукции этой грамматики имеют вид:
A ::= 1B2 или A ::= ( 16 )
где 1, 2, V*\VN.
Продукция линейной грамматики называется праволинейной (леволинейной), если единственный нетерминальный символ в правой части продукции всегда находится крайним справа (слева).
Например, А ::= 1B - праволинейная продукция,
A ::= B2 - леволинейная продукция.
Если все продукции грамматики праволинейные или леволинейные, то грамматика также называется праволинейной или леволинейной. Каждой праволинейной грамматике соответствует эквивалентная ей леволинейная грамматика. В зависимости от типа грамматики различают праволинейные и леволинейные языки.
Языки линейной грамматики представляют собственное подмножество множества КС-языков.
Cуществует тесная связь между линейными грамматиками и конечными автоматами. Каждому состоянию конечного автомата соответствует нетерминальный символ линейной грамматики, а каждому символу входного алфавита конечного автомата - терминальный символ линейной грамматики. Каждой незаключительной продукции вида A ::= 1B2 соответствует переход автомата из одного состояния в другое, а каждой заключительной продукции вида A ::= окончание работы. Цепочка терминальных символов на входе автомата считывается посимвольно и последовательно переводит его в заключительное состояние. В связи с этим используют и другое название линейной грамматики - автоматная грамматика.
Автоматную грамматику называют регулярной, если она удовлетворяет условиям функционирования детерминированного конечного автомата:
1) из каждой вершины графа для каждого терминального символа исходит только одна дуга (условие однозначности);
2) из каждой вершины графа исходит количество дуг равное числу символов входного алфавита (условие полноты);
3) каждая вершина графа достижима из начальной вершины (условие связности).
Пример 15. Пусть дана грамматика G10 = VT; VN; P; J
где VT = {a; b; c } ; VN = { A; B; J; } ;
P = { р1 : J ::= Bb; р2 : A ::= Aa | a; р3 : B ::= Bb | Aac | ac }.
Какие цепочки терминальных символов формирует грамматика ?
Можно отметить, что все правила этой грамматики -леволинейные. Проведем левосторонний вывод терминальных цепочек:
J Bb acb
Aacb aacb
acbb Bbb
aacbb Aacbb Aaacb aaacb
aaacbb Aaacb
Bbbb acbbb
Грамматика G10 формирует цепочки вида:
L( G10 ) = { aicbj | i,j = 1;2;3;... }.
Пример 16. Пусть дана грамматика G11 = VT; VN; P; J ,
где VT = {a; b; c } ; VN = { A; B; J; } ;
P = { р1 : J ::= aA | acB; р2 : A ::= aA | acB; р3 : B ::=b | bB }.
Какие цепочки терминальных символов формирует грамматика ?
Все правила этой грамматики -праволинейные. Поэтому удобно выполнить правосторонний вывод терминальных цепочек:
J acB acb
aacb aacB aA acbB acbb
acbb aacbB acbbB acbbb
aacbbb aacbbB ...
aaA ...
...
...
Грамматика G11 формирует цепочки вида:
L( G11 ) = { aicbj | i,j = 1;2;3;... }.
Сравнение результатов в примерах 15 и 16 показывает, что грамматики G10 и G11 формируют один и тот же язык. Следовательно, леволинейная грамматика G10 эквивалентна праволинейной грамматике G11.
Пример 17. Пусть дана грамматика G12 = VT; VN; P; J ,
где VT = {a; b; c } ; VN = { A; B; J; } ;
P = { р1 : J ::= aA; р2 : A ::= aA |cB; р3 : B ::= b | bB }.
Какие цепочки терминальных символов формирует грамматика ?
В данном примере правила также праволинейные. Применим правосторонний вывод:
J aA acB acb
aacbaacB aaA acbB acbb
aacbb aacbB acbbB acbbb
aacbbb aacbbB ...
aaaA aaacB aaacb
...
... ...
Грамматика G12 формирует цепочки вида:
L( G12 ) = { aicbj | i,j = 1;2;3;... }.
Сравнение результатов в примерах 16 и 17 показывает, что грамматики G11 и G12 являются праволинейными и формируют один и тот же язык. Это свидетельствует об эквивалентности грамматик G11 иG12.