§ 4. Формальные грамматики

Вернемся к описанию языков. Считается, что предложениями языков могут быть любые конструкции, описанные в предыдущем параграфе. Уже одним этим расширяется понятие языка. Как уже сказано, синтаксис языка не должен зависеть от его семантики. Термин «предложение» сохраним и для формальных языков. Мы не накладываем запретов ни на какие формы синтаксиса, но для того чтобы всегда быть уверенными в том, что мы располагаем именно формальным языком, потребуем, чтобы существовала (т. е. могла бы быть построена) формальная грамматика, имеющая определенную каноническую форму. Американский лингвист А. Хомский предложил следующую форму грамматики. Для описания синтаксиса языка-объекта задается алфавит букв этого языка, затем алфавит вспомогательных символов, называемых нетерминальными (буквы первого алфавита при этом называют терминальными символами), затем — конечный набор синтаксических правил и, наконец, однобуквенное слово, образованное из нетерминального символа. Условно это передают в виде обозначения (А, С, R, σ), где А — алфавит языка-объекта, С — нетерминальный алфавит, R — набор правил, σ — указанная выше нетерминальная буква.

Каждое правило в грамматике Хомского имеет вид подстановки Р → Q, в которой Р и Q — слова в алфавите АС (получающемся соединением алфавитов А и С). Подстановки, применяемые А. Хомским, не являются марковскими подстановками (см. § 3 гл. 4) и вообще не являются однозначными операциями преобразования конструкций. Объектом преобразования для таких подстановок могут быть только слова, но применение подстановки допускает произвол. Если преобразуемое слово имеет несколько вхождений слова Р, то подстановка допускает замену любого из этих вхождений правой частью формулы.

Так как, вообще говоря, число вхождений Р в разные слова неограниченно, то можно считать, что каждая подстановка представляет собой бесконечное множество операций замены словом Q: 1) первого вхождения P; 2) второго вхождения Р; ...; п) п-го вхождея P и т.д.Выполнение подстановки заключается в выполнении произвольной операции из перечисленных. Однако подстановку можно рассматривать и как конечное множество определенных операций, выполняемых в различных сочетаниях. Дальнейшее изучение подстановок мы производить не станем, поскольку эта проблема для нас особого интереса не представляет. Разъясним только способ порождения формального языка с помощью грамматики Хомского. Предложение языка получим, если применим к однобуквенному слову σ одну из подстановок. Если результат не содержит нетерминальных символов, предложение языка уже получено; если же содержит, то применяем опять одну из подстановок, и т.д. Говорят, что предложение языка выводится из начального слова σ с помощью правил, входящих в состав R, - набора синтаксических правил грамматики Хомского. Аналогично выводится другое предложение и т.д. Грамматики Хомского нас не удовлетворяют по друм причинам. Во-первых, их возможности слишком ограничены, так как с их помощью можно построить только язык, предложениями которого являются слова. Во-вторых, способ порождения языка, избранный Хомским, является слишком искусственным и для нас непривычным. Ни одна знакомая нам грамматика ни одного из естественных языков не имеет вида грамматики Хомского. Обычно предложения языка строят из более простых конструкций и в конце концов все предложения получаются из некоторых элементарных конструкций, называемых морфемами. Остановимся и мы на такой форме порождающих грамматик.

Предположим, что заданы алфавиты букв и связей и знак оболочек, из которых будут построены предложения языка-объекта, т.е. считаем, что известен класс (A, B, Σ) конструкций, с которыми нам придется иметь дело при построении языка. Далее, допустим, что задано конечное число простейших конструкций, множество которых назовем базой языка и обозначим буквой Б. Элементы этого множества называются морфемами. Предположим, что задан алфавит С символов, с помощью которых записываются синтаксические правила. Эти правила у нас всегда будут иметь вид цепочек из символов, т.е. слов. Поэтому специально оговаривать наличие алфавита связей, нужного для записи правил, мы не станем. Алфавит С должен содержать символы четырех видов, попарно различные между собой и не совпадающие с символами, участвующими в конструкциях класса (A, В, Σ). Символы первого вида применяются как индивидуальные имена морфем. Символы второго вида будем применять в качестве групповых имен получаемых конструкций. Символы третьего вида играют роль функциональных знаков и являются именами операций. Наконец, символы четвертого вида играют вспомогательную роль: это скобки, запятые, знаки равенства и знаки «точка с запятой» или заменяющие их символы.

Каждое синтаксическое правило будет иметь либо вид

где η — имя морфемы, ξ — групповое имя, либо вид

где ξ — групповое имя, ξ₁,ξ₂, …, ξ_r —- групповые имена или имена морфем, f — функциональный знак, r — ранг операции, именем которой является f.

Рангом операции называется число величин, которые участвуют в качестве исходных данных при выполнении операции. Например, среди известных нам операций lg x — операция первого ранга, sin х и — тоже; х + у и х : у — операции второго ранга. Можно считать, что выражение x+y*z задает некоторую операцию третьего ранга.

Будем считать, что грамматика задана, если заданы все перечисленные алфавиты, база языка и набор синтаксических правил описанного вида, а также выделено одно из групповых имен (буква), играющее роль группового имени всех конструкций, являющихся предложениями языка. Такую грамматику будем называть индуктивной порождающей грамматикой, в отличие от грамматик, подобных грамматикам Хомского, в которых предложения языка выводятся из слова о и которые поэтому можно назвать дедуктивными.

Итак, индуктивная грамматика задана, если указан класс конструкций (А, В, Σ), подмножеством которого является определяемый язык, база Б языка, являющаяся конечным подмножеством этого класса, алфавит С для записи синтаксических правил, набор R синтаксических правил и буква σ, являющаяся групповым именем предложений языка.

Порождение предложений языка осуществляют так: выбирают несколько формул, в правых частях которых стоят имена морфем. С помощью этих правил придают значение некоторым групповым именам (стоящим в указанных формулах слева от знака равенства). Затем произвольно выбирают формулы, для которых групповые имена, стоящие в правых частях, уже имеют значения; над этими значениями выполняют операции, указанные в формулах; процесс продолжают до тех пор, пока в левой части применяемой формулы не окажется буква σ. Полученная при этом конструкция, являющаяся значением имени σ, является одним из предложений языка. Процесс может на этом закончиться (если мы того желаем) или продолжиться далее, если имеется правило, в правой части которого присутствует буква σ. Тогда он будет продолжаться до тех пор, пока в левой части применяемой формулы не встретится снова символ σ, и т. д.

Если для какого-либо языка построена некоторая порождающая грамматика индуктивного типа, то будем говорить, что данный язык (без учета семантики) является формальным. В теории формальных языков доказана следующая теорема.

Теорема. Любой язык, порождаемый грамматикой Хомского, является формальным языком (без учета семантики), т. е. для такого языка всегда можно построить индуктивную порождающую грамматику.

Интересно отметить следующую теорему.

Теорема. Конечное множество различных между собой предложений естественного языка является формальным языком (без учета семантики), т. е. для него можно построить грамматику индуктивного типа.

Доказательство этой теоремы очень просто, а ее результат имеет большое практическое значение. Приведем это доказательство. Предположим, что нам задано конечное множество предложений естественного языка, например, в виде списка. Пусть это будут Р₁, Р₂, … , P_N. Просматривая эти предложения, мы можем отобрать все буквы, присутствующие в них; в число букв в общем случае попадут и знаки препинания, и пробелы. Перечень этих букв будет искомым алфавитом А. Связи следования составят алфавит В. Алфавит С образуем из букв «;», «=», «а» и всех символов Р₁, Р₂, … , P_N (считаем, что они отличаются от букв в А, друг от друга и от букв «;», «=», «а»). Теперь напишем N синтаксических правил:

σ = Р₁; σ = Р₂; …; σ = P_N.

Базой считаем совокупность предложений, обозначенных символами P_i. Читатель видит, что индуктивная грамматика построена и, следовательно, конечное множество предложений естественного языка является формальным языком (без учета семантики).

Прием построения формального языка путем составления перечня предложений является простейшим случаем так называемой формализации естественного языка. При.! этом, отбирая предложения, необходимо следить за тем, чтобы каждое из них обладало единственным смыслом; мы, получим формальный язык, наделенный семантикой.

Обратим внимание на сам способ задания языка, примененный в данном случае: язык представлен в виде перечня предложений, оформленных как список. Такой список является частным случаем таблицы. Возможны более сложные таблицы, задающие формальные языки. Об одной из них — тезаурусе — мы расскажем в следующем параграфе.

Мы познакомились с табличной формой задания формального языка. Табличная форма с успехом используется для построения формальных языков, применяемых при описании исходных данных многих задач, решаемых на ЭВМ (в тех случаях, когда эти исходные данные не являются числами).

<<< < Предыдущая 21 22 23 24 25 26 27 28 29 30 31 3233 / 5133 34 35 36 37 38 39 40 41 42 43 44 45 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.08.20192.18 Mб12аккумуляторы.rtf
#
01.03.2025110.08 Кб1Аксёнова.doc
#
01.07.2025801.74 Кб3АКТИВИЗАЦИЯ ЛИЧНОСТНОГО РАЗВИТИЯ ПОДРОСТКОВ КАК МЕТОД ЛАТЕНТНОЙ ПРОФИЛАКТИКИ ОТКЛОНЯЮЩЕГОСЯ ПОВЕДЕНИЯ ПОДРОСТКОВ .docx
#
19.11.2019171.01 Кб6Акцентуации личности.doc
#
17.03.201525.38 Кб82Акция и инвестиционный пай.docx
#
01.05.202513.11 Mб1Алгоритмы вокруг нас.doc
#
01.05.2025388.61 Кб1Альбом наглядных пособий МСА (Новикова).doc
#
10.07.201955.81 Кб7Анализ по Адлеру.doc
#
01.07.2025146.11 Кб1Анархические статьи, 11-17, брошюра.docx
#
17.03.201523.64 Кб40Анкета для волонтёров.docx
#
17.03.201546.08 Кб14Анкеты.doc