Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Тимофеева, УМК_Математ. методы в филологии

.pdf
Скачиваний:
62
Добавлен:
28.03.2016
Размер:
5.43 Mб
Скачать

В отличие от современной логики, в аристотелевской логике предполагалось, что оба термина непусты, то есть существует хотя бы один предмет, обладающий свойством S, и существует хотя бы один предмет, обладающий свойством Р.

Названные выше четыре вида суждений принято изображать в виде логического квадрата (см. рисунок ниже). Предполагается, что у всех суждений, указанных на этом квадрате, малые и большие термины одни и те же.

Суждения, расположенные по диагонали этого квадрата (А и О, Е и I) контрадикторны друг другу, то есть образуют противоречие. Ложность одного из них (например, А) означает истинность второго (О). Иначе говоря, они не могут быть ни одновременно истинными, ни одновременно ложными. Поэтому отрицать суждение типа А означает утверждать суждение типа О. Например, если А – это высказывание Все тигры полосатые (тип А), то отрицание высказывания А (Неверно, что все тигры полосатые) равносильно вы-

сказыванию Некоторые тигры не являются полосатыми (тип О).

Суждения, расположенные на одной и той же горизонтальное грани квадрата (А и Е, О и I) противопоставлены друг другу, но в общем случае не образуют противоречие. Суждения А и Е не могут быть одновременно истинны, но истинность одного из них не означает ложность другого. Возможна ситуация, когда оба они ложны. Например, высказывания

Все коты полосатые (тип А) и Ни один кот не полосат (тип Е) оба ложны. Суждения О и

I могут быть одновременно истинными, но не могут быть одновременно ложными. На-

пример, высказывания Некоторые коты полосаты (тип О) и Некоторые коты не являются полосатыми (тип I) оба истинны.

Из истинности суждения типа А следует истинность суждения типа О, а из ложности О следует, что и суждение типа А также ложно. Например, из истинности высказывания Все коты полосаты следует, истинность высказывания Некоторые коты полосаты. Вместе с тем, из ложности суждения Некоторые слоны полосаты следует, что и суждение Все сло-

ны полосаты также ложно.

Из сказанного, в частности, следуют соотношения:

если

x F(x) истинно, то x F (x) также истинно;

если

x F(x) ложно, то x F (x) также ложно;

если

x F(x) истинно, то x

F (x) ложно;

если

x

F (x) истинно, то

x F(x) ложно;

если

x

F(x) истинно, то

x F (x) ложно;

если x F (x) истинно, то x F(x) ложно

Литература по Модулю 2.

1.Бах Э. Неформальные лекции по формальной семантике. М.: Книжный дом «ЛИБ-

РОКОМ», 2010. 224 с.

2.Гладкий А.В. Введение в современную логику: Учебное пособие. Изд. 2-е, испр. М.: Книжный дом «ЛИБРОКОМ», 2009. 240 с.

3.Рассел Б. Философия логического атомизма. Томск: Издательство «Водолей», 1999. 192 с.

4.Тимофеева М.К. Язык с позиций философии, психологии, математики. Новосибирск, НГУ, 2007. (М.: Флинта, Наука, 2010)

5.Челпанов Г.И. Учебник логики. М.: Книжный дом «ЛИБРОКОМ», 2010. 264 с.

6.Фреге Г. Смысл и денотат. Понятие и вещь // Семиотика и информатика. Вып. 35, 1997. С. 351-396. (Или другие издания тех же статей Г. Фреге.)

Модуль 3. Формальные грамматики

Тема 3.1. Формальные грамматики как средство описания синтаксиса языка

Термин «формальные грамматики», прежде всего, ассоциируется с именем американского лингвиста Ноэма Хомского, хотя некоторые типы формальных грамматик (например, категориальные грамматики) были предложены другими авторами до появления первых работ Н.Хомского. Сам Хомский истоки своих идей усматривал в идеях философоврационалистов XVII в. В 1955 г. он защитил диссертацию, в которой ввѐл метод, названный им «трансформационным анализом», в 1957 г. вышла его работа Синтаксические структуры (Syntactic Structures)2, оказавшая очень большое (можно сказать, революционное) влияние на лингвистику и, как считается, положившая начало математической лингвистике. В этой работе предложена идея «трансформационной грамматики».

Возможны сомнения относительно того, кому принадлежит приоритет в отношении данной идеи – Хомскому (как это обычно считается) или же его учителю, другому американскому лингвисту Зеллигу Харрису. Оставив разрешение этого этического вопроса на долю историков науки, посмотрим, в чѐм суть идей Хомского и Харриса, заметив лишь, что термин «трансформационная грамматика» впервые был введѐн не Хомским, а Харрисом. Понимался этот термин ими по-разному.

Грамматика Харриса. Во множестве всех правильных предложений рассматриваемого языка выделяются два подмножества – ядерные предложения (kernel sentences) и неядерные предложения (nonkernel sentences). Множество ядерных предложений называется ядром грамматики. Неядерные предложения выводятся из ядерных посредством трансформационных правил. Например, ядерное предложение: Собака грызѐт кость – может быть трансформировано в неядерные предложения (трансформы): Кость грызома собакой, Грызѐт ли собака кость? и т. д. Трансформационное отношение между активным и пассивным вариантами предложения можно описать, например, таким правилом:

2 Перевод этой статьи: Хомский Н. Синтаксические структуры // Новое в лингвистике. М., 1962. Вып. 2.

N1-а V-ѐт N2-ь → N2-ь V-ома N1-ой3. Это правило реорганизует составляющие и добавляет элементы в конкретные позиции. Существуют и правила, выбрасывающие составляющие, например, N2-ь V-ома N1-ой → N2-ь V-ома.

Грамматика Хомского. Трансформационная грамматика Хомского, описанная им в работе «Синтаксические структуры»4, базируется на трансформационной грамматике Харриса, но отличается от неѐ в ряде отношений. В еѐ составе выделяется три компонента: структура непосредственно составляющих (НС-компонент), трансформационный компонент, морфофонематический компонент. Каждый компонент состоит из множества правил. НС-компонент задаѐт базовые способы построения текстов, результат его работы – структура (phrase marker), определяющая синтаксическое устройства правильно сконструированного текста. Трансформационный компонент позволяет получать по заданным базовым структурам производные, результат его работы – тоже структура, получающаяся из некоторой НС-структуры посредством трансформационных правил.

Важное различие между трансформационными грамматиками Харриса и Хомского состоит в следующем. Первая преобразует один (считающийся более типичным) правильный текст рассматриваемого языка в другой (считающийся менее типичным). Вторая оперирует не с реальными текстами, а со структурами, лежащими (как предполагается) в основе текстов. Поэтому даже простейшие тексты («ядерные» по терминологии Харриса) здесь требуют применения по крайней мере некоторых трансформационных правил. Например, в грамматике Харриса пассивная конструкция получалась из активной путѐм трансформации. В грамматике Хомского и пассивная, и активная конструкция, отрицание и утверждение, декларативное и вопросительное предложения должны выводиться из одного и того же выражения, содержащегося в НС-компоненте. Разница между ядерными и неядерными текстами у Хомского в другом. Первые порождаются без применения какихлибо необязательных трансформаций, вторые – с применением как обязательных, так и необязательных трансформаций.

Теория грамматик Хомского обсуждается и развивается в нескольких сферах науки: в теории алгоритмов, программировании, лингвистике, психологии, психолингвистике, философии. Порождающие грамматики широко используются, например, для задания синтаксиса формальных языков (в частности, языков программирования). Эти грамматики также являются одним из основных инструментов, используемых при компьютерном моделировании процессов языковой деятельности. Именно в этом качестве они нас и будут здесь интересовать.

Обычно говорят, что математическая модель языка, основанная на аппарате формальных грамматик, задаѐт множество правильных текстов рассматриваемого языка. Это утверждение нуждается в пояснении.

Для конструирования формальной грамматики необходимо уже иметь (предварительно) некоторое неформальное представление о том, какие тексты рассматриваемого языка являются правильными. Грамматика задаѐт формальные правила построения этих текстов (синтаксис). Правила должны быть точными – такими, чтобы их выполнение можно было поручить компьютеру. В частности, для их применения и для определения условий их применимости не должна требоваться никакая дополнительная информация помимо той, что содержится в определении правила.

Первоначальное неформальное (имеющееся до построения формальной грамматики) представление о том, какие тексты являются правильными, вообще говоря, не совсем совпадает с тем множеством текстов, которые задаѐт формальная грамматика. Эти два множества текстов лишь похожи, в большей или меньшей степени. Поэтому такие высказывания, как «формальная грамматика позволяет отличать правильные тексты некоторого языка от неправильных» или «формальная грамматика задаѐт множество правильных тек-

3Можно было бы записать правило трансформации в более общем виде, об этом речь пойдѐт дальше.

4В более поздних работах Хомского ядерные предложения не вво-дятся.

стов», являются либо неоднозначными высказываниями (если неясно, оценивается ли правильность с позиции носителя языка или с позиции сконструированной грамматики), либо ошибочными (если имеется в виду первая позиция), либо тавтологиями (если имеется в виду вторая)5. Можно сказать, что формальная грамматика задаѐт множество текстов, правильных относительно неѐ самой, т. е. относительно содержащихся в ней правил. Но лишь человек может трактовать это множество текстов как похожее на множество текстов, правильных с точки зрения носителя языка.

Рассмотрим два вида формальных грамматик: первые предназначены для моделирования процессов порождения текстов, вторые – для моделирования процессов их понимания.

Операция конкатенации (произведения) цепочек была определена в разделе 1.3.

Вместо конкатенации вида

ωω ω … ω n раз

принято писать ωn.

ω0 пустая цепочка.

Обращением или зеркальным образом (reversal) цепочки w (обозначается ŵ) называется цепочка, составленная из тех же в точности символов, что и цепочка w, но в обратном порядке, например, если w = baaca, то ŵ = acaab.

Пусть α, β, φ, ψ – цепочки в алфавите V, причѐм цепочка α содержит вхождение цепочки φ, то есть представима в виде конкатенации:

α=хφу

Операцией подстановки цепочки ψ вместо заданного вхождения цепочки φ называется замещение φ на ψ, в результате которого получается цепочка

β=хψу

Эту операцию можно изобразить так:

хφу хψу

Произвольное множество L цепочек в алфавите V называют языком в этом алфавите, L V*. В частности, язык может быть пустой (пустое множество цепочек), обозначается символом .

Как и к другим множествам, к языкам применимы операции объединения, пересечения, вычитания, дополнения (до множества V*).

Тема 3.2. Порождающие грамматики

Порождающая грамматика – математический объект, формально определяемый следующим образом.

Порождающая грамматика – это упорядоченная четвѐрка вида G=<V, W, S, R>, где V, W - непустые конечные множества, V W= ,

V – основной (терминальный) алфавит

5 Правильность текста мы можем оценивать либо относительно предварительного неформального представления о правильных текстах, либо относительно данной формальной грамматики. Если не уточнено, о какой из этих оценок идѐт речь в приведѐнных высказываниях, то они неоднозначны, если имеется в виду оценка первого типа, то они ошибочны, если оценка второго типа, то они тавтологичны.

W – вспомогательный (нетерминальный) алфавит, S – аксиома (начальный символ), S W

R – конечное множество правил вида φ ψ, где φ (V W)+, ψ (V W)*,

– символ, не содержащийся в V W,

Как видно из этого определения, φ и ψ – последовательности символов из объединѐнного алфавита V и W, причѐм ψ может не содержать ни одного символа (быть пустой цепочкой), φ всегда содержит не менее одного вспомогательного символа.

Основной (терминальный) алфавит – это множество всех тех символов, из которых могут быть составлены тексты рассматриваемого языка. Вспомогательный (нетерминальный) алфавит – это множество всех символов категорий, которые мы ввели для описания языка и которые не могут содержаться в текстах этого языка (они являются метасимволами). Тем самым множества V и W не пересекаются, т. е. не имеют ни одного общего элемента. Типы формальных грамматик различаются в зависимости от вида правил.

Применение правила φ ψ, состоит в замене некоторого выделенного вхождения цепочки φ на цепочку ψ. Такие правила часто называют переписывающими правилами.

Цепочка φ называется левой частью правила φ ψ, цепочка ψ – правой частью.

Например, рассмотрим грамматику Г, в которой нетерминальный алфавит – все заглавные буквы русского языка, терминальный – все строчные буквы русского языка. Применив одно из правил

Аифме

Ак

квхождению ар А тика, получим соответственно цепочку

ар к тика

или

ар ифме тика

Вместо термина «порождающая грамматика» используют также термины грамматика типа 0, генеративная грамматика, переписывающая грамматика (в англоязычной ли-

тературе generative grammar, rewrite grammar)

Применение правила φ ψ к некоторому вхождению =х φ у всегда оставляет неизменными те части цепочки , которые находятся слева и справа от выделенного вхождения φ (то есть цепочки х и у). Фактически в этом случае осуществляется такое преобразование хφу хψу.

В рассмотренном примере в результате применения правила А к было осуществлено преобразование цепочки ар А тика в цепочку ар к тика.

Если φ ψ - правило некоторой грамматики Г и цепочка α получается из цепочки β посредством применения данного правила, то говорят, что цепочка α непосредственно вы-

водима из β в Г.

Последовательность цепочек D=(ω0, ω1, …, ωn), где n 1, называют выводом ωn из ω0 в грамматике Г, если для каждого i (1 i n) цепочка ωi непосредственно выводима из ωi-1 в грамматике Г.

Вывод D=(ω0, ω1, …, ωn) называют полным, если ω0= S и ωn – цепочка в терминальном алфавите V.

Множество цепочек из V* (V – основной алфавит грамматики Г), выводимых из начального символа грамматики Г, называется языком, порождаемым грамматикой Г, и обозначается L(Г).

Формальная грамматика – это исчисление, то есть разрешение производить некоторые операции (подстановки одних цепочек вместо других). Такой процесс является недерми-

нированным, так как вывод из одной и той же цепочки может производиться разными способами.

Например, если грамматика Г содержит правила

аАтика арифметика,

аАтика арктика,

аАтика антарктика,

арифмВ арифмометр,

арифмВ арифметика,

то к цепочке аАтика применимы три первых правила, а к цепочке арифмВ применимы остальные два правила. Правила такого типа называют контекстными: в них указан контекст, в котором встретился заменяемый символ.

Возможны и другие виды правил, например:

арАка

арка (правая часть правила короче левой),

сТоЛ

сЛоН (перестановка символов),

СЛОВО книга (сразу несколько нетерминальных символов заменено на терминальные),

А лингвистика (в левой части правила только один нетерминальный символ, контекст не указан).

Правило, левая часть которого состоит только из одного нетерминального символа без контекста, называется контекстно-свободным.

Контекстно-свободная грамматика (КС-грамматика) - грамматика, все правила ко-

торой являются контекстно-свободными.

Грамматика непосредственно-составляющих (НС-грамматика) – грамматика, в ко-

торой левые части правил состоят из одного нетерминального символа и его контекста, причѐм правая часть правила не должна быть короче левой, например:

акНция акация,

темТ тематика (в этом правиле присутствует только левый контекст),

Тематика математика (в этом правиле указан только правый контекст).

Множество всех КС-грамматик является подмножеством множества всех НСграмматик (так как КС-грамматика – это такая НС-грамматика, в каждом правиле которой левая часть содержит пустые левый и правый контексты).

Для обозначения n правил с одинаковыми левыми частями

α → β1, . . . , α → βn

часто используют сокращѐнную запись

α → β1 | . . . | βn.

Поясним на ряде простых примеров возможности применения порождающих грамматик для моделирования синтаксиса естественного языка.

Пример 1.

Для построения порождающей грамматики, прежде всего, надо выбрать множество используемых синтаксических категорий. Единственный критерий выбора – удобство моделирования нужного фрагмента языка. Поэтому стандартного (нормативного) множества

категорий нет. Однако очень часто в это множество включают следующие символические названия традиционных для лингвистики категорий: S, NP, VP, PrP, N, V, Adj, Adv, Рr, Det, где S предложение; NP – именная группа; VP – глагольная группа; PrP – предложная группа; N – существительное; V – глагол; Adj – прилагательное; Adv – наречие; Рr– предлог; Det – артикль. Предполагается, что в рассматриваемых текстах моделируемого языка (в нашем случае – русского) ни одно из этих названий не встречается. Состав вспомогательного словаря в данном случае таков:

W = {S, NP, VP, PrP, N, V, Adj, Adv, Рr, Det}.

Следующий шаг при построении порождающей грамматики – задание правил. Здесь обычно рассуждают следующим образом.

Как может быть конкретизировано самое общее представление о порождаемом предложении (т. е. самая общая категория S)? Один из вариантов можно получить посредством применения правила вида

(i) S N + V.

Иначе говоря, предложение S может представлять собой сочетание существительного и глагола, т. е. N и V (для отделения категорий друг от друга при формулировке правил обычно используют знак «+» или пробел, предполагается, что этот символ не содержится ни в основном, ни во вспомогательном алфавите). Любое правило порождающей грамматики трактуется как правило переписывания: вместо символов, расположенных слева от стрелки, можно написать символы, расположенные справа от неѐ.

Добавим к нашей грамматике ещѐ два правила:

(ii)N снег;

(iii)Vидѐт.

Введѐнные три правила задают процесс порождения единственного (для данной грамматики) текста русского языка. Этот процесс порождения можно описать посредством приведѐнной ниже таблицы:

Шаги порож-

Комментарии

дения текста

 

1.

S

Имеющееся у нас первоначально самое общее

 

 

представление о будущем предложении

2.

N + V

Результат применения правила (i) к S

3.

снег идѐт

Результат применения правила (ii) к N и правила

 

 

(iii) к V

 

 

 

Работа грамматики заканчивается тогда, когда в результате последовательного применения правил получается текст, не содержащий вспомогательных символов. К такому тексту никакие правила уже не применимы.

Если есть несколько правил с одной и той же левой частью, то (по своей применимости) они все равноправны. Например, если мы добавим правило

(iv) N дождь,

то на третьем шаге можно будет применять и правило (ii), и правило (iv), а множество текстов русского языка, порождаемых грамматикой, будет включать два текста: снег идѐт,

дождь идѐт.

Добавление к построенной грамматике ещѐ четырѐх правил:

N Adj + N;

Adj сильный; Adj надоевший; Adj холодный

даѐт возможность вводить в порождаемый текст русского языка произвольное количество прилагательных. Теперь наша грамматика будет порождать не только названные выше тексты, но ещѐ и, например, такие: сильный снег идѐт, надоевший холодный сильный дождь идѐт, сильный сильный дождь идѐт и т. д.

Состав терминального алфавита в полученной грамматике будет таков: снег, идѐт,

дождь, сильный, надоевший, холодный. Это записывают следующим образом: V = {снег, идѐт, дождь, сильный, надоевший, холодный}

Перечисленные элементы рассматриваются в данном случае как элементы алфавита, т. е. как целостные (неделимые) знаки, своего рода иероглифы, а не как обычные лексемы русского языка.

Пример 2.

Рассмотрим предложение: Онегин родился на брегах Невы. Построим ещѐ одну порождающую грамматику (назовѐм еѐ G), взяв за основу то же множество категорий, но добавив к обозначениям этих категорий показатели падежа (цифровой индекс внизу). Введѐм следующие правила:

1.S NP1 + VP;

2.NP1 N1;

3.VP V + PrP;

4.PrP Pr + NP2;

5.NP2 N2 + N2;

6.N1 Онегин;

7.V родился;

8.N2 брегах;

9.N2 Невы;

10.Pr на.

Эти правила могут быть использованы для порождения приведѐнного выше текста русского языка, правда, процесс порождения здесь несколько сложнее, чем в предыдущем случае. Возможен такой вариант осуществления этого процесса:

Шаги порождения

Комментарии

текста

 

S

Имеющееся у нас первоначально

 

самое общее представление о бу-

 

дущем предложении

NP1 + VP

Применение правила 1

 

 

N1

+ VP

Применение правила 2

N1

+ V + PrP

Применение правила 3

N1

+ V + Pr + NP2

Применение правила 4

N1

+ V + Pr + N2 + N2

Применение правила 5

Онегин родился на бре-

Применение правил 6 - 10

гах Невы

 

 

 

 

Тот же самый процесс порождения текста можно изобразить в виде дерева с помеченными узлами.

S

NP1 VP

 

V

N1

PrP

Pr NP2

 

 

 

N

N2

Онегин

родился

на

брегах

Невы

Прокомментируем приведѐнный пример:

1.Построенная порождающая грамматика моделирует только синтаксис; все выражения, относящиеся к одной и той же категории, в ней взаимозаменяемы, поэтому она может порождать синтаксически правильные тексты, которым трудно придать какой-либо смысл. Например, если к терминальному словарю грамматики G мы добавим несколько

существительных, относящихся к категории N1, и несколько глаголов, относящихся к категории V, то первые три правила позволят построить предложение, начинающееся с любого из этих существительных и содержащее любой из этих глаголов, несмотря на то что многие из таких сочетаний будут бессмысленны.

2.Для того чтобы более тонко описать множество правильных предложений, надо вводить достаточно сложную систему категорий, учитывающую большое число грамматических, а возможно, и некоторые семантические характеристики языковых выражений. Соответственно для описания типов предложений потребуются и правила, учитывающие все эти разнообразные характеристики. Таких правил будет очень много.

3.Порождающие грамматики данного вида неприменимы в тех случаях, когда синтаксически связанные выражения расположены в текстах не рядом, т. е. дерево синтаксических связей имеет, например, вид

Слово1

Слово2

Слово3

Слово4

Слово5 Слово6 Слово7

Здесь слово1 синтаксически связано со словом5, слово3 – со словом7, но в тексте между ними имеются ещѐ и другие слова, не охватываемой данным синтаксическим целым. Такое расположение синтаксических связей называется непроективностью.

4.Порождающие грамматики, описанные выше, относятся к классу контекстно-

свободных грамматик (или КС-грамматик, иногда их называют также бесконтекстны-

ми): слева от стрелки в них всегда имеется только символ одной категории (т. е. нет контекста).

5.Существуют более сложные порождающие грамматики, учитывающие контекст, принцип работы у них такой же, но правила устроены более сложно. Часто используют одну из разновидностей таких контекстно-зависимых грамматик – грамматики непо-

средственно-составляющих (или НС-грамматики). В отличие от правил КС-

грамматики, в правилах НС-грамматики присутствует контекст, т. е. правило может, например, иметь вид

α NP2 β → α N2 + N2 β.

Здесь α – левый контекст, β – правый контекст, только при наличии этих контекстов заданное преобразование, т. е. NP2 N2 + N2, будет применимо к некоторому вхождению выражения NP2. Причѐм на контекст данное преобразование никак не воздействует. Контексты (левый и правый) могут содержать как основные, так и вспомогательные символы.

Поскольку порождающая грамматика является формальным объектом, еѐ можно использовать как средство моделирования разных аспектов языка (так же, как арифметику можно использовать для подсчѐта произвольных объектов – слонов, мыслей, русалок, мыльных пузырей и т. д.). Можно, например, построить грамматику, описывающую морфемный состав слов. В такой грамматике основной (терминальный) словарь будет состоять из морфов, а правила будут определять возможности комбинирования морфов для создания слов.

Приведѐм ещѐ один пример6 для иллюстрации того, что формальная грамматика может задавать алгоритм порождения текстов любого алфавита, используя любой набор категорий. Определѐнная ниже грамматика G порождает «предложения», описывающие изображения домиков.

6 Пример из книги Фу К. Структурные методы в распознавании образов. М.: Изд-во «Мир», 1977.