Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Витебский государственный университет им. П. М. Машерова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

УМК по СПО.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

1.79 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 554 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.Модуль Формальные грамматики и языки

3.1.Языки и цепочки символов. Способы задания языков

3.1.1.Цепочки символов. Операции над цепочками символов

Под цепочкой символов понимают произвольную последовательность символов, записанных один за другим. Иногда цепочку символов называют строкой. Понятие символа или буквы в теории формальных грамматик является базовым, не требующим определения. Множество разрешенных для использования символов составляет алфавит языка. Принято цепочки символов обозначать греческими буквами: , , , . Цепочка символов — это последовательность, в которую могут входить любые символы алфавита в произвольной последовательности.

Важно подчеркнуть, что в теории формальных грамматик рассматривается конструктивная составляющая формальных языков, и процедура парсинга не анализирует смысл разбираемого текста. Семантическое нагружение текста или, иными словами, его интерпретация выходит за рамки синтаксического анализа. Поэтому под строкой мы будем рассматривать и неосмысленные последовательности символов, например «ааввввтт ооонпрвмк.,.!№678»

В цепочке символов это множество символов с установленным на нем отношением строгого порядка следования символов. Поэтому цепочки символов «аб» и «ба» - это различные цепочки.

Цепочки символов  и  эквивалентны,  = , если они имеют один и тот же состав символов, одно и то же их количество и идентичные отношения порядка следования символов в цепочке.

Количество символов в цепочке называют длиной цепочки. Длина цепочки символов  обозначается как ||. Очевидно, что если  = , то и || = ||.

Основной операцией над цепочками символов является операция конкатенации (объединения или сложения) цепочек.

Конкатенация (сложение, объединение) двух цепочек символов — это дописывание второй цепочки в конец первой. Конкатенация цепочек  и  обозначается как . Выполнить конкатенацию цепочек просто: например, если = «аб», а  = «вг», то  = «абвг».

Так как в цепочке важен порядок символов, то очевидно, что операция конкатенации не обладает свойством коммутативности, то есть в общем случае   и  такие, что . Также очевидно, что конкатенация обладает свойством ассоциативности, то есть ()= ().

Можно выделить еще две операции над цепочками.

Обращение цепочки — это запись символов цепочки в обратном порядке. Обращение цепочки  обозначается как R. Если a = «абвг», то aR = «гвба». Для операции обращения справедливо следующее равенство  a, : (a)R = RaR.

Итерация (повторение) цепочки n раз, где nN, n > 0 — это конкатенация цепочки самой с собой n раз. Итерация цепочки a n раз обозначается как an. Для операции повторения справедливы следующие равенства  а: а1 = а, а2 = аа, а3 = ааа, ... и т. д.

Среди всех цепочек символов выделяется одна особенная — пустая цепочка.

Пустая цепочка символов — это цепочка, не содержащая ни одного символа.

Пустую цепочку здесь везде будем обозначать греческой буквой  (в литературе

ее иногда обозначают латинской буквой е или греческой ε).

Для пустой цепочки справедливы следующие равенства:

1. | |=0;

2. a: a = a, = a;

3. R =

4. n≥0; ^ⁿ =

5. a: a^° =  .

3.1.2.Понятие языка. Формальное определение языка

В общем случае язык — это заданный набор символов и правил, устанавливающих способы комбинации этих символов между собой для записи осмысленных текстов. Основой любого естественного или искусственного языка является алфавит, определяющий набор допустимых символов языка.

Алфавит — это счетное множество допустимых символов языка. Будем обозначать это множество символом V. Интересно, что согласно формальному определению, алфавит не обязательно должен быть конечным (перечислимым) множеством, но реально все существующие языки строятся на основе конечных алфавитов.

Цепочка символов  является цепочкой над алфавитом V: (V), если в нее входят только символы, принадлежащие множеству символов . Для любого алфавита V пустая цепочка , может, как являться, так и не являться цепочкой (V), Это условие оговаривается дополнительно.

Если V — некоторый алфавит, то:

■ V⁺ — множество всех цепочек над алфавитом V без ;

■ V^* — множество всех цепочек над алфавитом V, включая 

Справедливо равенство: V^* = V⁺  {}.

Языком L над алфавитом V: L(V) называется некоторое счетное подмножество цепочек конечной длины из множества всех цепочек над алфавитом V. Из этого определения следуют два вывода: во-первых, множество цепочек языка не обязано быть конечным; во-вторых, хотя каждая цепочка символов, входящая в язык, обязана иметь конечную длину, эта длина может быть сколь угодно большой и формально ничем не ограничена.

Все существующие языки подпадают под это определение. Большинство реальных естественных и искусственных языков содержат бесконечное множество цепочек. Также в большинстве языков длина цепочки ничем не ограничена (например, этот длинный текст — пример цепочки символов русского языка). Цепочку символов, принадлежащую заданному языку, часто называют предложением языка, а множество цепочек символов некоторого языка L(V) — множеством предложений этого языка.

Для любого языка L(V) справедливо: L(V)  V^* V^*.

Язык L(V) включает в себя язык L'(V): L'(V)L(V), если   L(V):  L'(V). Множество цепочек языка L'(V) является подмножеством множества цепочек языка L(V) (или эти множества совпадают). Очевидно, что оба языка должны строится на основе одного и того же алфавита.

Два языка L(V) и L'(V) совпадают (эквивалентны): L'(V) =L(V), если L'(V) L(V) и L(V) L'(V); или, что то же самое: a L'(V): aL(V) и a L'(V): aL(V). Множества допустимых цепочек символов для эквивалентных языков должны быть равны.

Два языка L(V) и L'(V) почти эквивалентны: L'(V)L(V), если L'(V){}=L(V){}. Множества допустимых цепочек символов почти эквивалентных языков могут различаться только на пустую цепочку символов.

<<< < Предыдущая 1 2 34 / 554 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.20253.12 Mб9УМК Охраны труда (распознанное ) ВСЕ.doc
#
13.11.201944.87 Mб76УМК П и РЭ_2012.doc
#
01.05.202525.3 Mб4УМК П и РЭ_2013_2 мая_практика №1-5.docx
#
04.05.20192.46 Mб57УМК Плешкун для студентов.doc
#
10.11.201910.9 Mб108УМК по немецкому языку 4 курс , доп.спец..doc
#
01.07.20251.79 Mб5УМК по СПО.doc
#
01.07.20252.04 Mб2УМК Психология.doc
#
01.05.20252.1 Mб14УМК СПФ Ясюкевич.doc
#
01.05.202516.24 Mб12УМК Станочное оборудование.doc
#
01.05.2025549.38 Кб6УМК страноведение США.doc
#
01.04.20252.01 Mб11УМК ТАХД посл.doc