Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по теории информации.doc / Пособие по теории информации.doc
Скачиваний:
415
Добавлен:
30.03.2015
Размер:
4.68 Mб
Скачать

1.4. Алфавит сообщения

Множество возможных значений дискретного сообщения (сигнала) ДС представляет собой алфавит сообщения.

Алфавит сообщения обозначается заглавной буквой, например, А, а в фигурных скобках указываются все его возможные значения - символы.

Число символов алфавита называется объемом алфавита К

Вообще возможны три вида алфавита источника:

- алфавит, элементами которого являются отдельные буквы (знаки),

- алфавит, элементами которого являются слова,

- алфавит, элементами которого являются фразы.

Наиболее часто используются следующие алфавиты.

  1. B = {0,1} – бинарный или двоичный алфавит.

  2. Σ = {а,b, …,z} – множество строчных букв английского алфавита.

  3. Множество ASCII - символов или множество всех печатных ASCII - символов.

  4. Множество десятичных цифр D={0, 1, 2, 3, 4, 5, 6, 7, 8, 9} является алфавитом, с помощью которого записываются неотрицательные целые числа.

  5. Алфавит H={0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f} также служит для записи неотрицательных целых числа в шестнадцатеричной системе счисления. Следует отметить, что этот H содержит 10 десятичных цифр т. е. .

Единицей языка является слово. Оно служит для наименования (обозначения) понятий, предметов, лиц, действий, состояний, признаков, связей, отношений и т.д.

Слово, или, цепочка - это конечная последовательность знаков некоторого алфавита.

Множество слов в алфавите А обозначается А*. Если слово , то количество букв в слове называется длиной сло­ва: .

Пустая цепочка – это цепочка, не содержащая ни одного символа. Эту цепочку, обозначаемую ε, можно рассматривать, как цепочку в любом алфавите.

Пустое слово обозначается .

Если , то называется началом, или префиксом, слова , a — оконча­нием, или постфиксом, слова .

Пример 1.7. 01101 – это цепочка в бинарном алфавите B = {0,1}. Цепочки 15903 и 15df10 являются цепочками в алфавите и соответственно.

Всякое слово, то есть последовательность букв, может рассматриваться, как блок букв, всякая фраза есть последовательность слов и также может рассматриваться, как блок слов.

Часто оказывается удобным классифицировать слова по их длине, т.е. по числу позиций, которые занимают знаки в слове.

Например, слово 01101 имеет длину 5.

Обычно говорят, что длина цепочки – это «число символов» в ней. Это определение широко распространено, но не вполне корректно. Так, в цепочке 01101 всего 2 символа, но число позиций в ней – пять, поэтому она имеет длину 5. Все же следует иметь в виду, что часто пишут «число символов», имея в виду «число позиций».

Длину некоторой цепочки w обычно обозначают |w|.

Пример 1.8. |011| = |101| = |f50| = 3, а |ε| = 0.

Если – некоторый алфавит, то можно выразить для множества всех цепочек определенной длины, состоящих из символов некоторого алфавита , удобно использовать, по аналогии с декартовыми степенями множеств, знак степени. Обозначим через множество всех слов длины k, состоящих из знаков алфавита . Данное множество с точностью до обозначений его элементов совпадает с декартовым произведением . Различие заключается в том, что элементы декартового произведения обычно заключаются в скобки, а слова из записываются без скобок.

Пусть x и y – слова. Тогда xy обозначает их конкатенацию (соединение), т.е. слово, в котором последовательно записаны слова x и y. Более строго, если x – слово из i символов: x = a1 a2 … ai, а y – слово из j символов y = b1 b2 … bi, то xy – это слово длины i + j: , xy = = a1 a2 … ai b1 b2 … bi.

Множество слов в алфавите является (свободной) полугруппой относительно операции конкатенации.

Пример 1.9. Пусть x = 01101 и y = 110. Тогда xy = 01101110, а .

Существует, однако, множество других языков.

Пример 1.10. 1. Язык, состоящий из всех цепочек, в которых n единиц следуют за n нулями для некоторого n > 0: {, 01, 0011, 000111, ...}.

2. Множество цепочек, состоящих из 0 и 1 и содержащих поровну тех и других: {, 01, 10, 0011, 1001,...}.

3. Множество двоичных записей простых чисел: {10, 11, 101, 111,1011,...}.

4. A* — язык для любого алфавита A.

5. —пустой язык в любом алфавите.

6. {} — язык, содержащий одну лишь пустую цепочку. Он также является языком в любом алфавите. Заметим, что ; первый не содержит вообще никаких цепочек, а второй состоит из одной цепочки.

Единственное существенное ограничение для множеств, которые могут быть языками, состоит в том, что все алфавиты конечны. Таким образом, хотя языки и могут содержать бесконечное число цепочек, но эти цепочки должны быть составлены из символов некоторого фиксированного конечного алфавита.