Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2. Часть 1.doc
Скачиваний:
101
Добавлен:
02.06.2015
Размер:
5.54 Mб
Скачать

9.1. Вероятностные источники сообщений.

В этих моделях источник открытого текста рассматривается как источник случайных последовательностей. Считается, что источник генерирует конечную или бесконечную последовательность случайных символов х(1),х(2),…,х(n) из алфавита I. Вероятность случайного сообщения «i(1),i(2),…, i(n)» определяется как вероятность совместного события

Р(i(1),i(2),…, i(n))=Р(х(1)=i(1),х(2)=i(2),…,х(n)=i(n))).

При этом, естественно, требуют выполнения условий:

  1. для любого случайного сообщения «i(1),i(2),…, i(n)»

Р(i(1),i(2),…, i(n))0;

2)=1;

3) для любого случайного сообщения «i(1),i(2),…, i(n)»

Р(i(1),i(2),…, i(n))=,sn+1.

Смысл последнего условия состоит в том, что вероятность всякого случайного сообщения длины n есть сумма вероятностей всех «продолжений» этого сообщения до длины s>n (некоторый вариант аксиомы Колмогорова). Текст, порождаемый таким источником, является вероятностным аналогом языка. Он обладает одинаковыми с языком частотными характеристиками k-грамм. Задавая конкретное вероятностное распределение на множестве открытых текстов, мы задаем соответствующую модель источника сообщений. Рассмотрим некоторые частные случаи этой общей модели.

Стационарный источник независимых символов алфавита. В этой модели предполагается, что вероятности сообщений полностью определяются вероятностями отдельных символов алфавита:

Р(i(1),i(2),…, i(n))=и Р(х(j)=i)>0, .

Под открытым текстом понимается реализация последовательности независимых испытаний в полиномиальной вероятностной схеме с числом исходов |I|=m. Исходу взаимно однозначно соответствует символ алфавита I. Эта модель позволяет разделить буквы алфавита на классы высокой, средней и низкой частот использования. Ниже приводятся буквы высокой частоты использования для некоторых европейских языков (частота указана в процентах).

ЯЗЫК

Буквы алфавитов и частоты их

использования в текстах

Английский

Е

12,86

T

9,72

A

7,96

I

7,77

N

7,51

R

7,03

Испанский

Е

14,15

A

12,9

O

8,84

S

7,64

I

7,01

R

6,95

Итальянский

I

12,04

Е

11,б

A

11,1

O

8,92

N

7,68

T

7,07

Немецкий

E

19,18

N

10,2

I

8,21

S

7,07

R

7,01

T

5,86

Французский

E

17,76

S

8,23

A

7,68

N

7,61

T

7,30

I

7,23

Русский

O

11,0

И

8,9

Е

8,3

А

7,9

Н

6,9

Т

6,0

Для сравнения частот редких букв и букв, приведенных в таблице, укажем, что, например, в английском языке редкими буквами являются буквы J,Q,Z, а их частоты в процентах оцениваются величинами 0,13, 0,12, 0,08, соответственно. Из этой таблицы видно, что не случайно итальянский и испанский языки считаются певучими: на долю гласных приходится около половины всех букв. Самыми частыми биграммами в русском языке являются (в процентах) СТ (1,74), НО (1,29), ЕН (1,23), ТО (1,21), НА (1,20), ОВ (1,16), НИ (1,15), РА (1,14), ВО (1,08), КО (1,07). Наиболее частые триграммы: СТО, ЕНО, НОВ, ТОВ, ОВО, НАЛ, РАЛ, НИС.

Рассматриваемая модель открытого текста весьма просто строится для любого источника открытых сообщений с использованием относительно небольшого количества материала и удобна для практического применения. В то же время, некоторые свойства модели противоречат свойствам языков. В частности, согласно этой модели любая k-грамма, k>1, имеет ненулевую вероятность появления в сообщении.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]