Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2015_12_19_Станкевич.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
75.62 Кб
Скачать

Вычисление энтропии

Учитывая, что погрешность при вычислении абсолютной энтропии достаточно велика, используется вычисление энтропии с помощью относительной частоты символа в тексте. С помощью статистического анализа текстов получены данные об относительной частотности появление каждого символа.

Таблица-3 – португальский Таблица-4 – испанский

Буква

Относительная частота

Буква

Относительная частота

A(Á, À, Â, Ã)

0,134261

A (À)

0,154991

A

0,122948

A

0,149886

Á

0,003427

Á

0,005104

À

0,000764

B

0,022311

Â

0,000157

C

0,041234

Ã

0,006964

C (исключая ch)

0,032772

B

0,010101

Ch

0,004013

C

0,029632

F

0,008462

C (исключая ch)

0,026911

G

0,017783

Ç

0,003043

H

0,01663

Ch

0,002721

I(Í)

0,068483

D

0,043456

I

0,057769

E (È, É, Ê)

0,117067

Í

0,010714

E

0,111049

J

0,007302

È

0

K

0,000293

É

0,00337

L

0,060301

Ê

0,002648

L (исключая lh, ll)

0,054367

F

0,009866

Ll

0,00591

G

0,012676

Lh

2,39E-05

H

0,01676

M

0,030892

I(Ì, Í, Ï)

0,049863

N

0,08108

I

0,048479

N (исключая nh, Ñ)

0,078476

Ì

0

Nh

1,71E-05

Í

0,001384

Ñ

0,002586

Ï

0

O (Ó)

0,121369

J

0,002268

O

0,110314

K

0,000154

Ó

0,011055

L

0,026942

P

0,030991

L (исключая lh)

0,023803

Q

0,014955

Lh

0,003139

R

0,079271

M

0,041572

Rr

0,007032

N

0,046899

S

0,081564

N (исключая nh)

0,042783

T

0,050109

Nh

0,004115

U (Ú, Ü)

0,066609

O (Ò, Ó, Ô, Õ)

0,100453

U

0,051586

O

0,098591

Ú

0,001474

Ò

0

Ü

3,41E-06

Ó

0,001363

V

0,013549

Ô

0,000207

W

0,000945

Õ

0,000293

X

0,000935

P

0,02503

Y

0,017811

Q

0,011744

Z

0,005098

R

0,068765

R (исключая rr)

0,062594

Rr

0,006172

S

0,067052

T

0,038197

U (Ù, Ú, Û)

0,045551

U

0,044814

Ù

0

Ú

0,000738

Û

0

V

0,017576

W

0,000531

X

0,002483

Y

0,005212

Z

0,004081

При подсчете энтропии по формуле, описанной выше, получаем:

Таблица-6 – португальский

4,216141

Энтропия основного алфавита

5,197892

Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита

Таблица-7 - испанский

3,996881

Энтропия основного алфавита

5,244257

Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита

 

 

Вывод

Частотность отдельных символов позволяет использовать данный математическо-статистический метод для подтверждения родства языков. Для более точного анализа следует проследить графико-фонетическую миграцию символов в каждом отдельном языке. Кроме того, следует отметить, что в данной работе точность исследования уменьшается т.к. в силу того, что анализируется современный текст, не взяты исторически присутствовавшие символы (такие как Ç в испанском, к примеру).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]