Вычисление энтропии
Учитывая, что погрешность при вычислении абсолютной энтропии достаточно велика, используется вычисление энтропии с помощью относительной частоты символа в тексте. С помощью статистического анализа текстов получены данные об относительной частотности появление каждого символа.
Таблица-3 – португальский Таблица-4 – испанский
Буква |
Относительная частота |
Буква |
Относительная частота |
||
A(Á, À, Â, Ã) |
0,134261 |
|
|
A (À) |
0,154991 |
A |
0,122948 |
|
|
A |
0,149886 |
Á |
0,003427 |
|
|
Á |
0,005104 |
À |
0,000764 |
|
|
B |
0,022311 |
 |
0,000157 |
|
|
C |
0,041234 |
à |
0,006964 |
|
|
C (исключая ch) |
0,032772 |
B |
0,010101 |
|
|
Ch |
0,004013 |
C |
0,029632 |
|
|
F |
0,008462 |
C (исключая ch) |
0,026911 |
|
|
G |
0,017783 |
Ç |
0,003043 |
|
|
H |
0,01663 |
Ch |
0,002721 |
|
|
I(Í) |
0,068483 |
D |
0,043456 |
|
|
I |
0,057769 |
E (È, É, Ê) |
0,117067 |
|
|
Í |
0,010714 |
E |
0,111049 |
|
|
J |
0,007302 |
È |
0 |
|
|
K |
0,000293 |
É |
0,00337 |
|
|
L |
0,060301 |
Ê |
0,002648 |
|
|
L (исключая lh, ll) |
0,054367 |
F |
0,009866 |
|
|
Ll |
0,00591 |
G |
0,012676 |
|
|
Lh |
2,39E-05 |
H |
0,01676 |
|
|
M |
0,030892 |
I(Ì, Í, Ï) |
0,049863 |
|
|
N |
0,08108 |
I |
0,048479 |
|
|
N (исключая nh, Ñ) |
0,078476 |
Ì |
0 |
|
|
Nh |
1,71E-05 |
Í |
0,001384 |
|
|
Ñ |
0,002586 |
Ï |
0 |
|
|
O (Ó) |
0,121369 |
J |
0,002268 |
|
|
O |
0,110314 |
K |
0,000154 |
|
|
Ó |
0,011055 |
L |
0,026942 |
|
|
P |
0,030991 |
L (исключая lh) |
0,023803 |
|
|
Q |
0,014955 |
Lh |
0,003139 |
|
|
R |
0,079271 |
M |
0,041572 |
|
|
Rr |
0,007032 |
N |
0,046899 |
|
|
S |
0,081564 |
N (исключая nh) |
0,042783 |
|
|
T |
0,050109 |
Nh |
0,004115 |
|
|
U (Ú, Ü) |
0,066609 |
O (Ò, Ó, Ô, Õ) |
0,100453 |
|
|
U |
0,051586 |
O |
0,098591 |
|
|
Ú |
0,001474 |
Ò |
0 |
|
|
Ü |
3,41E-06 |
Ó |
0,001363 |
|
|
V |
0,013549 |
Ô |
0,000207 |
|
|
W |
0,000945 |
Õ |
0,000293 |
|
|
X |
0,000935 |
P |
0,02503 |
|
|
Y |
0,017811 |
Q |
0,011744 |
|
|
Z |
0,005098 |
R |
0,068765 |
|
|
|
|
R (исключая rr) |
0,062594 |
|
|
|
|
Rr |
0,006172 |
|
|
|
|
S |
0,067052 |
|
|
|
|
T |
0,038197 |
|
|
|
|
U (Ù, Ú, Û) |
0,045551 |
|
|
|
|
U |
0,044814 |
|
|
|
|
Ù |
0 |
|
|
|
|
Ú |
0,000738 |
|
|
|
|
Û |
0 |
|
|
|
|
V |
0,017576 |
|
|
|
|
W |
0,000531 |
|
|
|
|
X |
0,002483 |
|
|
|
|
Y |
0,005212 |
|
|
|
|
Z |
0,004081 |
|
|
|
|
При подсчете энтропии по формуле, описанной выше, получаем:
Таблица-6 – португальский
4,216141 |
Энтропия основного алфавита |
5,197892 |
Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита |
Таблица-7 - испанский
3,996881 |
Энтропия основного алфавита |
5,244257 |
Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита |
|
|
|
Вывод
Частотность отдельных символов позволяет использовать данный математическо-статистический метод для подтверждения родства языков. Для более точного анализа следует проследить графико-фонетическую миграцию символов в каждом отдельном языке. Кроме того, следует отметить, что в данной работе точность исследования уменьшается т.к. в силу того, что анализируется современный текст, не взяты исторически присутствовавшие символы (такие как Ç в испанском, к примеру).
