|
2015_12_19 |
|
Работа Станкевич Анны, ФиПЛ в рамках курса «Вероятностные модели»
|
|
Проверка родства языков с помощью частотности символов и энтропии. На материале испанского и португальского изданий книги Дж.К.Роулинг «Гарри Поттер и философский камень» |
Оглавление
Понятие энтропии 4
Абсолютная энтропия и избыточность языка 4
Исследовательский корпус и возможная погрешность 6
Вычисление энтропии 7
Вывод 10
Приложения и рассчеты 11
Список литературы: 11
Ключевые слова: математическая статистика и лингвистика, энтропия
Гипотеза
При проверке родства языков возможно использовать статистический анализ текста не только в семантике и грамматике, но и в символьном составе текстов. Предполагается, что у близкородственных языков будет близкая частотность символов и их энтропия. Задачи
Статистический анализ текста
Рассмотрение графических и фонетических особенностей языка
Подсчет абсолютной и относительной частотности символов
Подсчет энтропии
Аннотация Язык сводится к серии символов, которые считаются и анализируются как последовательность повторения секвенций.
В настоящей работе рассчитана энтропия художественного текста. Расчёт энтропии выполнен на основе переводов книги о Гарри Поттере, а именно 293028 литер испанского языка и 382227 португальского языка. Для анализа проведен анализ классических, основных алфавитов языков, а также анализ реально используемого «алфавита» отражающего некоторые фонетические особенности данных языков с помощью буквосочетаний и диакритик.
Понятие энтропии
Энтропия – это понятие, использующееся в термодинамике, которое вошло в теорию информации, чтобы обозначить уровень дезинтеграций в процессе информации. Согласно основному уравнению Шеннона-Вивера, количество информации какой-нибудь системы является альтернативой
т.е. оно тождественно сумме вероятностей появлений каждой из возможных альтернатив.
Энтропия всегда обратно пропорциональна вероятности результата. Она максимальна, когда все вероятности в совокупности одинаковы, т. е. когда совокупность наименее упорядочена, а она минимальна и равна нулю, когда одна из вероятностей имеет числовое значение 1 и когда остальные равны нулю.
Абсолютная энтропия и избыточность языка
Это величина, равная максимуму информации, которую можно передать единицей данного языка. В теории информации обычно под единицей языка понимают один символ (букву) соответствующего алфавита, а абсолютная энтропия вычисляется при условии равновероятности всех последовательностей символов.
Если в алфавите языка используется L различных букв, то абсолютная энтропия языка (бит на букву) можно вычислить как:
Величина избыточности разных языков мира колеблется в пределах 70-80%. Во всех языках на всех уровнях присутствуют избыточные элементы. Избыточность в языке неслучайна: её функция — облегчить коммуникацию при неблагоприятных условиях передачи информации. Избыточность представляет собой систему предупреждения возможных ошибок.
Абсолютная энтропия для португальского и испанского языков:
4,754888 |
Абсолютная энтропия основного алфавита |
5,584963 |
Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита |
Таблица-1. Португальский
4,807355 |
Абсолютная энтропия основного алфавита |
5,169925 |
Абсолютная энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита |
Таблица-2. Испанский.
Исследовательский корпус и возможная погрешность
Исследования данной работы проводились на материале переводов с английского на испанский и португальский языки книги «Гарри Поттер и философский камень» Джоан К. Роулинг. Частота появления символов в корпусе была выявлена с помощью поиска по тексту. Для каждого языка проведено исследование официального алфавита и алфавита, отражающего фонетические особенности. С алфавитами можно ознакомиться ниже.
Черным цветом выделены основные буквы алфавитов, серым – буквы, встречающиеся лишь в заимствованных словах, красным – буквосочетания и диакритики имеющие особое звучание/сферу употребления.
Рисуснок-1
– португальский.
Рисунок-2
– испанский.
Т.к. книга, на которой было проведено исследование, является переводом с английского языка, возникает ряд проблем:
1. Повышается вероятность использования заимствованных букв. В именах и названиях. Особенно в португальском, где предпочитают не транслитерировать англоязычный текст.
2. Небольшую погрешность вносят выдуманные слова, а также заклинания с латинскими корнями.
