Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2015_12_19_Станкевич.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
75.62 Кб
Скачать

11

2015_12_19

Работа Станкевич Анны, ФиПЛ в рамках курса «Вероятностные модели»



Проверка родства языков с помощью частотности символов и энтропии.

На материале испанского и португальского изданий книги Дж.К.Роулинг «Гарри Поттер и философский камень»

Оглавление

Понятие энтропии 4

Абсолютная энтропия и избыточность языка 4

Исследовательский корпус и возможная погрешность 6

Вычисление энтропии 7

Вывод 10

Приложения и рассчеты 11

Список литературы: 11

Ключевые слова: математическая статистика и лингвистика, энтропия

Гипотеза

При проверке родства языков возможно использовать статистический анализ текста не только в семантике и грамматике, но и в символьном составе текстов. Предполагается, что у близкородственных языков будет близкая частотность символов и их энтропия. Задачи

  1. Статистический анализ текста

  2. Рассмотрение графических и фонетических особенностей языка

  3. Подсчет абсолютной и относительной частотности символов

  4. Подсчет энтропии

Аннотация Язык сводится к серии символов, которые считаются и анализируются как последовательность повторения секвенций.

В настоящей работе рассчитана энтропия художественного текста. Расчёт энтропии выполнен на основе переводов книги о Гарри Поттере, а именно 293028 литер испанского языка и 382227 португальского языка. Для анализа проведен анализ классических, основных алфавитов языков, а также анализ реально используемого «алфавита» отражающего некоторые фонетические особенности данных языков с помощью буквосочетаний и диакритик.

Понятие энтропии

Энтропия – это понятие, использующееся в термодинамике, которое вошло в теорию информации, чтобы обозначить уровень дезинтеграций в процессе информации. Согласно основному уравнению Шеннона-Вивера, количество информации какой-нибудь системы является альтернативой

т.е. оно тождественно сумме вероятностей появлений каждой из возможных альтернатив.

Энтропия всегда обратно пропорциональна вероятности результата. Она максимальна, когда все вероятности в совокупности одинаковы, т. е. когда совокупность наименее упорядочена, а она минимальна и равна нулю, когда одна из вероятностей имеет числовое значение 1 и когда остальные равны нулю.

Абсолютная энтропия и избыточность языка

Это величина, равная максимуму информации, которую можно передать единицей данного языка. В теории информации обычно под единицей языка понимают один символ (букву) соответствующего алфавита, а абсолютная энтропия вычисляется при условии равновероятности всех последовательностей символов.

Если в алфавите языка используется L различных букв, то абсолютная энтропия языка (бит на букву) можно вычислить как:

Величина избыточности разных языков мира колеблется в пределах 70-80%. Во всех языках на всех уровнях присутствуют избыточные элементы. Избыточность в языке неслучайна: её функция — облегчить коммуникацию при неблагоприятных условиях передачи информации. Избыточность представляет собой систему предупреждения возможных ошибок.

Абсолютная энтропия для португальского и испанского языков:

4,754888

Абсолютная энтропия основного алфавита

5,584963

Энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита

Таблица-1. Португальский

4,807355

Абсолютная энтропия основного алфавита

5,169925

Абсолютная энтропия алфавита с различением буквосочетаний, знаков с диакритиками и букв основного алфавита

Таблица-2. Испанский.

Исследовательский корпус и возможная погрешность

Исследования данной работы проводились на материале переводов с английского на испанский и португальский языки книги «Гарри Поттер и философский камень» Джоан К. Роулинг. Частота появления символов в корпусе была выявлена с помощью поиска по тексту. Для каждого языка проведено исследование официального алфавита и алфавита, отражающего фонетические особенности. С алфавитами можно ознакомиться ниже.

Черным цветом выделены основные буквы алфавитов, серым – буквы, встречающиеся лишь в заимствованных словах, красным – буквосочетания и диакритики имеющие особое звучание/сферу употребления.

Рисуснок-1 – португальский. Рисунок-2 – испанский.

Т.к. книга, на которой было проведено исследование, является переводом с английского языка, возникает ряд проблем:

1. Повышается вероятность использования заимствованных букв. В именах и названиях. Особенно в португальском, где предпочитают не транслитерировать англоязычный текст.

2. Небольшую погрешность вносят выдуманные слова, а также заклинания с латинскими корнями.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]