
- •I.Введение
- •II.Теоретическая часть
- •1. Интерфейс ос
- •2. Базовые функции
- •3. Управление данными
- •4. Процесс выполнения
- •III.Практическая часть
- •0. Общее описание
- •1. Определение периода частоты основного тона
- •2. Поиск периода
- •3. Оптимизация алгоритма
- •4. Желаемая частота основного тона
- •5. Изменение периода частоты основного тона с помощью Hanning windows.
- •6. Сглаживание с помощью Overlap and Add
- •VI. Заключение
- •VII. Библиография
СПбГУ. Мат-Мех
студентка 2 курса направления
Прикл. математики и информатики
2012
I.Введение
В данной работе будет представлен анализ программы SVOX Pico. Это TTS-система с открытым исходным кодом, предназначенная для реализации звукового воспроизведения текста на платформах с низкой производительностью. Она состоит из двух основных модулей:
Транскриптор занимается анализом текста и фонетической обработкой, не воспринимая личностных голосовых параметров диктора. Фонетическое представление включает в себя уровни акцентирования на слоги и границы отельных фраз полученного к обработке текста.
Акустический модуль содержит данные, персонализирующие выходной голосовой сигнал, получаемый из созданного фонетического представления заданного текста. Это дает возможность воспроизводить текст разными голосами, хотя обычно TTS-системы поставляются с одним «голосом» или двумя разного пола.
Подобное приложение может использоваться во множестве мобильных устройств таких, как мобильные телефоны, GPS-навигаторы, плееры и т.д. Самый яркий пример использования Pico – стандартная TTS-система мобильной операционной системы Android
II.Теоретическая часть
Ядро программы состоит из пяти основных уровней:
OS interface layer служит связью между операционной системой и ядром. Функции библиотек и операционной системы могут быть вызваны только из модулей этого уровня.
Basic functions layer содержит функции, широко использующиеся во всей системе. Эти функции занимаются работой с таблицей символов, организовывают работу с динамическими массивами и отвечают за математические операции.
Knowledge management layer определяет внутренние структуры данных, которые отвечают за лингвистические данные и набор голосов. Здесь же содержатся функции, занимающиеся загрузкой необходимых данных и предоставлением доступа к ним текущей.
Runtime processing layer определяет структуры данных, необходимые в течение текущего text-to-speech преобразования, обрабатывающие модули и контролирующий модуль, занимающийся управлением на протяжении всего процесса обработки и предоставляющий доступ пользователю к SVOX Pico API.
API and main program layer предоставляет интерфейс доступа к обработчику и основным функциям приложения.
1. Интерфейс ос
Слой интерфейса операционной системы позволяет работать SVOX Pico изолированно от платформозависимых функций. Таким образом, для компиляции библиотек на другую платформу, не придется вносить изменений на уровнях выше этого. В реализации модулей этого уровня — PicoPAL и PicoOS — различные реализации для различных платформ ограничиваются директивами #if или #ifdef, основываясь на специальных установках в специальном заголовочном файле (platform.h).
2. Базовые функции
Для
предотвращения потерь производительности,
динамическая работа с памятью отсутствует,
и она выделяется только в момент запуска
используемого движка
Управление памятью
Создание и управление динамических массивов
Работа с символьными таблицами
Высокоуровневые математические операции