- •Министерство образования и науки российской федерации
- •Оглавление
- •Список рисунков
- •Введение
- •Основы работы со средой математического моделирования МаtLab
- •История создания и развития системы MatLab
- •Интерфейс пользователя
- •Типы данных в системе MatLab
- •Переменные в системе MatLab
- •Арифметические и логические операции в системе MatLab
- •Массивы и матрицы в системе MatLab
- •Использование знака «:» и множественной индексации в системе MatLab
- •Операции над матрицами в системе MatLab
- •Встроенные функции в системе MatLab
- •Графические возможности системы MatLab
- •Изменение свойств линий и оформление графиков
- •Графики функций двух переменных
- •Вывод нескольких графиков на одни оси
- •Вывод нескольких графиков в одном графическом окне
- •Работа со звуковыми файлами в системе MatLab
- •Считывание данных из wav-файлов
- •Запись данных в wav-файл
- •Воспроизведение звуковых сигналов
- •Запись звуковых сигналов
- •Лабораторная работа №1. Исследование внутренней структуры речевого сигнала
- •Методические указания к лабораторной работе
- •Исследование структуры и временных характеристик речевых сигналов
- •Ручная сегментация исследуемой фонограммы
- •Определение фонетического состава сегментов исследуемого слова
- •Лабораторная работа №2. Исследование спектральных свойств речевого сигнала
- •Методические указания к лабораторной работе
- •Комментарии по оформлению отчета к лабораторной работе
- •Программа анализа спектров фонограмм «Спектр» (версия 4)
- •Назначение программы
- •Функциональные возможности программы
- •Лабораторная работа №3. Исследование корреляционных свойств речевого сигнала
- •Методические указания к лабораторной работе
- •Комментарии к оформлению отчета по лабораторной работе
- •Программа анализа корреляционных функций «Коррелограмма»
- •Назначение программы
- •Предварительный этап работы с фонограммой
- •Порядок работы в программе «Коррелограмма»
- •Дополнительные возможности по работе с программой
- •Лабораторная работа №4. Исследование vad-алгоритма
- •Методические указания к лабораторной работе
- •Комментарии по оформлению отчета к лабораторной работе
- •Исследование алгоритма vad в программе «Коррелограмма»
- •Лабораторная работа №5. Исследование методов оценки основного тона речи
- •Методические указания к лабораторной работе
- •Лабораторная работа №6. Моделирование алгоритмов обработки речи
- •Методические указания к лабораторной работе
- •Список индивидуальных заданий
- •Вопросы для самоподготовки
- •Лабораторная работа №1
- •Лабораторная работа №2
- •Лабораторная работа №3
- •Лабораторная работа №4
- •Лабораторная работа №5
- •Лабораторная работа №6 (Индивидуальные задания)
- •Список литературы
- •Приложение аСписок литературы и web-ресурсы по «Речевым технологиям» и среде математического моделирования «MatLab»
- •Список литературы по «Речевым технологиям»
- •Отечественная литература
- •Общетеоретические вопросы
- •Прикладная фонетика
- •Синтез речи
- •Психоакустика и физиология речи
- •Цифровая связь (телефония)
- •Зарубежная литература
- •Web – ресурсы
- •Список литературы по среде математического моделирования «MatLab»
- •Приложение б Современные направления научно-исследовательских работ кафедры «Бортовых радиоэлектронных систем в области разработки систем обработки речи
- •Основные области применения разрабатываемых алгоритмов
- •Многоуровневая временная сегментация речевых сигналов
- •Модификация фонограмм
Список рисунков
Рис.1.1. Интерфейс среды MatLab 11
Рис.1.2. Часть окна системы MatLab с главным меню и панелью инструментов 11
Рис.1.3. Классификация типов данных в системе MatLab 12
Рис.1.4. Пример использования команды help 16
Рис.1.5. Столбчатая диаграмма 19
Рис.1.6. Круговая диаграмма 19
Рис.1.7. Гистограмма вектора data 20
Рис.1.8. График функции y(x) 21
Рис.1.9. Графики функции f (x) и g(x) 22
Рис.1.10. Графики функции f (x) и g(x) в логарифмическом масштабе оси х 23
Рис.1.11. Графики функции температуры в течение двух дней 24
Рис.1.12. График функции z(x,y) в виде каркасной поверхности 25
Рис.1.13. График функции z(x,y) в виде каркасной поверхности, залитой цветом 25
Рис.1.14. Вывод графиков функции f(x) и g(x) на одни оси с помощью команды hold 26
Рис.1.15. Вывод нескольких графиков в одном окне с помощью команды subplot 27
Рис.1.16. Диапазон представлений отсчетов в системе MatLab при считывании из wav-файла 28
Рис.1.17. Фонограмма слова «Изгородь», считанная из wav-файла 29
Рис.1.18. Отображение фонограмма с помощью функции strips 30
Рис.2.1. Временная разметка слова «Восемь» на кластеры, часть 1-я 35
Рис.2.2. Временная разметка слова «Восемь» на кластеры, часть 2-я 36
Рис.2.3. Перечень кнопок управления программой 37
Рис.2.4. Опции закладки «Файл» 38
Рис.2.5. Выбор открываемого файла. Открываемый файл «Аккомодация». 39
Рис.2.6. Опции закладки «Фонограмма» 40
Рис.2.7. Пример отображения опций закладки «Визуализация» 41
Рис.2.8. Пример отображения опций закладки «Редактирование» 42
Рис.2.9. Пример отображения опций закладки «Настройки» 43
Рис.2.10. Фонограмма слова «Аккомодация» 44
Рис.2.11. Увеличенный фрагмент звука «А1» слова «Аккомодация» 44
Рис.2.12. Увеличенный фрагмент звуков «ЦИЯ» слова «Аккомодация» 45
Рис. 2.13. Увеличенный фрагмент звука «Ц» слова «Аккомодация» 45
Рис.2.14. Установка границ при выделении фрагмента звука «Ц» 46
Рис.2.15. Увеличенный на все окно фрагмент звука «Ц» 46
Рис.2.16. 1-ый пример выделения фрагмента на исходной фонограмме 47
Рис.2.17. 2-ой пример выделения фрагмента на исходной фонограмме 47
Рис.3.1. Исходная форма и перечень кнопок управления программой 50
Рис.3.2. Пример отображения амплитудных спектров слова «Забияка» в линейном масштабе по оси ординат. В левом окне показана зависимость спектра от номера частотного канала, в правом окне показана зависимость амплитудного спектра от частоты 52
Рис.3.3. Примеры отображения амплитудных спектров слова «Забияка» в логарифмическом масштабе по оси ординат. В левом окне показана зависимость спектра от номера частотного канала, в правом окне показана зависимость амплитудного спектра от частоты 52
Рис.4.1. Применение корреляционной обработки для различения кластеров РС: (а) – сверху - реализация слова «Береза», (б) – в середине - коррелограмма слова «Береза», (в) – снизу - выборочная кратковременная корреляционная функция (ВКФ) (сечение коррелограммы по вертикальной метке – 57 интервал оценивания) 54
Рис.4.2. Окно предварительной фильтрации фонограммы. Открытие файла фонограммы 57
Рис.4.3. Выбор wav-файла фонограммы 59
Рис.4.4. ВЧ-фильтрация фонограммы. Синий цвет – исходная фонограмма, красный цвет – фильтрованная фонограмма 60
Рис.4.6. Исследуемый сегмент в увеличенном масштабе 61
Рис.4.7. Визуализация коррелограммы исследуемого речевого сегмента 61
Рис.4.8. Визуализация «сечения» коррелограммы (выборочной корреляционной функции) исследуемого речевого сегмента 62
Рис.4.9. Отображение параметров коррелограммы исследуемого участка фонограммы. На нижнем графике показано изменение периода основного тона (в отсчетах) на исследуемом участке фонограммы 62
Рис.4.10. Визуализация коррелограммы НЧ-компоненты речевого сигнала 63
Рис.4.11. Визуализация коррелограммы ВЧ-компоненты речевого сигнала 63
Рис.4.12. График (нижние оси) изменения параметра «Период основного тона речи» НЧ-компоненты речевого сигнала 64
Рис.4.13. График (нижние оси) изменения параметра «Число периодов формантной компоненты (на интервале периода ОТ)» ВЧ-компоненты речевого сигнала 64
Рис.5.1. Блок-схема алгоритма VAD 66
Рис.5.2. Осциллограмма сигналаY(s) 68
Рис.5.3. Гистограмма средних значений отсчетов 68
Рис.5.4. Обнаружение речевой активности для сигнала Y(s) 69
Рис.5.5. Обнаружение речевой активности для исходного речевого сигнала 69
Рис.6.1. Определение частоты основного тона по амплитудному спектру фонограммы 71
Рис.6.2. Автоматическое определение изменения периода основного тона фонограммы «Береза» в программе «Коррелограмма» 71
Рис.6.3. Выборочная корреляционная функция слова «Барабан» 72
Рис.Б.1.1. Основные области применения алгоритмов обработки речи 97
Рис.Б.1.2. Классификация алгоритмов обработки речевых сигналов 99
Рис.Б.2.1. Пример разделения фонограммы на временные сегменты: слово «Забияка» 103
Рис.Б.2.2. Пример разделения фонограммы на временные сегменты: слово «Шесть» 104
Рис.Б.2.3. Ш1-кластер звука «Ш» 104
Рис.Б.2.4. Вз-кластер звука «К» 105
Рис.Б.2.5. Классификация структур В-сегментов 110
Рис.Б.2.6. Варианты структур В-сегментов а) стационарный однокомпонентный сегмент звука «Б» слова «Забияка», б) стационарный бикомпонентный сегмент звука «И» слова «Забияка», в)трендующий кластер звука «Я» слова «Забияка», г) переходный («скачкообразный») сегмент звука «А и Б» слова «Забияка» 111
Рис.Б.2.7. Состав возможных компонент в структуре периода ОТ 112
Рис.Б.2.8. Бикомпонентный кластер звука «З» слова «Забияка» (НЧ + шумовая компоненты) 112
Рис.Б.2.9. Общая блок-схема обработки фонограммы: этапы алгоритмов сегментации 113
Рис.Б.2.10. Детализация 1-го этапа сегментации 114
Рис.Б.2.11. Применение корреляционной обработки для различения кластеров РС: (а) – реализация слова «арбуз», (б) – коррелограмма слова «арбуз», (в1)…(в4) – выборочные кратковременные корреляционные функции РС для разных моментов времени, (в1) – ВКФ для 30-го интервала оценивания (Тот = 120), (в2) – ВКФ для 37-го интервала оценивания (Тот = 145), (в3) – ВКФ для 57-го интервала оценивания (Тот = 125), (в4) – ВКФ для 75-го интервала оценивания (Ш-сегмент), Длина интервала оценивания КФ Lоц_КФ = 160 отсчетов 115
Рис.Б.2.12. Детализация состава алгоритмов обработки вокализованных сегментов (ОТ-кластеров) 116
Рис.Б.2.13. Представление фонограммы в виде кортежа кластеров разных типов 117
Рис.Б.2.14. Звук «З» в слове «Забияка» 117
Рис.Б.2.15. Детализация состава алгоритмов обработки фонограммы при сегментации 118
Рис.Б.3.1. Модификация фонограмм области применения 119
Рис.Б.3.2. Основные этапы работы алгоритма изменения темпа произнесения 121
Рис.Б.3.3. Использование МВС для алгоритма изменения темпа произнесения РС 122
