МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена Трудового Красного Знамени
Федеральное государственное бюджетное образовательное
учреждение высшего образования
Московский Технический Университет Связи Информатики
Факультет
Радио и Телевидение (РиТ)
Кафедра
«Телевидение и звуковое вещание (ТиЗВ)»
ОТЧЁТ
по лабораторной работе №1
по дисциплине «Формирование и первичная обработка звуковых и видео
сигналов»
на тему «Оценка распознаваемости, разборчивости и качества звуковых
сигналов»
Выполнили: |
|
|
|
Студент группы БРВ2201 |
|
Велит А.И. |
|
Студент группы БРВ2201 |
|
Мусаев Д.Ш. |
|
Студент группы БРВ2201 |
|
Зейналов Р.А. |
|
Проверил: |
|
|
|
К.т.н., профессор |
|
|
Попов О.Б. |
Москва 2025г
1 ЦЕЛЬ РАБОТЫ
Цель выполняемой работы – исследовать разборчивость сигнала после определённых частотных махинаций с исходным сигналом; изучение теории формант.
2 ТЕОРИТИЧЕСКАЯ ЧАСТЬ
Формантная теория звука объясняет тембр и характеристики звука через форманты – частоты, на которых происходит усиление обертонов в речевом тракте человека или музыкальном инструменте. Эти резонансные частоты,
меняющиеся в зависимости от положения артикуляционного аппарата,
определяют индивидуальный тембр гласных звуков, а также характеристики голосов и музыкальных инструментов.
Рисунок 3.1.1 – Спектр человеческого голоса с выделенными формантами Первая форманта находится на частоте около 1 кГц, вторая форманта – на
частоте около 2 кГц, а третья – на частоте около 3 кГц. При этом, каждая форманта условно несёт в себе разное количество информации: первая форманта содержит около 65% всей речевой информации, вторая – около 20%, а третья – около 15%. То есть удаление из сигнала, например, первой форманты должно резко снизить разборчивость речи. Однако, как показывает практика, не всё так однозначно.
1
3 ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ
Для выполнения этой лабораторной работы был использован аудиоредактор
Audacity версии 3.7.5 и массив микрофонов ноутбука Maibenben M545. Для исследования был записан речевой сигнал длительностью 15 секунд. Все фильтры имели затухание в 30 дБ.
3.1 Исследование разборчивости звукового сигнала телефонного качества
Сперва необходимо записать отрезок речевого сигнала. Изображение вейвформа записанного сигнала представлена на рисунке 3.1.1, а его спектр – на рисунке 3.1.2.
Рисунок 3.1.1 – Вейвформа исходного речевого сигнала
Рисунок 3.1.2 – Спектр исходного речевого сигнала Далее работа происходит с исходным сигналом в моно, а не стерео канальном
виде.
2
Далее необходимо ограничить речевой сигнал полосовым фильтром с нижней граничной частотой 300 Гц и верхней – 3400 Гц. Это и есть сигнал так называемого «телефонного качества».
Для этого была создана копия исходного сигнала. Далее были поочерёдно применены ФВЧ на 300 Гц и ФНЧ на 3400 Гц. Вейвформа и спектрограмма сигнала телефонного качества представлены ниже, на рисунках 3.1.3 и 3.1.4.
Рисунок 3.1.3 – Вейвформа и сонограмма сигнала телефонного качества
Рисунок 3.1.4 – Спектр сигнала телефонного качества Как видно из рисунка 3.1.3, частоты ниже 300 Гц и выше 3400 Гц
действительно почти отсутствуют. Также изменилась и Вейвформа.
3
Однако, качество и разборчивость сигнала если и изменились, то
лаборанты изменения заметить не смогли.
3.2Исследование устранения формант из сигнала телефонного качества
Вэтом пункте взаимодействие осуществляется с копией сигнала телефонного качества, полученного в пункте 3.1.
Для устранения первой форманты необходимо ограничить частоту сигнала снизу до 1000 Гц. Для этого был применён ФВЧ с граничной частотой в 1 кГц.
Вейвформа и спектр полученного сигнала представлены на рисунках 3.2.1 и 3.2.2.
Рисунок 3.2.1 – Вейвформа и сонограмма телефонного сигнала без первой форманты
Рисунок 3.2.2 – Спектр телефонного сигнала без первой форманты
4
Как видно из рисунка выше, основная энергия сигнала сосредоточена в полосе частот от 1 кГц до 3.4 кГц. При этом разборчивость речи в сигнале осталась на уровне исходного телефонного сигнала. По крайней мере лаборанты заметить падение в разборчивости не смогли.
Далее необходимо «убрать» третью форманту из исходного телефонного сигнала. Для этого необходимо ограничить сигнал сверху частотой 2 кГц. Это осуществилось с помощью ФНЧ с граничной частотой 2 кГц. Вейвформа и спектр полученного сигнала представлены ниже.
Рисунок 3.2.3 – Вейвформа и сонограмма телефонного сигнала без третьей форманты
Рисунок 3.2.4 – Спектр телефонного сигнала без третьей форманты
5
Как видно из рисунка выше, спектр ограничен частотой 2 кГц. При этом, как и в случае удаления первой форманты, разборчивость речи если и изменилась, то на слух лаборанты этого заметить не смогли.
Следующий шаг – удаление из сигнала первой и третьей форманты. То есть объединение экспериментов выше. Спектр и вейвформа полученного сигнала представлены ниже, на рисунках 3.2.5 и 3.2.6.
Рисунок 3.2.5 – Вейвфрма и сонограмма телефонного сигнала без первой и третьей формант
Рисунок 3.2.6 – Спектр телефонного сигнала без первой и третьей формант Как видно из рисунка выше, основная энергия сигнала сосредоточена в
полосе частот от 1 кГц до 2 кГц. В таком телефонном сигнале, по сути состоящем
6
только из второй форманты, наблюдаются искажения, похожие на хрип. Однако разборчивость речи остаётся на уровне исходного телефонного сигала.
4 ВЫВОДЫ
Таким образом, в результате выполнения лабораторной работы было выяснено: сужение частотного спектра, как и удаление формант из речевого сигнала, не влияет на разборчивость сигнала.
Из этого следует вывод, что теория формант, по которой в первой форманте содержится около 65% всей информации сигнала, не подтверждается на практике: удаление первой форманты не повлияло на разборчивость речи. То же самое и с третьей формантой (около 15% информации, в основном эмоциональной): её удаление не повлияло на разборчивость. Даже когда в сигнале осталось всего около 20% (вторая форманта) информации, как утверждает теория, разборчивость осталась неизменной.
7
