МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена Трудового Красного Знамени
Федеральное государственное бюджетное образовательное
учреждение высшего образования
Московский Технический Университет Связи Информатики
Факультет
Радио и Телевидение (РиТ)
Кафедра
«Телевидение и звуковое вещание (ТиЗВ)»
ОТЧЁТ
по лабораторной работе №1
по дисциплине «Формирование и первичная обработка звуковых и видео сигналов»
на тему «Оценка распознаваемости, разборчивости и качества звуковых сигналов»
Выполнили: |
|
|
Студент группы БРВ2201 |
|
Велит А.И. |
Студент группы БРВ2201 |
|
Мусаев Д.Ш. |
Студент группы БРВ2201 |
|
Зейналов Р.А. |
Проверил: |
|
|
К.т.н., профессор |
|
Попов О.Б. |
ЦЕЛЬ РАБОТЫ
Цель выполняемой работы – исследовать разборчивость сигнала после определённых частотных махинаций с исходным сигналом; изучение теории формант.
ТЕОРИТИЧЕСКАЯ ЧАСТЬ
Формантная теория звука объясняет тембр и характеристики звука через форманты – частоты, на которых происходит усиление обертонов в речевом тракте человека или музыкальном инструменте. Эти резонансные частоты, меняющиеся в зависимости от положения артикуляционного аппарата, определяют индивидуальный тембр гласных звуков, а также характеристики голосов и музыкальных инструментов.
Рисунок 3.1.1 – Спектр человеческого голоса с выделенными формантами
Первая форманта находится на частоте около 1 кГц, вторая форманта – на частоте около 2 кГц, а третья – на частоте около 3 кГц. При этом, каждая форманта условно несёт в себе разное количество информации: первая форманта содержит около 65% всей речевой информации, вторая – около 20%, а третья – около 15%. То есть удаление из сигнала, например, первой форманты должно резко снизить разборчивость речи. Однако, как показывает практика, не всё так однозначно.
ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ
Для выполнения этой лабораторной работы был использован аудиоредактор Audacity версии 3.7.5 и массив микрофонов ноутбука Maibenben M545. Для исследования был записан речевой сигнал длительностью 15 секунд. Все фильтры имели затухание в 30 дБ.
Исследование разборчивости звукового сигнала телефонного качества
Сперва необходимо записать отрезок речевого сигнала. Изображение вейвформа записанного сигнала представлена на рисунке 3.1.1, а его спектр – на рисунке 3.1.2.
Рисунок 3.1.2 – Вейвформа исходного речевого сигнала
Рисунок 3.1.3 – Спектр исходного речевого сигнала
Далее работа происходит с исходным сигналом в моно, а не стерео канальном виде.
Далее необходимо ограничить речевой сигнал полосовым фильтром с нижней граничной частотой 300 Гц и верхней – 3400 Гц. Это и есть сигнал так называемого «телефонного качества».
Для этого была создана копия исходного сигнала. Далее были поочерёдно применены ФВЧ на 300 Гц и ФНЧ на 3400 Гц. Вейвформа и спектрограмма сигнала телефонного качества представлены ниже, на рисунках 3.1.3 и 3.1.4.
Рисунок 3.1.4 – Вейвформа и сонограмма сигнала телефонного качества
Рисунок 3.1.5 – Спектр сигнала телефонного качества
Как видно из рисунка 3.1.3, частоты ниже 300 Гц и выше 3400 Гц действительно почти отсутствуют. Также изменилась и Вейвформа.
Однако, качество и разборчивость сигнала если и изменились, то лаборанты изменения заметить не смогли.
Исследование устранения формант из сигнала телефонного качества
В этом пункте взаимодействие осуществляется с копией сигнала телефонного качества, полученного в пункте 3.1.
Для устранения первой форманты необходимо ограничить частоту сигнала снизу до 1000 Гц. Для этого был применён ФВЧ с граничной частотой в 1 кГц. Вейвформа и спектр полученного сигнала представлены на рисунках 3.2.1 и 3.2.2.
Рисунок 3.2.6 – Вейвформа и сонограмма телефонного сигнала без первой форманты
Рисунок 3.2.7 – Спектр телефонного сигнала без первой форманты
Как видно из рисунка выше, основная энергия сигнала сосредоточена в полосе частот от 1 кГц до 3.4 кГц. При этом разборчивость речи в сигнале осталась на уровне исходного телефонного сигнала. По крайней мере лаборанты заметить падение в разборчивости не смогли.
Далее необходимо «убрать» третью форманту из исходного телефонного сигнала. Для этого необходимо ограничить сигнал сверху частотой 2 кГц. Это осуществилось с помощью ФНЧ с граничной частотой 2 кГц. Вейвформа и спектр полученного сигнала представлены ниже.
Рисунок 3.2.8 – Вейвформа и сонограмма телефонного сигнала без третьей форманты
Рисунок 3.2.9 – Спектр телефонного сигнала без третьей форманты
Как видно из рисунка выше, спектр ограничен частотой 2 кГц. При этом, как и в случае удаления первой форманты, разборчивость речи если и изменилась, то на слух лаборанты этого заметить не смогли.
Следующий шаг – удаление из сигнала первой и третьей форманты. То есть объединение экспериментов выше. Спектр и вейвформа полученного сигнала представлены ниже, на рисунках 3.2.5 и 3.2.6.
Рисунок 3.2.10 – Вейвфрма и сонограмма телефонного сигнала без первой и третьей формант
Рисунок 3.2.11 – Спектр телефонного сигнала без первой и третьей формант
Как видно из рисунка выше, основная энергия сигнала сосредоточена в полосе частот от 1 кГц до 2 кГц. В таком телефонном сигнале, по сути состоящем только из второй форманты, наблюдаются искажения, похожие на хрип. Однако разборчивость речи остаётся на уровне исходного телефонного сигала.
ВЫВОДЫ
Таким образом, в результате выполнения лабораторной работы было выяснено: сужение частотного спектра, как и удаление формант из речевого сигнала, не влияет на разборчивость сигнала.
Из этого следует вывод, что теория формант, по которой в первой форманте содержится около 65% всей информации сигнала, не подтверждается на практике: удаление первой форманты не повлияло на разборчивость речи. То же самое и с третьей формантой (около 15% информации, в основном эмоциональной): её удаление не повлияло на разборчивость. Даже когда в сигнале осталось всего около 20% (вторая форманта) информации, как утверждает теория, разборчивость осталась неизменной.
Москва 2025г
