Добавил:

chrysler_a57_mltbnk Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

Формирование и первичная обработка звуковых и видео сигналов

Файл:

лаба_1_1_фипоз_метода

.pdf

Скачиваний:

Добавлен:

13.05.2026

Размер:

889.87 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

1. Сигналы и каналы звукового вещания

1.5.Требования к качеству передачи сигналов звукового вещания

Принципиально возможно передать звуковой вещательный сигнал по радиоканалу так, чтобы звучание на выходе акустической системы в помещении прослушивания было неотличимо от исходного (натурального) звучания. Однако это слишком дорогое удовольствие. Для определения того, с каким качеством следует передавать сигнал, в 1950-х годах были проведены объемные исследования для определения заметности искажений в разных социальных, возрастных и региональных группах населения [19].

Для выявления искажений производятся субъективно-

статистические измерения (экспертизы) (ССИ) с помощью группы экспертов. В соответствии с международными рекомендациями, используются разные критерии оценки:

-по баллам (очкам);

-по предпочтительности звучания;

-по заметности изменения звучания.

Первый метод мало точен и зависит от вкусов экспертов. Во втором – трудно определить критерий предпочтительности. Поэтому оба широко используются на практике авторами устройств и алгоритмов передачи для подтверждения их эффективности. Третий лишен недостатков первого и второго и потому наиболее точен.

При проведении ССИ руководствуются следующими правилами:

если слушатели замечают отличия искаженного сигнала от эталонного в 50% случаев, то считается, что это соответствует градации неуверенно заметно; такое качество приемлемо для систем второго (II) класса звучания;

если отличия фиксируются в 30% случаев, то это соответствует градации практически не заметно, что приемлемо для систем

первого (I) класса;

отличия в 15% случаев соответствуют градации не заметно, что характеризует системы высшего (ВК) класса.

Меньше 15% получить заметность не удается, поскольку даже если не искажать сигнал, а только объявить, что он искажен – 15% слушателей заметят, что в нем что-то изменилось. На рис. 1.19 показано, как влияет изменение искажающего параметра К на заметность изменений сигнала, выраженную в относительном числе экспертопоказаний W, в зависимости от подготовленности экспертов и изменений качества звучания.

Изменяя искажающий параметр, т.е. полосу пропускания, коэффициент гармоник и т.д., можно сформировать требования по каждому параметру. На этом основании были установлены требования

26	Цифровая обработка сигналов в трактах звукового вещания

к параметрам качества передачи для каналов разных классов, что было использовано в качестве основы ГОСТ 11515–91 [8, 19].

Рассмотрим далее, как формировались отдельные параметры на конкретных примерах. На рис.1.20 приведены оценки заметности искажений типа ограничения полосы пропускания сверху для трех групп слушателей: звукорежиссеров (1), студентов (2), фермеров (3) (см. также рис.1.7).

W, %

100

50
30
15
ВК	K
I
II
	Квалифицированные слушатели (звукорежиссеры)

Неквалифицированные слушатели

Рис. 1.19. Заметность изменений сигнала в зависимости от подготовленности экспертов (для трех классов качества звучания)

W, %
100
		1	2		3
			2		3
50
12	10	8	6	4	2	f, Гц

Рис. 1.20. Заметность изменений сигнала в зависимости от ограничения полосы пропускания сверху для разных категорий слушателей

1. Сигналы и каналы звукового вещания

W, %
100
		1	2
			2
					3
50
0	50	100	150	200	250	300	f, Гц
0	50	100	150	200	250	300

Рис. 1.21. Заметность изменений сигнала в зависимости от ограничения полосы пропускания снизу для разных категорий слушателей

На рис.1.21 показаны оценки заметности типа ограничения полосы снизу для тех же категорий слушателей.

На рис.1.22 приведены кривые заметности шумов на фоне сигнала (а) и в паузе (б) передачи.

Аналогично можно исследовать заметность и других искажений сигнала. По результатам подобных экспертиз был сформирован ГОСТ 11515–75, определяющий допустимые искажения сигнала для разных классов качества передачи. Основные параметры этого нормативного документа в редакции 1991 г. приведены в табл. 1.2 [8]. Заметим, что в этой редакции стандарта исключены понятия класса качества – каналы характеризуются шириной полосы эффективно передаваемых частот.

W, %				W, %
100				100
50				50
		Nс	дБ					Nс	дБ
		Nш						Nш
-30	-10	-5		-70	-60	-50	-40	-30

а)

б)

Рис. 1.22. Заметность шумов на фоне сигнала (а) и в паузе (б) передачи

28		Цифровая обработка сигналов в трактах звукового вещания
	Т а б л и ц а 1.2. Основные параметры качества звуковых
		вещательных каналов

		Параметр		Класс качества

			высший	первый	второй

	Полоса эффективно передавае-		30…15000	50…10000	100…6300
	мых частот, Гц
	Допустимые отклонения АЧХ, дБ
		в середине полосы	1	2	2
		на краях полосы	+1…–4	+2…–5	+2,5…–5
	Коэффициент гармоник, Кг,%
		< 100 Гц	5	4	–
		< 200 Гц	1,5	2,5	3,5
		> 200 Гц	1,5	2,5	2,5
	Защищенность от интегральной		57	53	47
	помехи, дБ
	Защищенность от внятной пере-		74	70	60
	ходной помехи, дБ

Можно видеть, что требования ГОСТ относятся к сохранению формы сигнала и не могут быть выдержаны в современных каналах передачи ЗВС. К настоящему времени и аналоговые, и цифровые каналы передачи являются адаптивными – изменяющими свои свойства в соответствии со свойствами сигнала. Многочисленные автоматические регуляторы уровня, компандерные системы, шумоподавители, цифровые звенья с компактным представлением ЗВС, заведомо не обеспечивают сохранение формы сигнала, сохраняя только субъективное его качество. Тем не менее, основной принцип, положенный в основу разработки упомянутого стандарта, – степень заметности искажений, сохраняет свою ценность и при создании метрологического обеспечения канала вещания нового поколения.

Таким образом, и сегодня единственным методом оценки качества передачи ЗВС по каналу передачи остаются ССИ. Процедура трудоемкая, длительная и дорогая, на проведение которой решаются только заинтересованные в результатах лица. И хотя существуют международные рекомендации, регламентирующие процедуру проведения экспертиз, избежать осознанного субъективизма при интерпретации их результатов не всегда удается. Все это предопределяет интерес к разработке методов объективного (т.е. инструментального) контроля качества передачи ЗВС по адаптивным каналам передачи с использованием современных методов анализа и представления ЗВС, чему посвящена седьмая глава книги.

1. Сигналы и каналы звукового вещания

1.6.Практическое занятие: оценка распознаваемости, разборчивости и качества звуковых сигналов

С помощью редактора звуковых файлов «Cool-Edit» [32–34] проведем ряд экспериментов с целью разобраться, что, собственно, определяет распознаваемость ЗС вообще и разборчивость речевого сигнала (РС), в частности. Согласно теории, локальные максимумы огибающей амплитудного спектра – форманты определяют распознаваемость конкретного звука – фонемы. На рис. 1.23 приведен формантный портрет ударного звука «А» в слове «мама».

Рис. 1.23. Формантный портрет ударного звука «А» в слове «мама»

1.В меню редактора «Cool» в опции Generate–Тone синтезируйте 5 гармоник от основного тона (примерно 200 Гц) женского голоса. Последовательно синтезируйте еще две группы более высокочастотных гармоник и сведите их вместе с помощью опции микширования Mix Paste раздела Edit. Необходимые для формирования формантного портрета амплитудные соотношения гармоник можно задать сразу в процессе синтеза сигнала, либо при равных амплитудах синтезированного сигнала использовать формирующий фильтр, ко-

торый легко получить в опции Transform–Spectral View–Filter–FFT Filter. Второй путь удобнее, так как позволяет из одного исходного набора гармоник создать несколько фонем с разными формантными профилями. Послушайте, как звучит синтезированный вами звук, и попытайтесь найти в нем сходство с естественным звуком «А», вырезанным из фонограммы или записанным самостоятельно. Скорее всего, никакого сходства вы не обнаружите.

2.Теперь подойдем к проблеме с другой стороны. Считается, что расположение формантных максимумов на частотной оси определяет распознаваемость фонем. Рассмотрим ценность отдельных формант. Разными авторами приводятся различные данные по значимости отдельных формант, их вкладу в разборчивость. Специалисты, занимающиеся разборчивостью, считают, что первая форманта определяет около 60% разборчивости, вторая – около 30%, третья –

30	Цифровая обработка сигналов в трактах звукового вещания

около 15%, четвертая – зависит от размера головы и позволяет пересчитать, при желании унификации, первые три, а пятая, шестая

ипр. – остальное. В то же время ряд специалистов по телефонии считают, что первая форманта определяет громкость сигнала, а основную разборчивость определяет вторая форманта.

Первая форманта расположена в диапазоне частот, простирающемся от основного тона до 1000 Гц, поэтому с этой формантой проще всего – она не пересекается с остальными. Вторая форманта принадлежит диапазону 1000…2400 Гц, третья – диапазону 1800…3200 Гц. Кстати, попробуйте самостоятельно снять формантный портрет отдельной фонемы, желательно ударной, – такие фонемы более длинные. Вы обнаружите существование целого ряда локальных максимумов, причем однозначно определяется только первая форманта – это глобальный максимум до 1000 Гц. На наш недоуменный вопрос языковедам: «Которая же здесь вторая?», мы получили совершенно четкий ответ: «А вы проведите прямую между первой и третьей, и тогда та, которая будет к ней ближе всего, –

иесть вторая».

Тем не менее, можно поверить, что наиболее ценной является первая форманта. В подтверждение этому – следующий факт: до середины 1960-х годов работали телефонные линии Москва– Владивосток, а также трансатлантический кабель, по которым в целях экономии передавался телефонный сигнал с полосой от 300 до 1600 Гц (!), и потребителей это устраивало.

3. Запишите отрезок речевого сигнала: можете с микрофона,

но лучше – с радиотрансляции взять готовый дикторский текст. С помощью опции Transform превратите сигнал в телефонный, ограничив его полосу фильтром от 300 до 3400 Гц (рис. 1.24). При фильтрации желательно использовать не менее 8000 точек и оконную функцию с минимальными боковыми лепестками. Кстати, послушайте, как он звучит, – это так называемое «телефонное качество». Убедитесь, что разборчивость сигнала достаточно высока.

Рис.1.24. Отрезок речевого сигнала «телефонного качества»

1. Сигналы и каналы звукового вещания

4.Попробуем теперь устранить первую форманту – с ней проще всего. Для этого ограничьте спектр телефонного сигнала снизу частотой 1000 Гц и прослушайте полученный сигнал. Вы убедитесь, что разборчивость практически не уменьшилась. Конечно, это не совсем чистый эксперимент, поскольку оценка разборчивости сделана на качественном уровне, а не с использованием специальных артикуляционных таблиц. Теперь попробуйте устранить третью форманту, ограничив сигнал сверху на частоте примерно 2000 Гц. Результат можно было предсказать заранее.

Оценим объем информации, передаваемой сигналом с полосой 1 кГц: необходимая частота дискретизации – около 2,2 кГц, разрядность представления – 0 и 1, т.е. по одному биту на полупериоде.

Витоге получим оценку объема цифрового описания такого сигнала – приблизительно 2,2 кбит/с. Такой способ представления использовался в узкополосных служебных каналах, когда ограничены словарь передаваемой информации и требования к качеству передачи.

5.Попробуем еще больше сократить объем передаваемой информации, ограничив сигнал по амплитуде. В свое время для повышения эффективности информационного вещания в ВЧ диапазоне (т.е. в диапазоне коротких волн) использовались ограничители уровня «Эффект», которые безынерционно ограничивали сигнал сверху и снизу, оставляя практически только переходы через 0 (см. также разд. 1.3). Это позволяло значительно повысить среднюю мощность модулирующего сигнала в системах с амплитудной модуляцией, а соответственно, и мощность боковых и зону охвата. Заметим, что на разборчивости сигнала такое ограничение почти не отразилось.

Для указанной обработки сигнала следует воспользоваться опцией Transform–Special–Distortion, с помощью которой можно сфор-

мировать необходимый симметричный ограничитель. Примерно тот же результат можно получить, воспользовавшись функцией Normalise, с помощью которой следует осуществить нормировку функции на 1000%. В результате функция попадет в зону ограничения, определяемую разрядностью. Послушайте полученный сигнал и убедитесь, что разборчивость сохранилась. Проведите спектральный анализ отдельных фонем и убедитесь, что их формантная структура никак не напоминает исходную.

Напомним, что в музыкальном сигнале смысловая информативность определяется возможностью определить мелодию, инструмент, инструментовку и особенности исполнения, определяемые, в том числе, дирижером. Эти признаки сохраняются при ограничении сигнала по полосе и уровню.

В обработанном вышеприведенным образом сигнале от исходного сохранились лишь переходы через ноль и их модуляция по час-

32	Цифровая обработка сигналов в трактах звукового вещания

тоте, причем низкочастотная. Высокая информативная ценность этих параметров известна и использовалась в системах распознавания и компактного представления.

6. Попытаемся уточнить, что же определяет распознаваемость звукового сигнала. Предлагаемая обработка довольно трудоемка, но зато включает практически все операции, используемые в реальных системах обработки.

Воспользовавшись опцией Transform–Filter–FFT Filter, сформируйте узкополосный фильтр с полосой около 200 Гц и попробуйте с его помощью выделить на каждом отрезке сигнала, длительностью порядка 20…40 мс, только глобальный максимум огибающей амплитудного спектра. Чтобы избежать щелчков на месте стыка сигналов, введите перекрытия со спадом функции к нулю с помощью опции Transform–Amplitude–Envelop. При аккуратном выполнении удается получить на спектральном представлении сигнала узенькую полоску, следующую за глобальным максимумом огибающей амплитудного спектра. При прослушивании такого сигнала сохраняется относительная разборчивость сигнала, однако при этом сигнал характеризуется очень низким качеством и рядом некоррелированных с сигналом искажений. Причина сохранения разборчивости – в сохранении определяющих ее признаков, а вот причиной искажений, во многом, является сам способ фильтрации.

Дело в том, что при реализации узкополосного фильтра на основе БПФ происходит подмена исходного сигнала набором стационарных на времени анализа гармонических колебаний. Более подробно искажения при представлении и обработке сигнала в частотной области с помощью БПФ будут рассмотрены в разд. 2.4 и 4.9, здесь же важно подчеркнуть, что за счет усреднений искажается тот самый процесс низкочастотной модуляции сигнала, который оставался в сигнале и определял разборчивость. Аналогичные искажения появляются и при попытке узкополосного представления сигнала с помощью перестраиваемых по частоте цифровых фильтров.

Поиски способа неискажающей адаптивной цифровой фильтрации продолжаются, и вы можете принять в них участие! Однако на данном этапе важно обратить внимание на то, что в сигнале, представленном на каждом временном интервале полосой в 200 Гц, сохраняется разборчивость РС (для музыкального сигнала – смысловая информативность). Объем информации, необходимый для передачи такого сигнала, соответственно в пять раз меньше, чем

впредыдущем случае.

7.Нами рассмотрена избыточность сигнала по уровню и частоте. Рассмотрим далее его избыточность во временной области. Из-

вестна неравная ценность речевого сообщения во времени, напри-

1. Сигналы и каналы звукового вещания

мер паузы можно минимизировать, что и делается при передачах информационного вещания. Изменяется при подготовке программ и общая скорость передачи без изменения тональности. Такая возможность заложена природой слуха, в котором скорость восприятия речевого сигнала в несколько раз выше, чем скорость речеобразования. Провести эксперименты по изменению темпа без изменения тональности вы можете в опции Transform. Кстати, область мозга, ответственная за речеобразование у женщин, почти вдвое больше, чем у мужчин, что соответствует запаздыванию в развитии речи на несколько десятков тысяч лет. Вероятно, это и было причиной матриархата, обеспечив женщинам возможность проведения согласованных физических акций против бессловесных мужчин…

Различна информационная ценность звукового сигнала и на длительности отдельного звукового объекта. Как отмечалось выше (см. разд. 1.3), начало звучания – атака – определяет основную смысловую информативность. В речевом сигнале атаки составляют около 15% длительности, их устранение приводит к полной неразборчивости сигнала и напротив – при передаче только атак сохраняется разборчивость сообщения. При передаче музыкального сигнала с устраненными атаками даже опытный музыкант не может определить инструмент, на котором исполнена мелодия. В ряде работ утверждается, что при создании систем распознавания анализ только атак позволяет создать «дикторонезависимые» системы, а гласные звуки нужны только для перестройки речеобразующего аппарата к произнесению следующей согласной. При разработке методов компактного представления утверждается, что имеется возможность устранить при передаче все, кроме атак, а на приемном конце синтезировать недостающую информацию по остаткам имеющейся, зная закономерности синтеза сигнала. Проведем исследование такой возможности.

Наиболее сложной является сегментация сигнала на отдельные участки. Заметим, что эта операция трудно поддается автоматизации, но достаточно просто может быть выполнена вручную. На рис.1.25 приведен отрезок речевого сигнала, включающего несколько фонем, а на рис.1.26 – результат сегментации РС. С помощью опции Edit–Normalise на 0 удается устранить отрезки сигнала, соответствующие участкам относительной стационарности.

Прослушивая полученный сигнал, вы обнаружите, что разборчивость сохранилась, однако очень мешают щелчки, соответствующие обрывам функции. Для их устранения попробуйте производить устранение сигнала, начиная с точки пересечения нулевой оси. Скопируйте последний полный период колебания и заполните им участок до следующей атаки. С помощью опции Transform-Invelop установи-

34	Цифровая обработка сигналов в трактах звукового вещания

те привычный вид развития сигнала во времени – этот участок сигнала обычно определяется процессами реверберации помещения, в котором производится запись, а также спадом уровня в речеобразующем аппарате.

Рис.1.25. Исследуемый отрезок речевого сигнала

Рис. 1.26. Результат сегментации речевого сигнала

Прослушайте полученную запись. При аккуратном выполнении рекомендаций вы сможете сохранить разборчивость сигнала и узнаваемость диктора, однако сигнал изменится, приобретя определенную музыкальность. Это связано с постоянством временных характеристик сигнала, что не характерно для реального речевого сигнала, поскольку основной тон РС непрерывно модулируется с частотой около 8 Гц – за счет отслеживания частоты, определяемой скоростью костного распространения звука между звуковыми связками и периферическим слуховым анализатором. Эта естественная модуляция в нашем эксперименте убрана, а постоянство того единственного периода, из которого мы синтезировали участок относительной стационарности, более характерно для статических резонаторов музыкальных инструментов. Кстати, этот эффект не всегда учитывается при изменении тональности речевого сигнала для устранения узнаваемости, например в процессе интервью с сокрытием

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке лаба 1

#
13.05.20261.4 Mб000_лаба_1_1_фипоз_отчёт.docx
#
13.05.2026463.99 Кб000_лаба_1_1_фипоз_отчёт.pdf
#
13.05.2026889.87 Кб0лаба_1_1_фипоз_метода.pdf
#
13.05.202613.43 Mб0лаба_1_1_фипоз_сигнал.aup3