Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Максимова.doc
Скачиваний:
11
Добавлен:
01.04.2025
Размер:
20.86 Mб
Скачать

11. Обработка аудиоинформации

11.1. Основные свойства звука

11.2. Цифровое представление звука

Цифро-аналоговое и аналого-цифровое преобразование

Достоинства и недостатки цифрового звука

11.3. Восприятие звука человеком

11.4. Хранение звука в цифровом виде

Форматы представления цифрового звука

11.5. Компрессия аудиоданных

Проблема сжатия звуковой информации. Терминология

Обзор алгоритмов сжатия звуковой информации

Метод Хаффмана

Метод Шеннона-Фано

Арифметический метод

Метод Лемпеля-Зива-Уолша (LZW)

Кодирование пауз

ИКМ и связанные с ней методы сжатия информации

Клиппирование речевого сигнала

Избыточность речевого сигнала. Вокодер

Более сложные методы сжатия

Быстрое преобразование Фурье (БПФ)

Психоакустическая модель

Некоторые характеристики технологии MPEG

Технология MP3

AAC-кодирование

TwinVQ-кодирование

11.6. Краткое содержание темы (слайды)

11.7. Ссылки и литература для дальнейшего изучения

11.8. Задание

11.1. Основные свойства звука

Звук – это волнообразно распространяющееся колебательное движение частиц упругой среды (воздуха, воды и т.д.).

Любой предмет, совершающий возвратно-поступательные движения (камертон, струна рояля или гитары, наши голосовые связки и т.д.), вызывает в воздухе попеременное уменьшение или увеличение плотности. Движения одних молекул воздуха передаются другим молекулам, в результате чего в пространстве распространяются периодически повторяющиеся зоны увеличения и уменьшения плотности. Они-то и представляют собой звуковую волну (Рис.11.1.а). Если мы в каком-то месте поставим прибор, способный реагировать на изменение плотности воздуха, запишем его показания в течение некоторого времени и составим график зависимости плотности от времени, то получим кривую, близкую к синусоиде, знакомую нам по учебникам физики (Рис.11.1.б). Именно такие колебания и улавливаются нашим ухом, в результате чего мы получаем ощущение звука.

а) Физический смысл звуковой волны

б) График зависимости плотности от времени

Рис.11.1. Звуковая волна

Количество колебаний воздуха в секунду называется частотой звука. Волны с разной частотой воспринимаются нами как звук разной высоты: волны с малой частотой воспринимаются как низкие, басовые звуки, а волны с большой частотой – как высокие. Частота измеряется в Герцах (Гц): 1 Гц = 1 колебание в секунду; или килогерцах (кГц): 1 кГц = 1000 Гц. Большинство людей от 18 до 25 лет реально способны слышать колебания воздуха с частотой от 20 до 20000 Гц (с возрастом верхняя граница восприятия уменьшается). Именно этот диапазон волн называется звуковым диапазоном. Кстати говоря, наши уши устроены таким образом, что когда мы слышим два звука, частоты которых относятся как 2:1, то нам кажется, что эти звуки близки друг к другу и при одновременном воспроизведении они для нас как бы сливаются. Именно на этом эффекте основана музыкальная шкала высоты звуков, у которой одна и та же нота повторяется каждую октаву. То есть в натуральном звукоряде частоты одинаковых нот соседних октав соотносятся между собой как 2:1.

Частота волны обратно пропорциональна длине волны отрезку на оси распространения волны, в котором умещается полный цикл (период) изменения плотности воздуха. Чем больше частота звука, тем меньше длина волны и наоборот. Длину волны очень легко вычислить по формуле

L=C/f,

где C – скорость звука (344 м/с в воздухе при температуре 20C), а f – частота звуковых колебаний. Например, волна, имеющая частоту 100 Гц, имеет длину 344/100=3,44 м.

Амплитудой звуковой волны называется половина разницы между самым высоким и самым низким значением плотности. На графике амплитуде будет соответствовать разница между самой высокой (или низкой) точкой волны и горизонтальной осью графика.

Для описания относительных временных свойств двух звуковых волн (или разных частей одной волны) вводится понятие фазы звуковой волны. Посмотрите на рисунок 11.2. На первом графике показаны две волны, которые полностью совпадают друг с другом. В этом случае говорят, что волны находятся в фазе. На третьем графике в том месте, где у одной волны находится область высокой плотности, у другой – область низкой плотности. В этом случае говорят, что волны находятся в противофазе. При этом если волны одинаковые, происходит их взаимное уничтожение (в природе это бывает крайне редко, чаще противофазные волны при наложении сильно искажают звук). Средний график показывает некое промежуточное положение. В этом случае говорят, что фаза одной волны сдвинута относительно другой.

Рис 11.2. Фазы звуковой волны

Любая звуковая волна, которая распространяется в пространстве, может оказывать на встречающиеся препятствия (в том числе и на наши барабанные перепонки) некое давление. Люди, которые бывали на рок-концертах и стояли около мощных колонок не понаслышке знают, что оно может быть очень и очень сильным. Мы субъективно воспринимаем изменение давления звуковых волн в виде ощущения изменения громкости звука. Максимальное изменение давления в воздухе при распространении звуковых волн по сравнению с давлением при отсутствии волн называется звуковым давлением. Как и любое другое, звуковое давление измеряется в Паскалях (Па).

Но в акустике, при оценке интенсивности звуковых волн чаще применяется другое понятие – сила звука. Оно показывает поток звуковой энергии, который каждую секунду проходит через квадратный сантиметр условной плоскости, расположенной перпендикулярно направлению распространения волны. Звуковое давление и сила звука находятся в квадратичной зависимости. То есть, сила звука равна звуковому давлению в квадрате. Сила звука описывает энергетические свойства самой волны и измеряется в ваттах/квадратный сантиметр (Вт/см2). Такая единица бывает очень удобна при некоторых расчетах – это единственная причина ее введения.

Для того, чтобы мы смогли услышать тот или иной звук, его сила должна быть больше определенного уровня. Этот уровень называется порогом слышимости. То есть, если звуковая волна имеет малую интенсивность – ниже этого порога, мы просто не воспринимаем ее, и нам кажется, что вокруг стоит полная тишина, хотя на самом деле воздух вокруг колеблется. Точно так же дело обстоит и со звуками большой интенсивности – мы слышим звук только до определенного уровня, который называется болевым порогом. Если сила звука больше этого уровня, то мы испытываем боль в ушах. Разница между уровнями болевого порога и порога слышимости называется динамическим диапазоном слуха. Динамический диапазон человеческого слуха исключительно широк: в области наибольшей чувствительности уха (1–4 кГц) энергия самого сильного звука, ещё не вызывающего болевых ощущений, примерно в 1012 раз превышает энергию едва слышимого звука той же частоты.

Наш слуховой аппарат устроен таким образом, что линейное изменение силы звука (или звукового давления) не воспринимается нами как линейное изменение громкости. Громкость звука и его сила связаны между собой более сложной зависимостью. Увеличение громкости в два раза соответствует увеличению силы звука в 100 раз (звукового давления – в 10 раз), увеличение громкости в 3 раза соответствует увеличению силы звука уже в 10000 раз (звукового давления – в 100 раз), а увеличение громкости в 4 раза соответствует изменению силы звука в 108 раз (звукового давления – в 10000 раз)! Такая зависимость называется логарифмической, и именно из-за такой особенности нашего восприятия изменение уровня (громкости) звука принято измерять в логарифмических единицах – белах (Б).

Различие величин силы звука в белах вычисляется по формуле:

N=lg I1/I2,

где N – изменение уровня звука, а I1 и I2 – верхняя и нижняя границы силы звука. Десятикратное увеличение силы звука соответствует 1 белу (lg10=1), а стократное увеличение соответствует двум белам (lg100=2) и т. д. Словом, логарифмическая шкала позволяет достаточно сильно «сжимать» линейную шкалу, сохраняя при этом достоверность. И именно такая шкала полностью соответствует особенностям нашего слуха.

Изменение уровня звука в один бел одинаково отражает и изменение силы звука, и изменение звукового давления. Если подставить в вышеприведенную формулу соответствующие значения звукового давления (памятуя, что сила звука равна звуковому давлению в квадрате), то получите те же самые значения изменения уровня в белах. Судите сами:

N= lg I1/I2=lg (P1/P2)2=2lg P1/P2,

где P1 и P2 – верхняя и нижняя границы звукового давления.

Проверяем. Изменение звукового давления в 100 раз соответствует изменению силы звука в 10000 раз (I=P2). Подставляя эти значения в вышеприведенную формулу, мы получаем следующие вещи: lg10000=4 бела (изменения силы звука); 2lg100=2х2=4 бела (изменения звукового давления). Как видите, в обоих случаях мы получили одинаковые изменения уровня звука в белах.

Но на практике оказывается, что бел – это слишком большая величина для изменения уровня. Поэтому чаще применяется децибел (дБ) – десятая часть бела. То есть изменение уровня в децибелах будет вычисляться по формуле N=10lgI1/I2 или N=20lgP1/P2. Минимальный перепад уровня, который способно воспринять наше ухо, как раз равен одному децибелу. Это одна из главных причин введения такой системы измерения уровня. А весь динамический диапазон слуха составляет 120 дБ. Согласитесь, что гораздо удобней оперировать единицами, которые мы можем услышать.

Изменение уровня звука обычно оценивается в децибелах относительно порога слышимости. Когда говорят, что уровень звука в колонках равен 100 дБ, подразумевают, что колонки работают на уровне, превышающем порог слышимости на 100 дБ.

Для того, чтобы как-то почувствовать такой непростой способ измерения уровня звука (лишь отражающий парадоксальность нашего слухового восприятия), мы приведем таблицу со знакомыми вам звуковыми объектами и уровнями звука, которые они производят. Просмотрев эту таблицу, вы сможете более наглядно представить себе логарифмическую шкалу уровня.

Звуковые объекты

Уровень звука, дБ

Слуховой порог

0

Шепот на расстоянии 1 м

20

Шум в квартире

40

Шепот на расстоянии 10 см

50

Тихий разговор на расстоянии 1 м

50

Аплодисменты

60

Игра на акустической гитаре пальцами; звук на расстоянии 40 см

70

Тихая игра на фортепиано

70

Игра на акустической гитаре медиатором; звук на расстоянии 40 см

80

Шум в метро во время движения

90

Громкий голос на расстоянии 15 см

100

Фортиссимо (максимально энергичный пассаж) оркестра

100

Реактивный самолет на расстоянии 5 м

120

Барабанный бой на расстоянии 3 см

140

Кстати говоря, последняя строчка таблицы показывает уровень звука, превышающий болевой порог. Поэтому никогда не пытайтесь послушать звук барабана прямо у мембраны: ощущения будут очень неприятные.

Теперь давайте более подробно поговорим о громкости звука – нашем субъективном ощущении от звуковых волн, имеющих разный уровень (звуковое давление, силу). Наше ощущение громкости во многом зависит от частоты звука. Высокие и низкие звуки, имеющие одинаковый уровень, субъективно воспринимаются нами как звуки разной громкости. А значение уровня звука и субъективно слышимой громкости совпадают только на частоте 1000 Гц. На основании исследований человеческого слуха были построены графики, которые известны каждому звукорежиссеру как кривые равной громкости. На них изображены линии (они расположены через 10дБ на частоте 1000Гц), которые соответствуют одинаково воспринимаемой громкости на разных частотах (см. рис.11.3). Легко можно видеть, что мы гораздо лучше слышим на средних частотах. А вот на низких и высоких частотах чувствительность слуха притупляется.

Рис. 11.3. Кривые равной громкости

Из графика кривых равной громкости следует важный для практической деятельности вывод. Посмотрите на рисунок – наиболее линейно мы воспринимаем звук при уровнях 80–90 дБ. То есть при таких уровнях громкости наши уши наиболее адекватно передают звуковую картину. Поэтому любые работы по корректировке звучания фонограмм лучше всего делать при достаточно высокой громкости звука в акустических системах – 80–90 дБ (примерно такой же уровень имеет шум в вагоне метро – см. таблицу). Если мы будем заниматься работой со звуком при меньших уровнях, то вероятность ошибки будет возрастать, так как восприятие низких и высоких частот будет притупляться.

Гитарист может извлекать из своего инструмента высокие и низкие, громкие и тихие звуки. Но что гитару делает гитарой? Почему ее звук отличается от звука фортепиано? Все объясняется довольно просто: реальные звуки представляют собой созвучия, состоящие из нескольких простых звуковых волн. Комбинация звуковых волн дает тембр инструмента или голоса.

У каждого созвучия есть основной тон – волна определенной частоты, которая имеет наибольший уровень. Например, у ноты Ля первой октавы эта волна имеет частоту 440 Гц. Но вместе с ней звучат и другие волны, частота которых в 2, 4, 8 раз и т.д. выше, чем у основного тона (эти звуки располагаются через октаву). В музыке они называются обертонами. В акустике принята немного другая терминология. И основной тон, и обертона называются гармониками и имеют порядковый номер в зависимости от высоты: основной тон – первая гармоника, первый обертон – вторая гармоника и т.д.

Сейчас существует два основных способа записи звука: аналоговый и цифровой. Но для того, чтобы записать звук на какой-нибудь носитель (например, магнитофонную кассету), его нужно преобразовать в электрический сигнал. Это делается с помощью микрофона. Самые простые микрофоны имеют мембрану, которая колеблется под воздействием звуковых волн. К мембране присоединена катушка, перемещающаяся синхронно с мембраной в магнитном поле. В такой ситуации в катушке возникает переменный электрический ток. Изменения напряжения тока точно отражают изменения плотности воздуха в звуковых волнах.

Рис. 11.4. Преобразование звуковых волн в электрический сигнал

Переменный электрический ток, который появляется на выходе микрофона, называется аналоговым сигналом. Слово "аналоговый", применительно к электрическому сигналу, обозначает, что этот сигнал непрерывен по времени и амплитуде. Он точно отражает форму звуковой волны, которая распространяется в воздухе.

У любого бытового усилителя есть ручка громкости. С ее помощью вы изменяете уровень электрического сигнала, который подается на акустические системы, заставляя последние звучать тише или громче. Обычно в электронике для измерения уровня сигнала используются единицы напряжения: вольты или более мелкие единицы – милливольты. Однако в звуковых приложениях принято измерять уровень сигнала в уже описанных выше в разделе «Уровень и громкость звука» логарифмических единицах – децибелах. Причем изменение уровня сигнала в усилителе на 5 дБ приводит к изменению уровня звука в акустических системах на те же самые 5 дБ. Это очень удобно, поэтому все измерители уровня как бытовых, так и профессиональных звуковых устройств показывают уровни в логарифмических единицах.

В электронике применяются отрицательные значения уровня, выраженного в децибелах. Шкала начинается с минус бесконечности (отсутствие напряжения) и доходит до нуля. Положительные значения уровня указывают на перегрузку звукового тракта и, соответственно, возникновение искажений.

Как и в случае со звуковыми волнами, значение изменения уровня переменного электрического сигнала в децибелах рассчитывается по формуле, описанной выше, только значения звукового давления (силы звука) меняются на значения напряжения:

N=20lgU2/U1,

где U2 и U1 – это конечное и начальное напряжение сигнала. За 0 дБ принято напряжение в 0,775 В.

Когда говорят о звуковых электрических сигналах и их обработке, то удобнее показывать все происходящее на графиках. Чаще применяют два графика: амплитудный и амплитудно-частотный.

Первый показывает зависимость амплитуды сигнала от времени (Рис.11.5). С его помощью очень удобно иллюстрировать все процессы воздействия на динамический диапазон сигнала. Кроме этого все современные компьютерные программы записи и обработки звука сразу представляют фонограмму в виде ее амплитудной характеристики. Все монтажные операции гораздо удобнее делать над таким графическим представлением сигнала: вы видите все паузы, начала и концы полезного сигнала и т.д.

Рис. 11.5. Зависимость амплитуды сигнала от времени

Амплитудно-частотная характеристика применяется в тех случаях, когда нужно посмотреть частотный спектр сигнала. Такой график показывает зависимость уровня сигнала от его частоты. Вы очень легко сможете посмотреть, какой уровень имеет любая частотная полоса. С помощью амплитудно-частотной характеристики удобно иллюстрировать процессы корректировки тембра звука. А в практической работе полезно не только слушать результаты своих действий, но и визуально оценивать их.

Амплитудно-частотная характеристика может иметь два варианта представления. Часто используется двухмерный график (сонограмма), который иллюстрирует частотный спектр сигнала в определенный момент времени. Но в любой фонограмме спектр может меняться, например, в моменты вступления других музыкальных инструментов. Поэтому для его динамического представления используется трехмерный график амплитудно-частотной характеристики, в который добавляется ось времени (Рис.11.6). Вы можете посмотреть все изменения частотного спектра, которые происходят в фонограмме.

Рис. 11.6. Трёхмерная сонограмма

В студиях звукозаписи для отображения амплитудно-частотной характеристики фонограмм используются приборы, которые называются анализаторами спектра (Рис.11.7). Они, как правило, измеряют уровень 31 частотной полосы, которые располагаются через 1/3 октавы. Результаты измерений выводятся на дисплей в виде «столбиков», которые меняют свою высоту в зависимости от уровня той или иной полосы. Анализаторы спектра часто встраиваются и в бытовые музыкальные центры, однако в бытовом варианте они редко имеют больше 7–10 полос.

Рис. 11.7. Студийный анализатор спектра сигнала