Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 12 Аудио система ПК .doc
Скачиваний:
21
Добавлен:
01.05.2015
Размер:
251.39 Кб
Скачать

14Лекция 12. Аудио система персонального компьютера

Вопросы:

  1. Основы цифровой обработки сигналов.

  2. Звуковая карта ПК.

  3. Интерфейсы звуковых карт.

Литература: 1. Гук. М. Аппаратные средства IBM PC. Питер, 2005, с.660-703.

      1. Основы цифровой обработки сигналов.

Как известно, слышимые звуки представляют собой механические колебания, достигающие ушей слушателя обычно по воздуху. Диапазон частот, воспринима­емых человеческим ухом, простирается от 20 Гц до 20 кГц, причем наибольшая чувствительность приходится на частоты 2-5 кГц. В этой области ухо воспринимает сигналы в динамическом диапазоне около 140 дБ1 (отношение звукового давления болевого порога к порогу слышимости 107). На краях частотного диапазона динамический диапазон сужается до 50 дБ (чувствительность уха существенно снижается, а давление болевого порога уменьшается). Разговорная речь в спектре занимает область примерно 200 Гц-4 кГц при динамическом диапазоне около 40 дБ. Музыка может занимать практически весь слышимый диапазон частот и требовать динамического диапазона 70-90 дБ. Важной особенностью слуха является способность к локализации источника звука, обеспечиваемая его бинауральным восприятием. Дело в том, что звуковые волны воспринимаются обоими ушами, которые пространственно разнесены. Колебания от одного источника достигают ушей с разной амплитудой и фазой, что позволяет мозгу оценить направление (азимут) источника звука. Сигналы с частотами ниже 300 Гц локализуются плохо, поскольку длина волны относительно размера головы велика. Наибольшее значение для локализации имеют частоты от 1 до 3,2 кГц. Бинауральное восприятие позволяет не только локализовывать, но и выделять отдельные источники (например, отдельные инструменты в оркестре).

1 Децибелл (дБ) — логарифмическая мера измерения мощности Р относительно условно принятого нулевого уровня Р, определяется как 10log(P/P0). Когда речь идет об усилении/затухании напряжения сигнала, используют формулу 20log(U/U0). Усилению в 10 раз соответствует +20 дБ, ослаблению в 2 раза соответствует -6 дБ. Частоты одноименных нот соседних октав отличаются в 2 раза («центр» — нота «ля» первой октавы — 440 Гц), что делает удобной логарифмическую шкалу частот.

10log(P/P0)

2

1 ля 1 ля2 f

Для передачи, хранения, воспроизведения и синтеза звуков традиционно используются преобразования акустических колебаний в электрические (микрофон) и обратно (динамик). Первоначально вся промежуточная обработка (усиление, преобразования) сигналов производилась в аналоговой форме, естественной для оконечных электромеханических преобразователей. Хранение, опять-таки в аналоговой форме, выполнялось на механических (грампластинки) или магнитных (магнитофонные ленты) носителях. Для повышения достоверности звукопередачи, включая пространственное расположение источников звука, применяется двухканальная передача и хранение — стереофония. Упрощенно ее идея -заключается в разделении трактов сигналов, предназначенных для левого и правого уха слушателя. Такая система позволяет создать иллюзию звуковой панорамы — кажущиеся источники звука (КИЗ) располагаются на воображаемой сцене, расположенной перед слушателем. Однако пара колонок не позволяет добиться большой ширины зоны стереоэффекта. Прослушивание через головные телефоны не всегда удобно и тоже не дает полной иллюзии присутствия — поворот головы в сторону КИЗ приведет к его уходу в ту же сторону. Более сложные системы используют большее число каналов, например 4 в квадрафонии. Здесь колонки располагаются вокруг (спереди и сзади) слушателя, что позволяет получить эффект присутствия внутри некоторого озвученного объема. Есть и промежуточные варианты между дорогой квадрафонией и фактически стандартной стереофонией — квази- и псевдоквадрафония.

Аналоговое представление сигналов для обработки (фильтрации, создания различных эффектов) и хранения имеет массу недостатков. Во-первых, все устройства в той или иной степени обладают нелинейными передаточными характеристиками — проходящий через них гармонический (чисто синусоидальный) сигнал «обрастает» гармониками — составляющими с частотами, кратными основной. Мерой искажений, вносимых нелинейностью, является коэффициент гармоник, он же коэффициент нелинейных искажений (к.н.и.), который определяется как отношение мощности гармоник выходного сигнала к мощности основного тона:

∑Pi

к.н.и.=─ i=2 100%

P (о.т.)i=1

Эти искажения вносят все элементы тракта, так что их всюду стремятся минимизировать. Для современных высококачественных усилителей считается хорошим значение к.н.и. в десятые и сотые доли процента, для электромеханических преобразователей (особенно динамиков) значения гораздо выше.

Следующая беда — шумы и помехи, характерные для любой аналоговой техники. Они сужают динамический диапазон устройства. Отношение сигнал/шум порядка 90-100 дБ для аналоговых устройств удалось получить сравнительно недавно.

Что касается хранения информации, то и здесь аналоговая форма наиболее уязвима — грампластинки «запиливаются», магнитные ленты осыпаются и размагничиваются, в результате ранее записанный сигнал при воспроизведении силь­но искажается. Потери происходят и при тиражировании — каждая перезапись или перепечатка вносит свою долю искажений.

С развитием электроники появилась возможность большую часть «путеше­ствия» электрического сигнала производить в цифровой форме. Теперь входной сигнал (от микрофона) после предварительного усиления оцифровывается.

В цифровой форме он может передаваться, храниться (долго и без накопления ошибок), подвергаться различным искусственным преобразованиям. При воспроизведении производится обратное преобразование в аналоговую форму, оконечное усиление и преобразование в акустические колебания.

Для оцифровки аналогового сигнала применяется дискретизация по времени и квантование по уровню. Это означает, что регулярно с частотой дискретизации производятся выборки мгновенного значения аналогового сигнала (рис. 12.1). Эти выборки квантуются при помощи аналогово-цифрового преобразователя АЦП (ADC — Analog-Digital Converter). На выходе АЦП информация представляется в виде двоичного кода — то есть числом, которое может принимать одно из множества дискретных значений, определяемых разрядностью преобразователя. Очевидно, чем выше разрядность, тем точнее это число может представлять мгновенное значение аналогового сигнала. «Может» потому, что для точности характеристика преобразователя должна быть еще монотонной и линейной. В идеале передаточная характеристика преобразователя выглядит ровной «лесенкой» с одинаковыми ступеньками (линейность) и без провалов (монотонность). Поскольку мгновенные значения сигнала не «обязаны» попадать на ступеньки этой лесенки, при преобразовании возникают шумы квантования — отклонения квантованного значения от реального, в среднем, половина кванта. Для высококачественной передачи музыки разрядность преобразователя должна составлять, по крайней мере, 16 бит, что имеется в аудио-CD.

Рис. 12.1. Оцифровка аналогового сигнала

Выбор частоты дискретизации определяется теоремой Котельникова: для адекватного восстановления частота дискретизации должна быть больше удвоенной частоты высших спектральных составляющих входного сигнала. Чтобы не интересующие нас более высокие частоты не искажали оцифровку, они должны быть тщательно отфильтрованы. В том же CD частота 44,1 кГц позволяет воспроизводить сигнал в полосе до 20 кГц — весь слышимый спектр.

Обратное преобразование выполняется с помощью цифро-аналогового преобразователя ЦАП (DAC — Digital-Analog Converter), на вход которого поступает цифровой поток с той же частотой. Аналоговый сигнал после ЦАП должен быть опять-таки отфильтрован — частоты выше половины частоты квантования подавляются. К устройству ЦАП предъявляют те же требования по разрядности, линейности и монотонности. Разрядность АЦП и ЦАП может и не совпадать — эффективная разрядность тракта будет определяться наименьшим значением (включая разрядность находящегося между ними цифрового канала передачи или хранения информации.

На выходе АЦП мы имеем поток данных с интенсивностью 16 бит х 44,1 кГц = 705,6 Кбит/с (88,2 Кбайт/с) на один канал, а при стерео — около 1410 Кбит/с (176 Кбайт/с). Очевидно, что с понижением частоты дискретизации пропорционально снизится и доступная полоса частот. Снижение разрядности приведет к повыше­нию погрешности — уровня шумов квантования. Каждый отброшенный двоичный разряд повысит уровень этого шума на 6 дБ. Если нас интересует только разборчивая передача речи, можно «опуститься» до 8-битного преобразования с частотой 5 кГц — в моно это даст поток около 5 Кбайт/с. При этом на дискету 1,44 Мбайт можно уместить около 5 минут речи с низким качеством. А одна минута стереомузыки с качеством CD занимает около 10 Мбайт (на CD умещается до 74 минут), так что есть повод задуматься о компрессии, т.е. сжатии информации звука.

1.1. Методы сжатия звуковой информации.

Простейший способ цифрового представления сигналов называется импульсно-кодовой модуляцией (ИКМ) или РСМ (Pulse-Code Modulation). Поток данных РСМ представляет собой последовательность мгновенных значений или выборок (samples) в двоичном коде. Если применяемые преобразователи имеют линейную характеристику (мгновенное значение напряжения сигнала пропорционально коду), то данная модуляция называется линейной (Linear PCM). В случае ИКМ кодер и декодер не выполняют преобразования информации, а только занимаются упаковкой/распаковкой бит в байты и слова данных. Интенсивность потока (bit rate) определяется как произведение частоты дискретизации (sample rate) на разрядность и на число каналов. Аудио-CD дает поток 44 100 х16х2= 1411 200 бит/с (стерео).

Для реальных звуковых сигналов кодирование с линейной ИКМ является неэкономичным. Поток данных можно сократить, если использовать несложный алгоритм сжатия, применяемый в системе дельта-ИКМ (ДИКМ), она же DPCM (Differential Pulse-Code Modulation). Упрощенно этот алгоритм выглядит так: в цифровом потоке передаются не сами мгновенные отсчеты, а масштабированная разность реального отсчета и его значения, сконструиро­ванного кодеком по ранее сгенерированному им потоку данных. Разность пере­дается с меньшим числом разрядов, чем сами отсчеты. В АДИКМ (адаптивная | ДИКМ, или ADPCM — Adaptive Differential Pulse-Code Modulation) масштаб разности определяется по предыстории — если разность монотонно растет, маcштаб увеличивается, и наоборот.

Конечно, восстановленный сигнал при таком представлении будет больше отличаться от исходного, чем при обычной ИКМ, но можно добиться существенного сокращения потока цифровых данных. ADPCM стала широко применяться при цифровом хранении и передаче аудиоинформации (например, в голосовых модемах). Алгоритм ADPCM с точки зрения процессора PC может быть реализован как программно, так и аппаратно средствами звуковой карты (модема).

Более сложные алгоритмы и высокая степень сжатия применяются в аудио- -кодеках MPEG. В кодере MPEG-1 входным потоком являются 16-битные выборки с частотой 48 кГц (профессиональная аудиотехника), 44,1 кГц (бытовая техника) или 32 кГц (применяется в телекоммуникациях).

Стандарт определяет три «слоя» (layer) сжатия — Layer I, Layer 2 и Layer 3, работающие один поверх другого.

Первоначальная компрессия осуществляется на основе психофизических свойств звуковосприятия. Здесь обыгрывается свойство маскирования звуков: если в сигнале имеются два тона с близкими частотами, существенно различающиеся по уровню, то более мощный сигнал замаскирует слабый (он не будет услышан). Пороги маскирования зависят от удаленности частот.

В MPEG весь диапазон звуковых частот разбивается на 32 поддиапазона (sub-band), в каждом поддиапазоне определяются наиболее мощные спектральные составляющие и для них вычисляются пороги частот маскирования. Эффекты маскирования от нескольких мощных составляющих суммируются. Действие маскирования распространяется не только на сигналы, присутствующие одновременно с мощным, но и на предшествующие ему за 2-5 мс (premasking) и последующие в течение до 100 мс (postmasking). Сигналы маскированных областей обрабатываются с меньшим разрешением, поскольку для них снижаются требования к отношению сигнал/шум. За счет этого «загрубления» и происходит сжатие. Компрессию на психофизической основе выполняет слой Layer 1.

Следующий этап (Layer 2) повы­шает точность представления и более эффективно упаковывает информацию. Здесь у кодера в работе находится «окно» длительностью 23 мс (1152 выборки).

На последнем этапе (Layer 3) применяются сложные наборы фильтров и нели­нейное квантование. Наибольшую степень сжатия обеспечивает слой Layer 3, для которого при высо­кой достоверности декодирования достигается коэффициент сжатия 11:1.

1.2. Методы обработки звуковой информации

При цифровом хранении легко реализуются многие эффекты, которые ранее требовали громоздких электромеханических или электроакустических устройств или сложной аналоговой электроники.

Прежде всего, это искусственная реверберация и эхо.

Известно, что в закрытом помещении (например, зале) от источни­ка до слушателя доходит не только прямой звук, но и отраженный (многократ­но) от различных поверхностей (стен, колонн и т. п.). Отраженные сигналы при­ходят относительно прямого с различными задержками и затуханием. Это явление называется реверберацией. И Этим явлением при цифровой обработке сигнала можно управлять. При цифровом хранении легко реализуются многие эффекты, которые ранее требовали громоздких электромеханических или электроакустических устройств или сложной аналоговой электроники.

Прежде всего, это искусственная реверберация и эхо.

Известно, что в закрытом помещении (например, зале) от источни­ка до слушателя доходит не только прямой звук, но и отраженный (многократ­но) от различных поверхностей (стен, колонн и т. п.). Отраженные сигналы при­ходят относительно прямого с различными задержками и затуханием. Это явление называется реверберацией. И Этим явлением при цифровой обработке сигнала можно управлять.

На основе смещения выборок можно делать и более сложные эффекты. В цифровой форме представления легко имитируется эффект Допплера — изме­нение частоты при быстром приближении источника звука к слушателю или уда­лении источника от слушателя. С этим эффектом сталкивались все — однотон­ный свисток приближающегося поезда звучит выше, а удаляющегося — ниже реального тона. В цифровом виде при воспроизведении накопление отставания выборок приведет к понижению тона, а сокращение отставания — к повышению.

Кроме фокусов с задержками возможно использование цифровой фильтрации — от реализации простейших темброблоков и эквалайзеров до «вырезания» голоса из песни (эффект «караоке»). Все определяется программным обеспечением и вычислительными ресурсами процессора.

На основе смещения выборок можно делать и более сложные эффекты. В цифровой форме представления легко имитируется эффект Допплера — изме­нение частоты при быстром приближении источника звука к слушателю или уда­лении источника от слушателя. С этим эффектом сталкивались все — однотон­ный свисток приближающегося поезда звучит выше, а удаляющегося — ниже реального тона. В цифровом виде при воспроизведении накопление отставания выборок приведет к понижению тона, а сокращение отставания — к повышению.

Кроме фокусов с задержками возможно использование цифровой фильтрации — от реализации простейших темброблоков и эквалайзеров до «вырезания» голоса из песни (эффект «караоке»). Все определяется программным обеспечением и вычислительными ресурсами процессора.