Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
68
Добавлен:
02.05.2014
Размер:
359.94 Кб
Скачать

Цифровая аудиоинформация

Все файловые форматы мультимедиа позволяют хранить звуковую информацию. Звуковые данные, подобно графическим и видеоданным, требуют специальных подходов при выполнении операций чтения, записи, обработки и сжатия. Прежде чем перейти к рассмотрению возможностей хранения звука в форматах мультимедиа, целесообразно установить, как звук хранится в виде числовых данных.

Все звуки, которые мы слышим, представляют собой некую форму аналоговых сигналов. Аналоговая звукозаписывающая система, например обычный магнитофон, захватывает амплитуду звуковой волны и сохраняет ее в аналоговой форме на носителе, например на магнитной ленте.

Поскольку современные компьютеры являются цифровыми, а не аналоговыми устройствами, то звуковую информацию для них нужно сохранять в цифровом формате. Цифровая звукозаписывающая система записывает амплитуду волны не как аналоговая система, а захватывает ее в определенные интервалы, определяемые частотой дискретизации (исключение составляет система DAT). Каждый захваченный "моментальный снимок" амплитуды волны преобразовывается в двоичное целое значение, которое затем записывается на магнитную ленту или диск.

Запись звукового сигнала в виде цифровых дискретизированных величин известна как импульсно-кодовая модуляция (РСМ — Pulse Code Modulation). PCM является алгоритмом квантования или оцифровки (преобразование звукового сигнала в цифровой код), который линейно преобразовывает все аналоговые сигналы в цифровые дискретизированные величины. Этот процесс широко применяется для записи звуковых компакт-дисков.

Дифференциальная импульсно-кодовая модуляция (DPCM) — схема кодирования звуковой информации, которая подразумевает квантование разностей между текущими значениями сигнала и предшествующими, а не кодирование самих дискретизированных величин. Поскольку значения этих разностей обычно меньше, чем сами дискретизированные величины, для кодирования той же самой звуковой информации можно использовать меньше битов (например, разница между двумя 16-битовыми дискретизированными величинами равна всего 4 битам). Исходя из этих соображений, DPCM можно рассматривать и как схему сжатия звуковой информации.

Еще одной схемой сжатия аудиоинформации, основанной на квантовании разностей, является адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM). DPCM — это неадаптивный алгоритм, т.е. алгоритм, который не предусматривает изменения способа кодирования данных в зависимости от их содержимого. В DPCM используется заданное количество битов для представления сигналов любого уровня. ADPCM, являясь адаптивным алгоритмом, изменяет схему кодирования с учетом обрабатываемых данных. В ADPCM для кодирования сигналов низкого уровня используется меньше битов, чем для кодирования сигналов высокого уровня. Большая часть широко применяемых схем сжатия аудиоинформации базируется на алгоритме ADPCM.

Цифровые аудиоданные представляют звук в двоичном виде. Они могут записываться в двоичный файл с применением файлового формата для аудио практически тем же способом, которым растровые данные записываются в файл изображения. Эти данные могут читаться программой, передаваться аппаратным средством и даже записываться на пластиковый носитель и компакт-диск.

Качество аудиоданных определяют путем их сравнения с оригинальным звуком, который был оцифрован. Чем более сходны дискретизированные величины и оригинальный звук, тем выше качество оцифровки. Этот процесс подобен сравнению изображения с оригинальным документом или фотографией, с которых было сосканировано это изображение.

Качество аудиоданных характеризуется тремя параметрами:

• разрешением,

• частотой дискретизации,

• количеством звуковых каналов.

Разрешение определяется количеством битов на дискретизированную величину. Чем больше размер дискретизированной величины, тем выше качество дискретизации. Так же, как видимое качество (разрешение) изображения уменьшается при сохранении данных в меньшем количестве битов на пиксель, качество цифровой аудиоинформации уменьшается при записи дискретизированных величин в меньшем количестве битов на величину. Обычные размеры дискретизированных величин — 8 и 16 битов.

Частота дискретизации — это количество замеров амплитуды аналогового сигнала (при сборе данных) за секунду. Чем выше частота дискретизации, тем выше качество аудио. При высокой частоте дискретизации за одну секунду собирается больше данных, чем при низкой, следовательно, при высокой частоте дискретизации для хранения дискретизированных величин требуется больший объем памяти или дискового пространства. Общепринятыми значениями частоты дискретизации являются 44,100 кГц (высокое качество), 22,254 кГц (среднее качество) и 11,025 кГц (низкое качество). Обычно частота дискретизации измеряется в герцах (Гц) и килогерцах (кГц), однако, на наш взгляд, для характеристики данного параметра целесообразнее применять такую единицу измерения, как количество дискретизированных величин в секунду.

Исходный звук может дискретизироваться с применением одного (монофоническая дискретизация) или двух каналов (стереофоническая дискретизация). Двухканальная дискретизация обеспечивает более высокое качество, чем монофоническая, однако и объем подлежащих хранению данных при этом в два раза больше. При дискретизации одного звукового канала с частотой 11000 дискретизированных величин в секунду будет получено 11000 дискретизированных величин за секунду, а при дискретизации двух каналов (при тех же условиях) — 22000.

Объем двоичных данных, полученных в результате дискретизации аудиоинформации в течение нескольких секунд, достаточно велик. Данные, полученные в результате дискретизации одного канала в течение 10 секунд (при 8-битовом разрешении и с частотой 11,025 дискретизированных величин в секунду), будут занимать объем около 108 Кб (88,2 Кбит/с). Если добавить второй канал, то объем данных удвоится (примерно до 215 Кб). А если разрешение увеличить до 16 битов, то объем данных еще раз удвоится (и составит примерно 430 Кб). Повышение частоты дискретизации до 22050 дискретизированных величин в секунду увеличит объем данных до 860 Кб, а при самом высоком качестве (2 канала, 16-битовое разрешение, частота дискретизации — 44100 дискретизированных величин в секунду) для хранения наших 10 секунд аудиоинформации потребуется 1,72 Мб дискового пространства.

Теперь посмотрим, как мало звуковой информации можно реально сохранить за 10 секунд. Песня обычно длится около 3 минут, видеоклип — от 5 до 15 минут, а телевизионная программа — от 30 до 60 минут. Видеофильм может длиться 3 часа и дольше. Давайте представим, какой объем памяти потребуется для хранения такой информации.

Единственным решением проблемы хранения огромных объемов высококачественных звуковых данных является их сжатие. Например, стандарт CD-DA предусматривает дискретизацию (моно или стерео) с 16-битовым разрешением и частотой 44100 дискретизированных величин в секунду, что обеспечивает высокое качество звучания. Для хранения 5 минут информации в формате CD-DA требуется приблизительно 25 Мб дискового пространства — только половина того объема, который заняли бы несжатые данные.

Аудиоданные, как и большинство двоичных, содержат высокую избыточность, которая может быть удалена при сжатии. Эффективность обычных методов сжатия, применяемых многими архиваторами (например, zoo и pkzip) и форматами файлов изображений, при сжатии аудиоинформации не превышает 10—20%. Объясняется это тем, что организация аудиоданных очень отличается от организации двоичных данных или данных ASCII, для обработки которых предназначены эти алгоритмы.

Алгоритмы сжатия аудиоинформации, подобно алгоритмам сжатия изображений, часто сопровождаются потерями. Методы сжатия без потерь позволяют сохранять данные в полном объеме. После распаковки они полностью соответствуют исходным. Простейшей формой сжатия аудио без потерь является кодирование по алгоритму Хаффмена (разности между смежными 8-битовыми дискретизированными величинами).

Схемы сжатия с потерями предусматривают отбрасывание данных с учетом восприятия психоакустической системы человеческого мозга. Часть звуков, которые человек не в состоянии различить, может быть отброшена по причине их бесполезности.

При отбрасывании аудиоданных необходимо действовать очень осторожно. В отличие от глаза, который при смене видеокадров не всегда замечает уменьшения количества цветов, ухо человека улавливает даже незначительные изменения звуков. В первую очередь это относится к людям, которые имеют опыт в определении чистоты воспроизведения. Однако чем выше качество аудио необходимо обеспечить, тем больше исходных данных подлежит хранению. И в этом случае, как при сжатии с потерями изображений, иногда приходится выбирать между качеством данных и их объемом.

Аудио

В настоящее время не существует формата обмена файлами аудио, который мог бы широко применяться в компьютерной аудиоиндустрии. Такой формат должен был бы позволять легко записывать, читать и осуществлять обмен аудиоданными между различными аппаратными платформами и операционными системами.

Большинство существующих файловых форматов аудио ориентированы на определенный тип аппаратуры и мало подходят для обмена. Различные форматы мультимедиа способны инкапсулировать достаточно широкий спектр аудиоинформации, но не поддерживают некоторые новые форматы аудиоданных.

Многие файловые форматы аудио, подобно файлам изображений, имеют заголовки. В заголовках содержатся параметры, характеризующие аудиоданные (частота дискретизации, количество каналов, разрешение, тип сжатия и т.п.), а в некоторых из них имеется и поле идентификатора ("магическое число").

Отдельные форматы не содержат заголовка файла, а включают только неструктурированные данные. Параметры таких форматов, как правило, имеют фиксированные значения, и их запись в заголовок была бы излишней. Форматы поточного типа содержат блоки данных (порции), встроенные в неструктурированные аудиоданные (в "стратегические точки"). Такие форматы машинозависимы и требуют, чтобы программы чтения или преобразования файлов обладали определенными знаниями о значениях таких параметров.

Большинство файловых форматов аудио можно узнать по типу файла или расширению. Общедоступными файловыми аудиоформатами являются:

.AU Sun Microsystems

.SND NeXT

.HCOM Apple Macintosh

.VOC SoundBlaster

.WAV Microsoft Waveform

AIFF Apple/SGI

8SVX Apple/SGI

В мультимедиа-файлах для представления звука может использоваться либо собственный формат аудиоданных, либо уже существующий файловый формат аудио. Файлы Microsoft Waveform являются файлами RIFF с компонентом Waveform, а файлы Apple QuickTime имеют собственную уникальную структуру аудиоданных. Дополнительная информация об аудиофайлах содержится в разделе "Форматы аудиофайлов" главы 1.

Соседние файлы в папке Лекции по компьютерной графике