Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ.doc
Скачиваний:
15
Добавлен:
18.09.2019
Размер:
5.68 Mб
Скачать

3.2. Форматы записи-воспроизведения аудиосигналов

Формат МРЗ

МРЗ — сокращение от MPEG Laver3. Это один из основных цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирова­ния по сравнению с двумя другими и обеспечивает более высо­кое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования Audio CD.

Высокая степень компактности МРЗ при сохранении качест­ва звучания достигается с помощью дополнительного квантова­ния по установленной схеме, позволяющей минимизировать по­тери качества.

Степень сжатия и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользовате­лем при задании параметров кодирования. Ширина потока, или битрейт (bitrate) может изменяться от наибольшего для МРЗ (320 кбит/с) до 96 кбит/с и даже ниже. Термин битрейт обозначает общую ширину потока, независимо от того, монофо­нический или стереофонический сигнал он содержит.

При испытаниях опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодирован­ного в МРЗ с коэффициентом сжатия 6 : 1, т. е. с битрейтом в 256 кбит/с.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирова­ния. Объективно и 256 кбит/с не дает возможности осуществить полностью обратимое кодирование, то же самое можно сказать и про наивысший битрейт — 320 кбит/с, но отличия от CD Audio, по которому кодируется тестовый МРЗ, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки.

Поэтому самое большое на сегодня преимущество МРЗ пе­ред другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он пол­ностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для МРЗ.

Файл формата МРЗ (обычно используется расширение *.трЗ) может также содержать информацию о файле непосред­ственно в заголовке: имя исполнителя, графику (альбом диска), URL для дальнейшей информации, текст песни и т. д.

Процесс кодирования. Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из кото­рых кодируется отдельно и помешается в конечный файл неза­висимо от других. Последовательность воспроизведения опреде­ляется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них со­держится в заголовке фрейма.

Кодирование начинается с того, что исходный сигнал с по­мощью фильтров разделяется на несколько, представляющих от­дельные частотные диапазоны, сумма которых эквивалентна ис­ходному сигналу.

Для каждого диапазона определяется величина маски­рующего эффекта, создаваемого сигналами соседних диа­пазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сиг­нала в нем оказывается ниже определенного опытным путем по­рога слышимости, то для данного фрейма данный диапазон сиг­нала не кодируется.

Для оставшихся данных каждого диапазона определяется, сколькими битами на сэмпл можно пожертвовать, чтобы по­тери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 дБ.

После завершения работы психоакустической модели фор­мируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Кроме того, кодирование стереосигнала осуществляется че­тырьмя различными методами:

• Dual Channel — каждый канал получает ровно половину потока и кодируется отдельно, как моносигнал. Рекомен­дуется главным образом в случаях, когда разные каналы

содержат принципиально разный сигнат — скажем, текст на различных языках;

  • Stereo — каждый канал кодируется отдельно, но кодер мо­жет принять решение отдать одному канату больше места, чем другому;

  • Joint Stereo (MS Stereo) — стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколь­ко увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не сов­падающие;

  • Joint Stereo (MS/IS Stereo) — вводит еще один метод упро­щения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некото­рых частотных диапазонов оставляется уже даже не разно­стный сигнал, а только отношение мощностей сигнала в разных каналах. Очевидно, для кодирования этой инфор­мации употребляется еще меньший битрейт. MS Stereo — частный случай MS/IS Stereo, когда переменная, отвечаю­щая за кодируемый таким образом диапазон, принимает нулевое значение.

Скорости передачи. На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие ко­торых нередко серьезно меняет эмоциональную окраску компо­зиции, придает или лишает ее таких эффектов, как ощущение «кристальной чистоты» звука (в той мере, в которой она присут­ствует в CD Audio). Кроме того, в соответствии с психоакустиче­ской моделью, высшие (более 16 кГц) частоты на низких бит­рейтах кодируются с очень низким приоритетом. Кроме того, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 кбит/с могут оказаться «смазанными» верхние частоты, наблюдается эффект «шепелявости». Узкое место всех схем компрессии класса MPEG — участки с резкими измене­ниями сигнала. В случае МРЗ задержка может достигать величин порядка 160 мс, теоретический минимум — 59 мс.

На высших битрейтах при последовательном применении психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании ко­дера.

Битрейты порядка 112—128 кбит/с по качеству неплохи для прямых трансляций и ознакомительного прослушивания, но от­нюдь не для создания архивов музыки качества CD Audio.

Любители МРЗ по-разному оценивают степень приемлемо­сти одних и тех же битрейтов и имеют свой взгляд на то, какой именно битрейт следует считать оптимальным. Одни выбирают 128 кбит/с, другие — 160 кбит/с. третьи золотую середину: 192—256 кбит/с, некоторые — 320 кбит/с.

Из этого можно сделать три вывода. Во-первых, битрейт 256 кбит/с следует считать пограничным. Во-вторых, для абсо­лютного большинства пользователей он действительно достато­чен. В-третьих, для высокого качества следует несколько увели­чить запас скорости.

С другой стороны, те же гесты определили диапазон 160—192 кбит/с как в большинстве случаев вполне приемлемый для хранения аудио на компьютере, например, в компьютерных играх, когда внимание отвлечено.

Следующий после 256 кбит/с битрейт — 320 кбит/с, он же — максимальный для кодирования аудио с характеристиками CD Audio, т. е. 44,1 кГц 16 бит Stereo. В данном случае мы имеем запас в '/4 от битрейта 256 кбит/с, и его вполне можно считать достаточ­ным в силу имеющихся данных о степени улучшения качества ко­дирования при кодировании на 160 кбит/с вместо 128 кбит/с.

Однако различие между качеством звука на битрейтах 128 кбит/с и 256 кбит/с / 320 кбит/с принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних.

В Internet, как правило, можно найти только МРЗ, закодиро­ванные с битрейтом 128 кбит/с. Этот битрейт был признан также оптимальным для использования в Internet.

В XingTech был разработан кодер, использующий технику переменного битрейта (VBR). при которой разные участки трека кодируются с разным битрейтом, исходя из степени их сложно­сти для кодирования.

Другие форматы

WAV. Формат WAV является метаформатом для данных лю­бого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содер­жаться данные, не имеющие отношения к аудио.

Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным фай­лом, и если установлен — подключает его.

Кодеки, индивидуальные для каждого полформата, регистри­руются в системе при их установке, после чего становится воз­можным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.

Стандарт МРЗ не определяет никакого точного стандартного математического алгоритма кодирования, его разработка цели­ком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последователь­ности фреймов могут передаваться потоком (streaming) или хра­ниться в файлах.

Часто к последовательности фреймов добавляют стандарт­ный заголовок мета-аудиоформата WAV и получается то, что на­зывают WAV-МРЗ.

VQF. Этот формат разработан компанией NTT. Алгоритм ко­дирования широко не разглашается, но если сравнить результа­ты кодирования в форматах VQF и МРЗ. то можно заключить, что алгоритмы имеют очень мало общего и основаны на совер­шенно разных подходах к сжатию звука.

Самая сильная сторона формата — степень сжатия. VQF-файл с компрессией 80 кбит/с по качеству идентичен МРЗ-файлу. записанному в 128 кбит/с. степень сжатия превос­ходит МРЗ более чем на 30 °с. Главный недостаток алгоритма — высокое потребление системных ресурсов.

WMA. В 1998 г. компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. Через некоторое время компания отделилась от проекта и на ос­нове разработок VQF создала новый формат, получивший назва­ние Voxware Audio Codec 4.0. Он стал первым алгоритмом сжа­тия, обеспечивающим качество 128 кбит/с МРЗ-файлов при цифровом потоке в 64 кбит/с.

OGG Verbis. Этот формат был опубликован летом 2000 г. В это же время появилась бета-версия его кодера. После втрое более медлительного по сравнению с WMA процесса кодирова­ния на выходе при 128 кбит/с получается звук, близкий к ориги­нальной записи.

В файле OGG может содержаться до 255 каналов, т. е. можно кодировать многоканальные потоки вроде Dolby Digital. Кроме того, в OGG-файды можно встраивать графические изображения и тексты, которые могут возникать по ходу воспроизведения.

МРЗРго. Создателем МРЗРго является частная компания Coding Technologies. Созданная в 1997 г.. компания занимается разработкой и маркетингом кодеков на основе технологии SBR (Spectral Band Replication). У Coding Technologies два солидных стратегических партнера — Fraunhofer Institute и Thomson Multimedia.

Прежде всего своим появлением она обязана возникнове­нию потребности передачи цифровой музыки в реальном вре­мени через Internet (Internet-радио и т. д.), а также для мо­бильных компьютеров и различных портативных цифровых плейеров. Ограниченная скорость передачи или малый объем памяти вынуждают использовать низкие битрейты при сжатии музыки, применяя форматы МРЗ или ААС. Использование бо­лее скоростных способов связи, таких, как ISDN или xDSL, не обеспечивает постоянного потока данных из-за перегрузки сети internet.

Технология SBR дополняет использование психоакустиче­ских моделей. Ее идея такова: при кодировании передавать чуть более узкий диапазон частот, при этом, естественно, обрезая «верхи», а при декодировании верхние частоты восстанавлива­ются, основываясь на информации о более низких частотах.

Формат МРЗРго в отличие от стандартного МРЗ содержит два потока, один из которых обычный Layer Ill-поток, а второй содержит информацию, на основе которой декодер восстанавли­вает самые верхние частоты. Поэтому файл, сжатый с использо­ванием МРЗРго (имеющий расширение *.трЗ), может быть вос­произведен и обычным проигрывателем, но с частотой дискре­тизации 22 кГц, так как плейер воспримет только первый поток.

DVD-аудио. Известно, что первым оптическим носителем данных, ставшим широко доступным публике, был хорошо зна­комый аудиокомпакт-диск. Компьютерной промышленности потребовалось несколько лет для того, чтобы понять, что ком­пакт-диск является идеальной средой для того, чтобы сохранять ;t распределять большие количества цифровых данных, и только в 1990 гг. устройства CD-ROM стали стандартными компонен­тами ПК.

С появлением DVD производители CD начали создавать стандарты более высококачественного воспроизведения. Среди них — аудиокомпакт-диск высшего качества (SACD или Super Audio CD), диск цифровой звукозаписи (DAD или Digital Audio Disc).

Эти стандарты предполагают диски с разрешающей способ­ностью (уровни квантования) 24 бита и частотой выборки в 96 кГц, в противоположность обычному CD с форматом 16 бит и 44,1 кГц. Кроме того, формат SACD обладает обратной совмес­тимостью с существующими проигрывателями — факт, который может помочь в сражении за потребителя.

Когда DVD появились в 1996 г., еще не был предусмотрен формат DVD-Audio и только в начале 1998 г. DVD-Форум в со­трудничестве с ключевыми производителями промышленности музыки выпустил проект такого стандарта [24, 25]. Специфика­ция DVD аудио VI.0 была выпушена весной 1999 г., но потребо­вался еще год, прежде чем вышла спецификация VI.2, в которой были добавлены зашита от копирования и создание водяных знаков.

Основное преимущество спецификации DVD-аудио сравни­тельно с DVD-видео и компакт-диском заключается в значи­тельном увеличении качества при записи в аудиоформате РСМ (Pulse Code Modulation или импульсно-кодовая модуляция).

DVD-аудио обеспечивают значительно более высокое каче­ство РСМ-аудио, чем возможно на компакт-диске или DVD-ви­део. DVD-аудио РСМ может быть записан с диапазоном частот, который более чем в 4 раза шире, чем для CD, что предоставляет живость и выразительность, невозможные на компакт-диске. DVD-аудио РСМ также имеет намного больший динамический диапазон, чем это возможно на компакт-диске. — делающий громкие звуки громче, а тихие — более тихими.

Таблица 3.1 сравнивает технические спецификации для РСМ на DVD-аудио и стандартном компакт-диске.

Звуковое окружение театральной системы (Digital Theatre Systems Digital Surround или DTS) — формат аудиокодирования, подобный цифровой системе Долби, которому для воспроизве­дения требуется декодер, находящийся в проигрывателе либо во внешнем приемнике [25]. Система предполагает шесть каналов: один для басового громкоговорителя плюс пять для динами-

Таблица 3. 1. Технические спецификации для РСМ-кодирования

Спецификация

DVD-Audio

CD

Аудиоформат

PCM

PCM

Емкость диска, Гбайт

4,7 - однослойный 8,5 - двухслойный 17 - двусторонний двухслойный

650 Мбайт

Число каналов

До 6

2 (стерео)

Полоса пропускания, кГц

0-96 (макс.)

5-20

Динамический диапазон, дБ

144

96

Частота дискретизации (2 канала), кГц

44,1, 88,2, 176,4 или 48, 96, 192

44,1

Частота дискретизации (много каналов)

44,1, 88,2 или 48,96

N/A

Разрешающая способность (уровни оцифровки), бит

12, 16, 20 или 24

16

; Скорость передачи (макс.), Мбайт/с

9,6

9,6

ков — слева спереди, в центре спереди, справа спереди, слева сзади, справа сзади — и иногда утверждают, что DTS звучит луч­ше, чем Dolby Digital из-за более низкого коэффициента сжатия. Как и для видео, качество аудио зависит от того, насколько хо­рошо были выполнены обработка и кодирование сигнала. Не­смотря на сжатие, системы Dolby Digital и DTS обеспечивают качество лучшее, чем CD.

Вместимость двухслойного диска DVD-аудио — по крайней мере до 2 ч для полного, окружающего звука, и до 4 ч для сте­реозвука. Вместимость однослойного диска — вполовину ниже.

Сравнительные характеристики некоторых форматов. На рис. 3.4 приводятся амплитудно-частотные характеристики (АЧХ) аудиосигналов:

  • исходный звук (WAVE-файл);

  • результаты кодирования-декодирования каждым из коде­ков: МРЗ на 128 и 192 кбит/с; МРЗРго на 64 и 96 кбит/с; WMA на 64 и 96 кбит/с.

Жанры музыки, выбранные для тестирования:

Dance — современная танцевальная музыка (Gala «Keep The Secret», ритмичный и богатый различными стереоэффектами фрагмент);

Рис. 3.4. Характеристики кодирования-декодирования различных (|юрматов

д

Jazz — джаз с живыми исполнителями (Joe Cocker «Could You Be Loved», исключительно живая музыка с мощным муж­ским вокалом и женским бэк-вокалом, насыщенная на средних и высоких частотах);

Pop — поп-музыка с вокалом (Nek «Laura No Esta», ита- ло-поп с ярко выраженным вокалом и, соответственно, богаты­ми средними частотами).

На АЧХ, представляющих танцевальную музыку и битрейты, соответственно 128 кбит/с для МРЗ и 64 кбит/с для МРЗРго и WMA (рис. 3.4, а), легко заметить, что на частотах до 10 кГц все кодеки выглядят практически одинаково, не считая провала на 30 Гц у МРЗ, который, правда, не будет заметен на слух.

В случае джаза, где реальные инструменты звучат в сочета­нии с различными вокалами (рис. 3.4. б) следует отметить МРЗ/128, как обеспечивающий наиболее точный результат. Не­смотря на то, что фильтрация верхнего диапазона начинается уже на 15,5 кГц, передача высоких частот до этого момента дос­таточно точная. В случае МРЗРго/64 звук более богат деталями высоких частот.

В случае поп-музыки (рис. 3.4, в) лидером является МРЗРго.

При рассмотрении более высоких битрейтов (рис. 3.4, г, д), заметно, что все кодеки ведут себя более предсказуемо, при этом ближе всех к форме оригинальной АЧХ графики у МРЗРго и МРЗ, a WMA не передает ряд мелких деталей.

Если говорить о поп-музыке, то теперь WMA не искажает вокал Nek и звучит очень хорошо, примерно на уровне МРЗ в 128 —160, хотя этого и не скажешь, глядя на графики АЧХ. По частотному балансу МРЗРго 96 и МРЗ 192 идут практически на одном уровне.

Вполне естественно, что увеличение потока приведет к улуч­шению и такой более сложной для кодирования музыки, как джаз.

Программные средства записи-воспроизведения звука

Большинство МРЗ-файлов производится из материала, на­ходящегося на аудиокомпакт-диске. Это — двухступенчатый процесс, первая стадия включает преобразование дорожек из формата цифровой звукозаписи CD-DA (CD-Digital audio) к формату WAV. Есть программы, которые могут произвести МРЗ непосредственно из аудио CD, но они достигают этого, все же выполняя извлечение аудио из компакт-диска как на­чальный шаг процесса. Задача выполняется специализирован­ными программами, известными как CD-Ripper (взломщики CD). Программа читает дорожки аудиокомпакт-диска в цифро­вой форме и записывает их на жесткий диск как WAV-файлы. Четырехминутная дорожка (трек, фонограмма) занимает около 40—50 Мбайт формата WAV (расширение .wav), так что пре­образование полного компакт-диска требует большое простран­ство на жестком диске.

Вторая стадия в процессе заключается в конвертировании . wav-файла в формат .трЗ. Этот шаг использует специализиро­ванное программное обеспечение и программы, которые испол­няют эту задачу, известны как кодеры МРЗ. МРЗ-файлы могут создаваться, используя разнообразие норм сжатия, разрешая пользователям выбрать оптимальное соединение количества и качества. Как правило, доступны следующие варианты:

  • качество компакт-диска — сжатие 12:1, поток данных (битрейт) между 128 и 192 кбит/с;

  • почти качество компакт-диска — сжатие в пре­делах 18:1;

  • качество радио ЧМ — сжатие может быть 70:1, ско­рость — 64 кбит/с.

МРЗ Maker. Программный продукт Magix 2004 МРЗ Maker (рис. 3.5, 3.6) реализует следующие преобразования звуковых данных:

  • дорожка аудиоСО — файл МРЗ;

  • микрофонный или линейный вход — файл МРЗ;

  • файл МРЗ — аудиоСО и пр.

Winamp. Winamp является весьма популярным плейером, это мультимедиа плейер с поддержкой неограниченного числа фор­матов (рис. 3.7). При этом используются декодеры, предостав­ляемые производителями. В целом система напоминает работу Windows с WAV-файлами. Он является одним из самых развитых плейеров, и не только МРЗ. Большинство МРЗ-файлов, доступ­ных через Internet, закодировано в формате 44 кГц и 128 Кбит/с, который приводит к хорошему коэффициенту «качество/размер» для файла МРЗ.

■ ■Л.

6

а

5S6B

Рис. 3.5. МРЗ Maker Diamond, исходный экран: а — регулятор и индикатор громкости каналов; б — панель выбора файлов; в — графический визуалнзатор аудиосигнала («цветомузыка»): г — пульт управ­ления записью-воспроизведением

И»»»:' teCO

fCi 1 ! — * J 0

I в; RV7T

liyd'C.'SCSUsfc ritG&i

Reosicirg-

il } ; Ш , H

Рис. 3.6. МРЗ Maker Diamond, экран настройки режима записи МРЗ: а — выбор источника сигнала; б — настройка кодера (128 кбит/с); в — индика­тор уровня; г — задание режима сжатия сигнала

•V " =

= WINAMP

• ■

*++ 1. F.SHOPIN. BfiLLfffiS -2\

I

jkbps [kHz

MgHllllaB.::Wg[HK Ш0 I

j.

^ 4

5013 П31

ЩЩ Ш1ВШЭДШ /


Рис. 3.7. Основной экран-пульт управления Winamp: 1 — индикатор спектра сигнала; 2 — информация из заголовка файла (автор, исполнитель и пр.); 3 — регулятор громкости: 4 — регулятор баланса каналов; 5 — управление воспроизведением; 6 — графический эквалайзер; 7 — програм­ма (список) воспроизведения (plavlist): 8 — клавиши редактирования програм­мы: добавить файл — ADD, удалить — REM