Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция17_Звук.doc
Скачиваний:
24
Добавлен:
17.04.2015
Размер:
109.57 Кб
Скачать

11

Звук

Звук- это физическое природное явление, распространяющееся посредством колебаний воздуха и, следовательно, можно сказать, что мы имеем дело только с волновыми характеристиками. Задачей преобразования звука в электронный вид является повторение всех его этих самых волновых характеристик. Но электронный сигнал не является аналоговым, и может записываться посредством коротких дискретных значений. Пусть они имеют малый интервал между собой и практически неощутимы, на первый взгляд для человеческого уха, но мы должны всегда иметь в виду, что имеем дело только с эмуляцией природного явления именуемого звуком.

Такая запись именуется импульсно-кодовой модуляциейи являет собой последовательную запись дискретных значений. Разрядность устройства, исчисляемая в битах, говорит о том сколькими значениями одновременно в одном записанном дискрете, берется звук. Чем больше разрядность, тем больше звук соответствует оригиналу.

Любой звуковой файл можно представить как базу данных. Она имеет свою структуру, о параметрах которой указывается обычно вначале файла. Потом идет структурированный список значений по определенным полям. Иногда вместо значений стоят формулы, позволяющие уменьшать размер файла. Для того чтобы Вам было совсем понятно, скажу, что запись файла на жесткий диск подобна тому, как Вы набиваете таблицы в MicrosoftExcel. Естественно данные файлы могут читать только специализированные программы, в которые заложен блок чтения.

РСМ

РСМ расшифровывается как pulsecodemodulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко (я встречал только в программе 3DAudio). Но РСМ является основополагающей для всех звуковых файлов. Я бы не сказал, что это очень экономный метод для хранения данных на диске, но думаю, что от этого уже никогда точно не уйдешь, причем объемы современных винчестеров уже позволяют не обращать внимания на пару десятков мегабайт.

DPCM

Изыскания по поводу экономного хранения звуковых данных на диске. Если Вы встречаете данную аббревиатуру, то знайте, что имеете дело с разностным РСМ. В основе данного метода лежит та вполне оправданная идея, что вычисления гораздо более громоздки по сравнению с тем, что можно просто указать значения разности.

АDPCM

Адаптивный DPCM. При указании просто значений разности может возникнуть проблема с тем, что есть очень маленькие и очень большие значения. В результате, какие бы супер-точные измерения не были все равно имеет место искажение действительности. Поэтому в адаптивном методе добавлен коэффициэнт масштабируемости.

WAV

Самое простое хранилище дискретных даннных. Я бы сказал прямое. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости вwavможет быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF

Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF

Эта технология хранения данных проистекает от Amiga-систем.Interchange File Format. Почти то же, что иRIFF, только имеются некоторые нюансы. Начнем с того, что системаAmiga- одна из первых, в которой стали задумываться о программно-сэмплерной эмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD

Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента. Проще говоря прошитый в синтезатор сэмпл.

AIF или AIFF

Audio Interchange File Format. Данный формат распространен в системахAppleMacintoshиSiliconGraphics. Заключает в себе сочетаниеMODиWAV.

AIFС илиAIFF-С

Тот же AIFF, только с заданными параметрами сжатия (компрессии).

AU

Опять же та же гонка за экономией места. Структура файла намного проще, чем в wav, но там указан метод кодирования данных. Файлы очень мало "весят", за счет чего получили довольно широкое распространение в Интернете. Чаще всего Вы можете встретить параметрыm-Law8 кГц - моно. Но есть и 16-битные стерео-файлы с частотами 22050 и 44100 Гц. Это звуковой формат предназначен для работы со звуком в рабочих системахSUN,LinuxиFreeBCD.

MID

Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.

МР3

MP3 - сокращение от MPEG Layer3. Это один из цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.

MP3 -- потоковый формат. В данном случае это значит, что исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно, а при декодировании конечный сигнал формируется из последовательности декодированных фреймов.

Высокая степень компактности MP3 по сравнению с PCM 16Bit Stereo 44.1kHz (CD Audio) и ему подобными форматами при сохранении аналогичного качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества.

Последнее, в свою очередь, достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона, когда он имеет место, или мощным сигналом, предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма. Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов. Эта и ей подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания.

Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования. Ширина потока (bitrate) варьируется от наибольшего для MP3, равного 320kbs (320 килобит в секунду), до 96kbs и ниже. Термин битрейт обозначает общую ширину потока, безразлично к тому, монофонический или стереофонический сигнал он содержит.

На проведенных тестах специально приглашенные опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в MP3 с коэффициентом сжатия 6:1, то есть с битрейтом в 256kbs.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования. Фактически, и 256kbs не дает возможности осуществить полностью прозрачное кодирование, то же самое можно сказать и про наивысший возможный для MP3 битрейт -- 320kbs, но отличия от CD Audio, по которому кодируется тестовый MP3, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки. То есть, вообще говоря, потери есть, но несущественны с точки зрения того, кому CD Audio представляется верхом качественности.

Поэтому самое большое на сегодня преимущество MP3 перед другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он полностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для MP3. Для MP3 же, с учетом выше сделанной оговорки, такие утверждения справедливы.

Возможно, "монополия" MP3 будет сломлена начинанием Microsoft - WMA. Но пока рано говорить об этом. В то же время, в связи с появлением Microsoft на данном рынке со столь сильно разработкой можно уверенно предположить, что разработки семейства AAC, прямого наследника MP3, уже не успеют завоевать популярности.

Описание процесса кодирования.

1.Подготовка к кодированию. Фреймовая структура.

Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.

2.Начало кодирования.

Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу.

3.Работа психоакустической модели.

Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.

Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.

4.Завершение кодирования.

После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Кроме того, кодирование стереосигналадопустимо четырьмя различными методами:

1. Dual Channel -- Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал -- скажем, текст на разных языках. Выставляется в некоторых кодерах по требованию.

2.Stereo -- Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. В документации к mp3enc замечено, что этим, например, избегается кодирование "тишины" в одном канале, когда в другом есть сигнал. Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs.

3.Joint Stereo (MS Stereo) -- Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты. С другой стороны, уже нашелся любитель, написавший небольшую программу для автоматической коррекции фазового сдвига. Посмотрим, как будет развиваться эта идея. Возможно, любители 128kbs все же смогут какое-то время нормально паковать оцифрованные аудиокасеты, пока более совершенные форматы, чем MP3, не займут его место. Режим выставлен по умолчанию продукцией FhG IIS для битрейтов от 112kbs до 192kbs.

4.Joint Stereo (MS/IS Stereo) -- Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.

В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах.

Несколько слов о разных битрейтах

Разные битрейты дают разное качество. Разные любители MP3 абсолютно по-разному оценивают степень приемлемости одних и тех же битрейтов и имеют свой взгляд на то, какой битрейт следует считать оптимальным. Кто-то выбирает 128kbs, другие 160kbs, третьи золотую середину -- от 192kbs до 256kbs. Некоторые -- 320kbs.

Любые существенные потери качества и нервов, пусть и с утешительным призом в виде дальнейшего уменьшения объема, меня всегда интересовали со знаком минус, и я пользуюсь и собираюсь продолжать пользоваться исключительно 320kbs MP3. Поясню, на чем основан мой выбор.

Тесты профессиональных прослушивателей, нанятых разработчиками формата, для выбранных тестовых композиций показали достаточность 256kbs для сохранения качества звучания, неотличимого человеческим слухом от исходного ( прошу не забывать про оговорку в начале обзора). В дополнение к этому, другие тесты, проведенные французом Gabriel Bouvigne, вебмастером MP3 Tech, (www.mp3tech.org), показали недостаточность для этой цели битрейта 192kbs. С другой стороны, нередко появляются замечания о том, что 256kbs оказывается недостаточно. Иногда это проявляется лишь на некоторых композициях, а иногда сказывается использование достаточно хорошей аппаратуры и не самого плохого слуха. И, хотя документированных доказательств никто не привел, этих высказываний достаточно, чтобы сделать вывод об обоснованности признания 256kbs не самым безупречным битрейтом, так как этого и следовало ждать.

Из этого можно сделать три вывода. Во-первых, битрейт 256kbs следует считать пограничным. Во-вторых, для абсолютного большинства пользователей он действительно совершенно достаточен. В-третьих, для безоговорочно высокого качества все же необходимо несколько увеличить запас.

С другой стороны, те же тесты определили MP3 160kbs... 192kbs как в большинстве случаев вполне приемлемые для хранения аудио на компьютере, например, в компьютерных играх, когда внимание отвлечено.

Следующий после 256kbs битрейт -- 320kbs, он же -- максимальный для кодирования аудио с характеристиками CD Audio, то есть 44.1 kHz 16bit Stereo. В данном случае мы имеем запас в 1/4 от битрейта 256 kbs, и его вполне можно считать достаточным в силу имеющихся данных о степени улучшения качества кодирования при кодировании на 160 kbs вместо 128 kbs. Именно в данном варианте мы имеем дело со степенью качественности, описанной в оговорке в начале обзора.

Таким образом, можно свободно уменьшить объем CD Audio более чем вчетверо, используя 320 kbs, и быть спокойным за сохранение качества, или же с помощью легкого аутотренинга внушить себе спокойствие и использовать

MP3 256 kbs, применяя сжатие в шесть раз. В данном случае выбор -- дело скорее принципа или коммерческой целесообразности.

Так или иначе, используя MP3 256kbs и 320kbs, мы можем без особых проблем создавать свои обширные фонотеки на CDR.

И все же ни для кого не секрет, что самым популярным все же был и остается битрейт 128 kbs, широко разрекламированный в свое время FhG IIS. Но при его использовании мы имеем скорее качество аудиокассеты, записанной на подозрительного происхождения магнитофоне, хотя и с очень низким уровнем шумов. Романтически настроенные разработчики даже почти официально назвали это "CD-качеством", что очень далеко от истины. Впрочем, это традиция -- ADPCM тоже в свое время называли форматом, дающим только неслышимые искажения.

На самом деле различие между качеством звука на битрейтах 128 kbs и 256 kbs/320 kbs принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних. Разумеется, для тех, кому качество средней аудиокассеты кажется великолепным, данная оценка неверна, также она обычно неверна для случаев, когда внимание сильно отвлечено.

VQF

Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF- процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

VOC

Восьмибитный моно-формат от семейства SoundBlaster. Можно встретить в большом количестве старых программ, использующих звук (не музыкальных).

НСОМ

То же самое, что и VOC(восемь бит, моно), но только дляAppleMacintosh.

UL

Стандартный формат U-Law. 8 кГц, 8 бит, моно.

RA

RealAudioили потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

SND

Бывает двух видов. Один - это тот же AUдляSUNиNeXT. Другой - это 8-мибитный моно-файл для РС и Маков с различной частотой дискретизации.

Существуют две технологии записи и воспроизведения звука: аналоговая и цифровая. Известные всем бытовые магнитофоны и проигрыватели долгоиграющих пластинок ориентированы на аналоговую технологию. Запись и воспроизведение звука в компьютере и проигрывателях CD (лазерных дисков) основаны на цифровой технологии.

Звук по природе своей является набором волн, вызванных колебанием физических устройств (струн, мембран). Для того чтобы ввести звук в компьютер, его надо преобразовать в цифровой вид, т.е. представить в виде последовательности цифр (или нулей и единиц в двоичной системе исчисления). Для преобразования аналоговых данных в цифровые используется аналого-цифровой преобразователь (ADC - Analog-to-Digital Converter). Для воспроизведения звука необходим цифро-аналоговый преобразователь (DAC - Digital-to-Analog Converter).

При преобразовании звука в цифровой вид ADC измеряет поступающий сигнал с регулярными интервалами и присваивает цифровые значения уровню звука. Частота измерений называется скоростью выборки. Количество бит, используемых для кодирования данных, называется разрешающей способностью. Например, при записи звука разрешающая способность может быть 4, 8 или 16 бит, а скорость выборки может составлять 11 кГц, 22 кГц, 44 кГц. Чем выше скорость выборки и больше разрешающая способность, тем более качественный звук будет записываться и воспроизводиться.

Для ввода и воспроизведения звука в компьютере нужна аудио плата (карта). Обычно при покупке аудиоплаты пользователю предлагается полный набор аудио устройств компьютера: наушники и колонки, микрофон.

Звук в компьютер можно ввести с микрофона или с любого аудиоустройства, например, с магнитофона. Предварительно эти устройства нужно подключить к аудиоплате. На задней панели аудиоплаты имеется вход "Mic" для подключения микрофона, вход "Line In" для подключения аудиоустройств. Возможно, для подключения придется использовать переходники, поскольку размеры штекеров у бытовых приборов могут отличаться от стандартных размеров входов на плате. Но если вы приобрели микрофон, специально предназначенный для подключения к компьютеру, то проблем с разъемами обычно не возникает. Для того чтобы записать звук с микрофона, можно воспользоваться либо стандартными средствами Windows, либо программным обеспечением, которое поступает пользователю вместе с аудиоплатой.

MIDI-файлы

MIDI(MusicalInstrumentDigitalInterface) - это еще один способ представления звука в компьютере. В отличие отWAVE-файлов, которые хранят цифровое представление звуковых волн,MIDI-файлы хранят только описание звука, представленного как сумма звучания нескольких стандартизованных музыкальных инструментов. Данные вMIDI-файлах представляют собой последовательность записей, содержащих номера нот, их длительность, номера инструментов, а также команды, управляющие звучанием этих музыкальных инструментов.

Аудиокарты, поддерживающие MIDI-формат, имеют встроенные синтезаторы нескольких десятков музыкальных инструментов. Некоторые карты предоставляют возможность создавать собственные инструменты. Качество воспроизведения файловMIDIзависит от звуковой платы, установленной в компьютере: на разных компьютерахMIDI-файлы могут звучать по разному.

Как правило, звуковые карты обеспечивают общий MIDI-стандарт: 128 инструментов, 47 барабанных звуков.

Звуковые карты с MIDI-синтезатором отличаются по количеству воспроизводимых инструментов и качеству звучания инструментов, по возможностям совмещения нескольких инструментов, по количеству нот, хранящихся в памяти, по размерам волновых таблиц.

Для создания MIDI-файлов используется специальное программное обеспечение. Программная среда, имитирующая на компьютере музыкальные инструменты, показывает на экране устройство, внешне похожее на магнитофон с несколькими дорожками. Такие магнитофоны обычно используются в профессиональных студиях записи. Данное устройство хранит музыкальный фрагмент, например, партию скрипки, виолончели или тромбона. При воспроизведении дорожек записанная на них информация собирается вместе в единую последовательность для создания необходимого звука.

MIDI - цифровой интерфейс музыкальных инструментов - был разработан в 1982 году по инициативе нескольких ведущих производителей музыкальных инструментов - Yamaha, Roland, E-mu, Korg и др. Необходимость такого интерфейса была вызвана прежде всего тем, что выпускалось все больше автоматических устройств - ритм-машин и секвенсоров; первые по заданной программе выдавали ритмическое сопровождение с нужным рисунком, вторые использовались для запоминания сыгранных партий с целью последующего автоматического воспроизведения. Кроме этого, большой интерес представляло создание "электронного оркестра", когда один исполнитель мог бы заставить одновременно звучать несколько инструментов, используя только одну или две клавиатуры. Поскольку универсального способа соединения разнородных устройств тогда не было, каждый производитель сам разрабатывал способ соединения (интерфейс) и обеспечивал совместимость только внутри определенной серии своих инструментов. Необходим был единый интерфейс, который позволил бы соединять друг с другом инструменты различных производителей и моделей, с единым способом управления процессом извлечением звука и его параметрами. В результате был создан и принят в качестве общемирового стандарта интерфейс MIDI, устанавливающий как способ соединения инструментов - разъемы, кабели, электрические сигналы (аппаратная часть) так и способ их общения между собой (информационная часть).

Отличия звуковых форматов MIDI и Wave

  • файлы MIDIзначительно меньше по объему, чем файлыWaveпри той же длительности звучания музыкального фрагмента;

  • мелодии в формате MIDIявно относятся к жанру "электронной музыки", в форматеWaveзаписываются "живой" голос и звучание "живых" инструментов;

  • мелодии, записанные в виде MIDI-файла, можно изменять путем несложного редактирования записи на нотном стане, в то время как мелодию в файлеWaveизменять гораздо сложнее;

  • файлы Waveчасто используются в приложениях (при их звуковом оформлении) в виде непродолжительных "аудио-эффектов", файлыMIDIмогут использоваться в качестве длительного фонового музыкального сопровождения.

Соседние файлы в папке Лекции