Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Максимова.doc
Скачиваний:
10
Добавлен:
01.04.2025
Размер:
20.86 Mб
Скачать

11.3. Восприятие звука человеком

Все процессы записи, обработки и воспроизведения звука, так или иначе, работают на один орган, которым мы воспринимаем звуки – ухо. Без понимания того, что мы слышим, что нам важно, а что нет, в чем причина тех или иных музыкальных закономерностей – без этих и других мелочей невозможно спроектировать хорошую аудио аппаратуру, нельзя эффективно сжать или обработать звук.

Особенности восприятия:

  • Частотный спектр воспринимаемый человеком (примерно) от 20 Гц до 20 кГц, наибольшая чувствительность в диапазоне от 2 до 4 кГц.

  • Динамический диапазон – около 96 дБ.

  • Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% при частоте порядка 1 кГц.

  • Если два сигнала различаются менее чем на 1дБ по амплитуде – они трудноразличимы. Разрешение по амплитуде зависит от частоты, и наибольшая чувствительность наблюдается в диапазоне от 2 до 4 кГц.

  • Пространственное разрешение (способность к локализации источника звука) – до 1 градуса.

  • Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько запаздывает.

  • Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2 мс.

  • Некоторые исследования показывают, что человек в состоянии ощущать частоты выше 20 кГц. Маленькие дети могут слышать частоты даже до 40 кГц! С возрастом частотный диапазон сужается.

Некоторые характерные особенности речи:

  • Частотный спектр, несущий информацию в человеческой речи: от 500 Гц до 2 кГц;

  • Низкие частоты – басы и гласные;

  • Высокие частоты – согласные;

  • Лучшее сжатие речи достигается с использованием параметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие речи.

Устройство уха

В общем случае ухо – нелинейная система и не может быть точно описано с помощью только линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200 Гц может также быть слышен третий тон с частотой 800 Гц. Однако в интересующем нас диапазоне амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.

Ухо состоит из трех основных частей: ушной раковины (также называемой внешним ухом), среднего уха и внутреннего уха – улитки. Проходя через различные части уха, звук претерпевает изменения.

Снаружи мы видим так называемое внешнее ухо. Одна из функций внешнего уха (ушной раковины) – улучшение локализации источника звука в пространстве. Благодаря ее несимметричной форме, АЧХ сигналов, приходящих из разных точек пространства, изменяется по-разному. Ушная раковина может влиять лишь на сигналы с длиной волны, сопоставимой с размерами уха (>3 кГц). Внешний ушной канал резонирует на частоте около 2 кГц, что дает повышенную чувствительность в данном диапазоне.

Затем идет слуховой канал – примерно 0.5 см в диаметре и около 3 см в длину. Далее – барабанная перепонка, к которой присоединены кости – среднее ухо. Смысл наличия среднего уха в том, что колебания воздуха слишком слабы, чтобы напрямую колебать жидкость, и среднее ухо вместе с барабанной перепонкой и перепонкой внутреннего уха составляют гидравлический усилитель – площадь барабанной перепонки во много раз больше перепонки внутреннего уха, поэтому давление (которое равно F/S) усиливается в десятки раз.

Среднее ухо также защищает от низкочастотных звуков чрезмерной амплитуды.

Кости среднего уха передают вибрацию барабанной перепонки далее – на другую перепонку, во внутреннее ухо – трубку с жидкостью, около 0.2 мм диаметром и еще целых 3–4 см длиной, закрученную, как улитка. В развернутом виде будет представлять собой трубочку, с постепенно уменьшающимся к одному из концов диаметром. Улитка выполняет функцию частотного анализатора. Внутри улитки находятся до 4000 нервных окончаний. Различные области улитки входят в резонанс при подаче сигнала определенной частоты.

Во внутреннем ухе по всей его длине натянута мембрана, напоминающая струну – еще одна вытянутая мембрана, жесткая к началу уха и мягкая к концу. Определенный участок этой мембраны колеблется в своём диапазоне, низкие частоты – в мягком участке ближе к концу, самые высокие – в самом начале. Вдоль этой мембраны и расположены нервные окончания, которые воспринимают колебания и передают их в мозг, используя два принципа:

  • Первый ударный принцип. Поскольку нервные окончания еще способны передавать колебания (бинарные импульсы) с частотой до 400–450 Гц, именно этот принцип используется в области низкочастотного слуха. Там сложно иначе – колебания мембраны слишком сильны и затрагивают слишком много нервов. Ударный принцип немного расширяется до примерно 4 кГц с помощью трюка – несколько (до десяти) нервов ударяют в разных фазах, складывая свою пропускную способность. Этот способ хорош тем, что мозг воспринимает информацию более полно – с одной стороны, мы всё-таки имеем легкое частотное разделение, а с другой – можем еще смотреть сами колебания, их форму и особенности, а не просто частотный спектр. Этот принцип продлен на самую важную для нас часть – спектр человеческого голоса. Да и вообще, до 4 кГц находится вся наиболее важная для нас информация.

  • Второй принцип – просто местоположение возбуждаемого нерва, применяется для звуков более 4 кГц. Тут уже кроме факта нас вообще ничего не волнует – ни фаза, ни скважность. Воспринимается только спектр.

Таким образом, в области высоких частот мы имеем только спектральный слух не очень высокого разрешения, а для частот, близких к человеческому голосу – более полный, основанный не только на разделении спектра, а еще и на дополнительном анализе информации самим мозгом, давая более полную стерео картину, например.

Основное восприятие звука происходит в диапазоне от 1 до 4 кГц, в этом же диапазоне заключен человеческий голос (да и звуки, издаваемые большинством важных нам процессов в природе). Корректная передача этого частотного отрезка – первое условие естественности звучания.

Рис.11.11. Строение уха человека

Так как нейрон может возбуждаться не чаще чем 500 раз в секунду, то для получения информации о более высоких частотах слуховой аппарат человека прибегает к некоторым "ухищрениям":

  • На частотах до 500 Гц колебания непосредственно переходят в нервные импульсы.

  • Примерно до 1.5 кГц проблема решается подключением одновременно до 3 нейронов к одному нервному окончанию. Нейроны в данном случае возбуждаются последовательно, один за другим и, соответственно, помогают улучшить частотное разрешение в 3 раза.

  • На более высоких частотах регистрируется лишь амплитуда сигнала.

Таким образом, бинауральный слух, играющий большую роль в локализации источника звука, лучше всего развит на частотах меньших 1.5 кГц. Выше этой частоты источником информации о местоположении служит лишь разница амплитуд сигнала для левого и правого уха. Это делает возможным применение при кодировании режимов Joint Stereo – запоминается либо информация для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Middle/Side coding), либо вообще запоминается лишь амплитуда сигнала (Intensity Stereo coding).

11.4. Хранение звука в цифровом виде

Форматы представления цифрового звука

Наиболее очевидный способ хранения звуковых данных в файле – последовательная запись значений дискретизации. Эта простая схема известна как импульсно-кодовая модуляция (pulse code modulation, PCM). Такое причудливое название было заимствовано из старой электротехнической терминологии. Кроме того, многие современные файловые форматы также хранят в заголовке файла значения частоты и разрядности дискретизации, за счет чего программы, воспроизводящие звук, могут воспроизвести его идентично оригиналу (используя те же значения).

Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи специальных устройств чтения/записи в понятие формата входят физические характеристики носителя звука – размеры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирования и защиты от ошибок и т.п. При использовании универсального информационного носителя широкого применения – например, компьютерного гибкого или жесткого диска – под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся "низкоуровневая" часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.

Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие:

  • CD (Compact Disc; компакт-диск) – односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disс – Digital Audio). Для защиты от ошибок используется двойной код Рида-Соломона с перекрестным перемежением (Cross Interleaved Reed-Solomon Code, CIRC) и модуляция кодом Хэмминга 8-14 (Eight-to-Fourteen Modulation, EFM). Различаются штампованные (CD) однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт-диски.

  • ИКМ-приставка (PCM deck) – система для преобразования цифрового звукового сигнала в псевдовидеосигнал, совместимый с популярными видеоформатами (NTSC, PAL/SECAM), и обратно. ИКМ-приставки применяются в сочетании с бытовыми (VHS) или студийными (S-VHS, Beta, U-Matic) видеомагнитофонами, используя их в качестве устройств чтения/записи. Устройства работают с 16-разрядным линейным квантованием на частотах дискретизации 44.056 кГц (NTSC) и 44.1 кГц (PAL/SECAM), и позволяют записывать двух- или четырехканальную цифровую сигналограмму. По сути, такая приставка представляет собой модем (модулятор-демодулятор) для видеосигнала.

  • S-DAT (Stationary head Digital Audio Tape) – цифровая звуковая лента с неподвижной головкой) – система наподобие обычного кассетного магнитофона, запись и чтение в которой ведутся блоком неподвижных тонкопленочных головок на ленте шириной 3.81 мм в двухсторонней кассете размером 86x55.5x9.5 мм. Реализует 16-разрядную запись двух или четырех каналов на частотах 32, 44.1 и 48 кГц.

  • R-DAT (Rotary head Digital Audio Tape) – цифровая звуковая лента с вращающейся головкой) – система наподобие видеомагнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифровой записи, системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73x54x10.5 мм, с лентой шириной 3.81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты – 8.15 мм/с, скорость вращения блока головок – 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей – четырехканальным) сигналом на частотах дискретизации 44.1 и 48 кГц с 16-разрядном линейным квантованием, и 32 кГц – с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты – 80..240 минут, в зависимости от скорости и длины ленты. Бытовые DAT-магнитофоны обычно оснащены системой защиты от незаконного копирования фонограмм, не допускающей записи с аналогового входа на частоте 44.1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.

  • DASH (Digital Audio Stationary Head) – система с записью на магнитную ленту шириной 6.3 и 12.7 мм в продольном направлении неподвижными головками. Скорость движения ленты – 19.05, 38.1, 76.2 см/с. Реализует 16-разрядную запись с частотами дискретизации 44.056, 44.1 и 48 кГц от 2 до 48 каналов.

  • ADAT (Alesis DAT) – собственная (proprietary) система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фирмой Alesis. Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной синхронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т.п. Модель Meridian (ADAT Type II) использует 20-разрядное квантование на частотах 44.1 и 48 кГц.

  • DCC (Digital Compact Cassette; цифровая компакт-кассета) – бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты – 4.76 см/с, максимальное время звучания такое же, как при аналоговой записи. Частоты дискретизации – 32, 44.1, 48 кГц, разрешение – 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В настоящее время система DCC признана неперспективной.

  • MD (MiniDisk) – бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70x67.5x5 мм, вмещает 74 минуты (60 в ранних версиях) стереофонического звучания. При обмене со внешними устройствами используется формат 16-разрядных отсчетов на частоте 44.1 кГц, однако на сам диск сигнал записывается после сжатия методом ATRAC.

Из универсальных компьютерных форматов наиболее популярны следующие:

  • Microsoft RIFF/WAVE (Resource Interchange File Format/Wave; формат файлов передачи ресурсов/волновая форма) – стандартный формат звуковых файлов в компьютерах типа PC с операционной системой Microsoft Windows. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каждый из которых представляет собой волновую форму или вспомогательную информацию – режимы и порядок воспроизведения, пометки, названия и координаты участков волны и т.п. Файлы этого формата имеют расширение .WAV.

  • Apple AIFF (Audio Interchange File Format; формат файла обмена звуком) – стандартный тип звукового файла в системах Apple Macintosh. Похож на RIFF и также позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, семплы WaveTable-инструментов вместе с параметрами синтезатора.

  • Формат "чистой оцифровки" RAW, не содержащий заголовка и представляющий собой только последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном знаковом (signed) формате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.

Далее описаны и другие форматы хранения звука в компьютере, но все они уже основаны на хранении сжатого тем или иным способом звука.

11.5. Компрессия аудио данных

Проблема сжатия звуковой информации. Терминология

Из-за того, что звуковые файлы так велики в объеме, естественно, возникает интерес к возможности их сжатия. К сожалению, с помощью стандартных алгоритмов звуковые данные сжимаются плохо.

Под компрессией (сжатием) звуковых данных мы будем подразумевать процесс уменьшения количества дискретов и уровней квантования или числа битов, приходящихся на один отсчет, представляющих звуковой сигнал, или, другими словами, сокращение объема цифровых данных, необходимых для представления звукового сигнала с заданным качеством. Сжатие данных осуществляется с помощью программы-кодера (или компрессора). Восстановление данных осуществляется с помощью программы-декодера (декомпрессора).

Коэффициент сжатия или степень сжатия (Compression Ratio) – это отношение объема несжатых данных к объему сжатых данных.

Сформировался термин "компандирование речевых сигналов", т.е. КОМпрессия/эксПАНДИрование – сжатие/расширение (распаковка).

Под битрейтом (bitrate) принято понимать скорость потока данных, получаемого кодером или декодером на входе и выдаваемого кодером на выходе. Битрейт измеряется в битах (или килобитах) в секунду (бит/c; Кбит/c; bps; Kbps).

Обычно различают два основные типа компрессии: компрессию без потерь (lossless compression), подразумевающую возможность абсолютно точного восстановления исходных данных, и компрессию с потерями (lossy compression). Компрессия без потерь известна практически каждому пользователю ПК. Все пользуются программами-архиваторами ARJ, ZIP и другими, к сожалению, применение подобных алгоритмов к файлам, содержащим оцифрованный звук в 16-битном формате, не позволяет в общем случае получить сжатие более чем в 1,5–2 раза. Вообще говоря, компрессия без потерь в случае сжатия аудио имеет смысл в основном лишь в случае передачи речи, так как частотный диапазон здесь ограничен 1–4 кГц. Также очень часто алгоритмы компрессии без потерь используют для дополнительного сжатия аудио информации, сжатой с помощью какого-либо из методов компрессии с потерями.

Программы компрессии без потерь в процессе анализа исходных данных создают таблицы повторяющихся последовательностей битов и заменяют часто встречающиеся последовательности более короткими. Оцифрованный звуковой сигнал обычно не повторяет сам себя, не имеет большого количества абсолютно точно повторяющихся участков (из-за шумов и дизеринга) и, следовательно, плохо сжимается с использованием алгоритмов компрессии без потерь. Большего успеха в сжатии звуковых данных можно достичь, используя спектральные свойства оцифрованных музыкальных и речевых сигналов и особенности человеческого восприятия звука. Эти методы относятся к классу компрессии с потерями, в том смысле, что они не ставят перед собой цель абсолютно точного восстановления формы исходных колебаний. Их главная задача – достижение максимального сжатия звукового сигнала при минимальных субъективно слышимых (или вообще неслышимых) искажениях восстановленного сигнала.

Простейшая схема сжатия звука была разработана одной телефонной компанией, и случилось это много лет назад. Она позволяла компоновать несколько телефонных разговоров и передавать их по одному и тому же проводу. Исторически сложилось так, что телефонные компании интересовались только сжатием с фиксированной скоростью (fixed-rate compression). При сжатии таким способом все данные сжимались на одну и ту же величину. Этот подход отличается от обычно используемых в компьютерных программах методов сжатия, так как телефонные компании зачастую не беспокоит то обстоятельство, что различные данные сжимаются по-разному.

Обзор алгоритмов сжатия звуковой информации

Существующие алгоритмы сжатия звука можно разделить на следующие группы:

  1. Алгоритмы сжатия без потерь:

    • Импульсно-кодовая модуляция (ИКМ) (PCM);

    • Кодирование Хаффмaна (Huffman Encoding);

    • Кодирование Шеннона-Фано (Shannon-Fano Encoding);

    • Арифметическое кодирование;

    • Алгоритм Лемпеля-Зива-Уолша (Lempel-Ziv-Walsh, LZW);

    • Сжатие тишины (пауз) – работает аналогично RLE (Run Length Encoding) при сжатии изображений.

  2. Алгоритмы сжатия с потерями:

  • Адаптивная импульсно-кодовая модуляция (АИКМ) (APCM);

  • Блочная ИКМ (БИКМ);

  • Дифференциальная ИКМ (ДИКМ);

  • Адаптивная дифференциальная ИКМ (АДИКМ) (ADPCM);

  • Клиппирование речевого сигнала;

  • Применение вокодеров (от VOice CODERs – устройства для сжатия, кодирования и передачи речи);

  • Кодирование с линейным предсказанием (LPC).

  1. Алгоритмы сжатия с потерями, использующие принципы психоакустики:

  • MPEG (Motion Picture Expert Group):

    • MPEG layer 2 (MP2);

    • MPEG layer 3 (MP3);

  • AAC (Advanced Audio Coding);

  • Twin-VQ (Vector Quantizer).

Метод Хаффмана (Huffman method)

Кодирование Хаффмана – статистический метод сжатия, который уменьшает среднюю длину кодового слова для символов алфавита. Код Хаффмана является примером кода, оптимального в случае, когда все вероятности появления символов в сообщении – целые отрицательные степени двойки.

Для заданного распределения частот символов может существовать несколько возможных кодов Хаффмана. Возможно определить “каноническое” дерево Хаффмана, выбрав одно из возможных деревьев. Такое каноническое дерево может быть очень компактно, передавая только длину в битах для каждого кодового слова. Этот метод используется в большинстве архиваторов (PkZip, Lha, Zoo, Arj, ...).При сжатии аудио может быть использован для дополнительного сжатия файлов, сжатых с помощью психоакустической модели.

Метод Шеннона-Фано (Shannon-Fano method)

Родственным методом для кодирования Хаффмана является кодирование Шеннона-Фано, которое осуществляется следующим образом:

Делим множество символов на два подмножества так, чтобы сумма вероятностей появления символов одного подмножества была примерно равна сумме вероятностей появления символов другого. Для левого подмножества каждому символу приписываем "0", для правого – "1". Затем повторяем процедуру до тех пор, пока все подмножества не будут состоять из одного элемента.

Алгоритм создания кода Хаффмана называется снизу-вверх, а Шеннона-Фано – сверху вниз. Кодирование по Хаффману всегда дает оптимальные коды, по Шеннону-Фано иногда используется немного больше бит.

При сжатии аудио оба метода могут быть использованы для дополнительного сжатия уже сжатых с потерями файлов.

Арифметический метод (Arithmetic method)

Может показаться что кодирование Хаффмана или Шеннона-Фано лучшее средство для сжатия без потерь. Однако это не так. Как было замечено выше, эти методы оптимальны только в том случае, когда все символы в сообщении имеют вероятности появления равные целым отрицательным степеням двойки, что в общем случае не так.

Метод арифметического кодирования не имеет этого ограничения: он достигает одинакового эффекта, т.к. рассматривает сообщение как единое целое (что для кодирования по Хаффману потребовало бы нумерации каждого из всех возможных сообщений), и таким образом достигает теоретической энтропийной границы эффективности сжатия для любого источника.

Работа арифметического кодера состоит в представлении числа интервалом вещественных чисел от 0 до 1. По мере увеличения длины сообщения, интервал, необходимый для его представления, становится все меньше и меньше, а число бит, необходимых для задания этого интервала, увеличивается. Каждый символ сообщения по порядку сокращает этот интервал пропорционально вероятности появления этого символа. Наиболее вероятный символ меньше всех сокращает интервал, и таким образом добавляет меньше бит к коду сообщения.

Метод Лемпеля-Зива-Уолша (Lempel-Ziv-Walsh, LZW)

Метод Лемпеля-Зива-Уолша относится к словарным методам сжатия. В основном он используется для сжатия изображений (GIF) и текста, но может в некоторых случаях быть использован и для сжатия звука. При компьютерной архивации звуковой информации, в особенности, когда отсчёты квантованы небольшим числом уровней, применяются словарно-ориентированные методы кодирования, называемые также методами универсального кодирования (например, алгоритм LZW – Лемпела Зива-Уолша).

В отличие от рассмотренных выше методов, в которых отдельным отсчётам ставились в соответствие битовые коды различной длины, в данном случае коды присваиваются целым последовательностям отсчётов, которые отражаются в словаре. При этом передаваемый код – это индекс данной последовательности в словаре. Формирование словаря на передающей и приемной сторонах обычно осуществляется адаптивным способом по мере поступления данных.

Универсальные методы кодирования наиболее эффективны при архивации текстовой информации.

Кодирование пауз

Когда люди разговаривают, достаточно большую часть времени их беседы, как это ни парадоксально, составляют паузы. При простом сжатии звука по алгоритму ИКМ требуется одинаковое количество места как для записи 10 минут тишины, так и для записи сложной музыкальной композиции. Простейший способ сократить размер большинства звуковых файлов – заменять такие паузы одиночным кодом, определяющим их продолжительность.

ИКМ и связанные с ней методы сжатия информации

Метод ИКМ, PCM используется для аналого-дискретного преобразования сигнала, передающего речь. Это наиболее простой способ кодирования. Рассматриваемый сигнал (речь) имеет спектр шириной 4 кГц. Поэтому он подвергается квантованию, обеспечивающему 8000 отсчетов в секунду (через каждые 125 мкс). Каждый отсчет содержит 8 бит данных, представляющих значение аналогового сигнала. В результате получается дискретный сигнал, передающий речь со скоростью 64 Кбит/с.

Сжатие по -закону и A-закону (µ-Law и A-Law). Когда звуковая карта получает звуковые данные, она преобразует каждое значение дискретизации в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает вашего уха.

Два общих уравнения задают точную связь. Соотношения µ-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30 процентов сжатия!

Компандирование для оцифровки телефонного сигнала описано в Рекомендациях МККТТ (Международный консультативный комитет по телефонии и телеграфии, CCITT) G.711 и G.712 для - и А-законов:

частота дискретизации 8000 Гц;

число двоичных разрядов (бит) на отсчет 8;

скорость передачи 64000 бит/c.

Оно рассчитано на мгновенный охват всего динамического диапазона для каждого квантуемого отсчета. Поэтому его называют мгновенным компандированием.

В случае обычной (линейной) ИКМ преобразование осуществляется неадаптивно, когда каждый отсчёт кодируется кодом с заранее заданным числом бит. Существуют также методы Адаптивной ИКМ.

Блочная ИКМ (БИКМ). Из различных систем АИКМ достаточно большое распространение получила система блочной ИКМ (БИКМ), которую часто называют системой с почти мгновенным компандированием (NIC – Near Instantaneous Companding). Отсчеты n-разрядного АЦП разбивают на блоки по N отсчетов. В каждом блоке находят отсчет с максимальным для данного блока уровнем. Этому уровню соответствует определенный номер старшего ЗНАЧАЩЕГО разряда (j), и все старшие разряды в комбинациях этого блока будут нулевыми (заштрихованы). Записанный в двоичном коде номер этого разряда образует масштабную информацию, которая из-за своей важности, как правило, защищается помехоустойчивым кодом. В результате масштабная информация вместе с проверочными символами образует m-значную комбинацию, которую добавляют к основной информации.

Основная же информация формируется выбором k разрядов из n исходных разрядов, причем первым (старшим) разрядом является разряд с номером, описанным в масштабной информации. Основная информация для каждого из блоков объединяется с масштабной в единый цифровой поток. Результирующая скорость цифрового потока на выходе системы БИКМ R = fд (k + m/N), где – частота дискретизации. Используют следующие параметры: fд = 8 кГц, n = 10...13, k = 6... 8, N = 8...16, m = 6... 8

При одинаковых условиях передачи БИКМ дает лучшее качество чем ИКМ. Поэтому можно снизить скорость передачи до 32–56 Кбит/с.

Дифференциальная ИКМ (ДИКМ, Differencial PCM, DPCM). При дифференциальной (разностной) ИКМ (ДИКМ, Differencial PCM, DPCM) вместо кодирования отсчетов кодируются разности между соседними отсчётами. Обычно разности отсчетов меньше самих отсчетов. Скорость передачи цифрового потока снижается до 48–56 Кбит/c. В системах с логарифмической ДИКМ используют А- и -законы компандирования для реализации неравномерного квантования.

Один из простых и достаточно эффективных методов сжатия звука состоит в том, чтобы сначала вычислить разности, а затем сжимать полученные значения, используя алгоритм Хаффмана.

Адаптивная ДИКМ (АДИКМ, Adaptive Differential PCM, ADPCM). Адаптивная ДИКМ (АДИКМ, Adaptive Differencial PCM, ADPCM) – система ДИКМ с адаптацией квантователя (АЦП и ЦАП) и предсказателя. При АДИКМ оцифровывается не сам сигнал, а его отклонение от предсказанного значения (сигнал ошибки, ошибка предсказания). Применяются следующие разновидности АДИКМ:

Рекомендация G.721 МККТТ (скорость передачи 32 Кбит/c);

Рекомендация G.722 МККТТ (fд = 16 000 Гц);

Рекомендация G.723 МККТТ (скорость передачи 24 Кбит/c);

Creative ADPCM (4, 2,6 или 2 бита на отсчет);

IMA/DVI ADPCM (4, 3 или 2 бита на отсчет);

Microsoft ADPCM.

В компакт-дисках типа CD-I (Interactive) звук кодируется с использованием АДИКМ

Level A (fд = 37 800 Гц, 8 бит на отсчет)

Level B (fд = 37 800 Гц, 4 бит на отсчет)

Level C (fд = 18 900 Гц, 4 бит на отсчет)

Таким образом, с помощью методов АДИКМ можно с приемлемым качеством сжимать звуковые данные в четыре раза.

Дельта-модуляция (ДМ, Delta Modulation, DM). Дельта-модуляция (ДМ, Delta Modulation, DM) – при выбранном приращении передаются сведения только о его знаке. Для этого достаточно передавать 1 бит в каждый момент отсчета. ДМ можно рассматривать как частный случай ДИКМ, при котором ошибка предсказания квантуется только на 2 уровня. Кодек (то есть КОдер/ДЕКодер) ДМ реализуется довольно просто.

Использование одного разряда для представления ошибки предсказания приводит к специфическим особенностям:

  • при кодировании сигналов постоянного уровня аппроксимирующий сигнал "скачет" относительно кодируемого уровня (гранулярный шум);

  • при кодировании быстроизменяющихся сигналов появляются ошибки, обусловленные невозможностью изменения аппроксимирующего сигнала более, чем на один шаг квантования (перегрузка по крутизне).

При одинаковых шумах квантования тактовая частота или скорость цифрового потока для ДМ будет больше, чем для ИКМ. Поэтому классическая ДМ практически не используется, а применяются ее разновидности:

– ДМ с задержкой,

– дельта-сигма-модуляция (ДСМ),

– ДМ с двойным интегрированием.

При использовании адаптивной ДМ на основе анализа передаваемой информации меняют шаг квантования. Например, в ДМ с непрерывно изменяющейся крутизной (continuousely variable slope) информация о размере шага квантования в кодере и декодере извлекается из передаваемого цифрового потока: если подряд идут 4 нуля или единицы, шаг квантования уменьшается/увеличивается вдвое. Эта идея реализована в серийно выпускаемых микросхемах.