Скачиваний:
358
Добавлен:
04.03.2014
Размер:
6.37 Mб
Скачать

5.3.6. Основы цифровой записи звука

Во многих случаях, особенно в автономных режимах работы АЛС, возникает задача записи и хранения больших объемов звуковой информации. В наиболее простых системах производится аналоговая запись акустических сигналов на магнитофонную ленту с помощью традиционных или специальных магнитофонов, в других случаях используются системы цифровой записи. Важнейшим требованием к системам звукозаписи является необходимость обеспечения заданного динамического диапазона £д в широком спектре звуковых частот f при наличии значительных акустических помех.

Для примера ограничимся более простой задачей - записью акустических сигналов звукового диапазона. Как известно, полоса частот звукового сиг­нала составляет 16 Гц ... 20 кГц. Динамический диапазон натурального звука £д определяется выражением £д = 20lg (pmax/p0), где p0 - давление, соответствующее порогу слышимости, а pmax - болевой порог. Значение £д на разных частотах различно, и на тестовой частоте 1000 Гц составляет 120 ... 140 дБ. Мак­симальная величина динамического диапазона £да, достигаемая в канале аналоговой записи/вос­произведе­ния звука, даже со средствами шумоподавления не превышает 70 дБ. Больший диапазон £дц (свыше 100 дБ) достигается в цифровых системах записи. В этом случае практически исключаются нелинейные искажения (их значение не превосходит 0,05%) и детонация звука. В результате, для высококачественной записи и воспроизведение звука все больше используются именно цифровые системы звукозаписи.

Рассмотрим этот вопрос подробнее. Основополагающий принцип оцифровки сигналов был сформулирован в 1928 году Г. Най­квистом, инженером телефонной компании AT&T. В соответствии с его теоремой «количество замеров должно, по крайней мере, вдвое превышать число де­талей». Применительно к записи звука верхний порог сигнала составляет 20000 Гц. По критерию Найквиста замеры напряжения должны проводиться не реже 40000 раз в секунду. За стандартную частоту дискретизации fд принято значение 44100 Гц. «Некруглость» этого значения связана с тем, что в первых системах цифровой записи звука использовались бытовые видеомагнитофоны. В стан­дарте PAL видеомагнитофон записывает 50 изображений (полей) в секунду, причем в каждом поле содержится 294 телевизионных строки. Количество замеров звука на строку может быть любым целым числом, и при трех замерах на строку получается 502943, что и составляет частоту 44100 Гц. (Интересно, что и видеомагнитофон, работающий в американском стандарте NTSC так­же годен для оцифровки звука, т.к. он записывает 60 полей по 245 строк в секунду и 602453 по-прежнему равно 44100 Гц).

Во всех системах звукозаписи изначальная запись звукового сигнала производится аналоговыми средствами. В цифровых системах аналоговый сигнал преобразуется в цифровую форму. Это преобразование описывается двумя основными параметрами:раз­решением (квантованием по уровню) и частотой дискре­ти­зации fд.

Разрешение определяется необходимым динамическим диапазоном £д воспроизводимого сигнала. Например, динамический диапазон в 100 дБ требует не менее чем 16 битного квантования, т.е. разрешение составит 1/65535 максимальной амплитуды сигнала или 0,0015 дБ. Общепринятыми значениями fд являются 44,100 кГц (высокое качество), 22,050 кГц (среднее качество) и 11,025 кГц (низкое качество). Представление звука в цифровой форме предполагает значительное расширение полосы пропускания канала f. Так, передача звука с полосой 20 кГц и динамическим диапазоном 100 дБ при частоте дискретизации fд = 44,1 кГц (без компрессии) требует потока информации I/t равного: I/t = 44,1 кГц  16 бит = 706 кбит/с, что соответствует полосе частот f = 768 кГц.

При цифровой записи сте­реозвука полоса расширяется вдвое. В этом случае, сначала производится аналоговая запись каждого канала на Hi-Fi магнитофо­н (обычно, формата VHS). Далее сигналы оцифровывается и записываются непосредственно на компакт диск с полосой частот f = 768 кГц  2 = 1536 кГц. Ясно, что объем двоичных данных, полученных в результате такой записи весь­ма велик. Так, для хранения всего 10 секунд аудиоинформации не­обходимо 15,3 Мб дискового пространства. При большем числе каналов эта проблема еще более обостряется. Поэтому, обычно ин­формация на диск записывается не непосредственно, а в формате линейной импульсно-ко­довой модуляции (ИКМ или PCM-Pulse Code Modu­la­­tion). Линейная ИКМ является алгоритмом квантования и дискретизации, преобразующим аналоговые сиг­налы в циф­ровые дискретизированные величины, без сжатия частотного спектра (рис. 5.58). На этом рисунке в качестве иллюстрации приведен пример ИКМ с 8 интервалами квантования при 3-х битных словах и частотой дискретизации fд 2fв где fв - наибольшая частота звукового сигнала. Алгоритм линейной ИКМ позволяет записывать сигналы с полосой про­пускания до 6,144 Мбит/с, однако и этого для высоко­ка­чес­твенной многоканальной записи оказывается недостаточно. Более прогрессивный способ кодирования предполагает использование дифференциальной ИКМ (DPCM). В этой схеме кодируются разности между текущими значениями сигналов и предшествующими, а не сами дискретизированные величины. Поско­льку значения этих разностей меньше дискретизированных значений, для кодирования той же самой звуковой ин­фор­ма­ции можно использовать меньше битов (так, разница между двумя 16-битовыми величинами равна всего 4 битам). Исходя из этих соображений, дифференциальную ИКМ можно рассматривать и как схему сжатия звуковой информации.

Простейшим способом сжатия звукового сигнала без потерь яв­­ляется кодирование по алгоритму Хаффмена. Подробнее этот алгоритм будет рассмотрен в главе 6.

Соседние файлы в папке Учебник - информационные системы