Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИиИКТ Лекция 13 Кодирование.doc
Скачиваний:
16
Добавлен:
10.05.2015
Размер:
102.91 Кб
Скачать

7.3. Кодировка звука.

Звук – это аналоговый процесс, который можно описать одной (но очень сложной!) функцией P(t), выражающей зависимость давления от времени в какой-либо точке пространства.

Человек различает две основные характеристики звука – громкость и тональность.

Громкость определяется как среднее значение функции P(t) за время  - маленькое с точки зрения человеческого восприятия, но достаточное для того, чтобы за это время произошло много пульсаций функции P(t) и можно было бы говорить о частотах этих пульсаций (например, величина  может составлять 1-2 десятых долей секунды). Тональность звука определяется частотами пульсаций функции P(t) за то же время . Количественно охарактеризовать тональность можно при помощи разложения функции P(t) в ряд Фурье на временном отрезке . В результате получится набор частотных гармоник – составляющих звукового спектра. Амплитуда каждой гармоники определяет громкость соответствующей частоты.

Любое кодирование звука заключается в представлении функции P(t) в виде набора данных, т.е. чисел. Существует много различных способов кодирования звука. Рассмотрим некоторые из них.

Формат MIDI (Musical Instrument Digital Interface) – цифровой интерфейс музыкальных инструментов. Создан в 1982 году ведущими производителями электронных музыкальных инструментов - Yamaha, Roland, Korg, E-mu и др. При этой кодировке считается, что звук создается набором музыкальных инструментов. Для каждого инструмента определяется набор возможных действий (например, нажатие определенной клавиши на фортепиано) и результат каждого действия (спектр звука). Каждому действию каждого инструмента присваивается код. MIDI – файл и состоит из последовательности таких кодов. Можно считать, что MIDI-формат является электронным аналогом нотной записи. Преимуществом MIDI-формата является очень маленький объем получающихся файлов. Одним из недостатков MIDI-формата является зависимость воспроизводимого звука от аппаратно-программного обеспечения, при помощи которого воспроизводится данный MIDI файл (точно так же, как исполняемое «вживую» музыкальное произведение зависит не только от нот, но и от исполнителя). Вторым (основным) недостатком этого формата является невозможность записать звук, не создаваемый музыкальными инструментами, например, человеческий голос.

Формат WAV (от слова wave – волна). Это формат, основанный на непосредственном табулировании функции P(t), т.е. на представлении этой функции в виде последовательности числовых значений Pi, в моменты времени ti, отстоящие друг от друга на очень маленькую величину t (t = ti+1 – ti ), называемую квантом дискретизации. За время t функция P(t) должна измениться незначительно, - это означает, что величина t должна быть существенно меньше периода самого высокочастотного звукового колебания из спектра функции P(t). Величина обратная t ( = 1/t) называется частотой дискретизации (частотой оцифровки). Числовые значения функции Pi дискретны, общее количество этих значений определяется разрядностью кодирования звука – 8 бит (256 значений), 16 бит (64 тыс. значений), 32 бита ( 4 млрд. значений) и т.д. Чем выше частота дискретизации и разрядность кодирования, тем более точно представляется записываемый звук. Достаточными являются значения этих параметров 44 кГц и 16 бит.

Формат WAV позволяет записывать любой звук с любой необходимой точностью. Главным недостатком этого формата является очень большой объем получающихся звуковых файлов. Даже при использовании процедуры сжатия данных объем таких файлов составляет несколько МБ на минуту звука, а объем 5-минутной музыкальные композиции составляют 30-50 МБ. Именно поэтому для записи музыкальных композиций формат WAV используется редко – его вытеснили форматы семейства MPEG. Формат WAV используется для записи коротких звуков, а также в тех случаях, когда важна точность записи звука, например, при снятии данных с акустических датчиков.

Форматы MPEG ,включая MP3 и MP4 – это семейство мультимедийных форматов для записи видеоизображения и звука. Принципы кодирования звука в рамках этих форматов основаны на том факте, что человеческое ухо не совершенно и на самом деле точное воспроизводство функции P(t) дает много избыточной информации, которую органы слуха не в состоянии обработать.

Рассмотрим кодирование звука на примере формата MP3 (сокращение от MPEG Layer 3). Перед кодированием исходный сигнал (функция P(t)) разбивается на участки длительности , называемые звуковыми фреймами. Каждый звуковой фрейм раскладывается в ряд Фурье, после чего он обрабатывается на основе так называемой психоакустической модели, учитывающей особенности восприятия звука человека. В рамках этой модели учитывается, например, что если в спектре присутствует сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен, что будет ослаблена чувствительность уха на период в 100 мс после и 5 мс до возникновения сильного звука и т.д. Все неслышимые с точки зрения психоакустической модели звуки из спектра удаляются, это и позволяет значительно уменьшить объем звукового файла. При этом качество звука не ухудшается, а иногда, например, при оцифровке зашумленного звука, может даже улучшится по сравнению с оригиналом. В целом качество звука для рассматриваемых форматов определяется суммарным объемом получаемого кода на единицу времени звучания, т.е. количеством бит, затрачиваемых на кодирование 1 секунды звучания. Эта величина называется битрейтом и измеряется в килобитах в секунду (кб/с, kbs). Наивысшее для формата MP3 качество обеспечивается битрейтом 320 кб/с, достаточное качество – битрейтом 128 кб/с, это около 1 МБ на одну минуту звучания.

Алгоритмы кодирования звука могут различаться даже в рамках одного формата. Например, можно использовать MP3-кодирование с разными психоакустическими моделями. Непосредственное преобразование данных из звукового файла в звук (т.е. в аналоговый сигнал), а также обратное преобразование осуществляется специальными программными компонентами, которые называются кодеками (от слов КОдировщик и ДЕКодировщик). Для того чтобы успешно воспроизводить музыкальные файлы и видеофайлы, необходимо установить набор кодеков, соответствующих всем возможным алгоритмам кодирования.

Существуют и другие форматы кодирования звука, использующие те же идеи, что и MPEG. Например, формат VQF позволяем уменьшить размер файла по сравнению с MP3 примерно на 25% за счет использования более сложных алгоритмов кодирования.