Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМК для МДК 04.01.doc
Скачиваний:
28
Добавлен:
01.07.2025
Размер:
632.32 Кб
Скачать

Тема 1.8 Технологии обработки аудио информации

Основные понятия и термины по теме: Импульсно-кодовая модуляция

План изучения темы (перечень вопросов, обязательных к изучению):

1. Основные сведения о цифровом представлении звуковой информации. Назначение, разновидности и функциональные возможности программ обработки звука. Технология работы в программе обработки звука.

Краткое изложение теоретических вопросов:

Развитие вычислительной математики и радиотехники привело к тому, что звуки, используемые человечеством для повседневной жизни, стали переводиться из аналоговой в цифровую форму.

Цифровая звукозапись — представление звука в виде набора бит, который последовательно описывает значение уровня амплитуды звуковой волны в каждый момент времени звучания звукозаписи, для обработки этого значения устройством воспроизведения. При преобразовании звука в цифровую звукозапись применяется импульсно-кодовая модуляция.

Цифровой аудиоформат — формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях.

Аудиофайл (файл, содержащий звукозапись) — компьютерный файл, состоящий из информации об амплитуде и частоте звука, сохранённую для дальнейшего воспроизведения на компьютере или проигрывателе.

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования :

  • импульсно-кодовая модуляция

  • сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

аудиоформаты без сжатия, такие как WAV, AIFF

аудиоформаты со сжатием без потерь (APE, FLAC)

аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданные синтетически или из сэмплов заранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести формат MIDI, который не является звукозаписью, но при этом с помощью секвенсора позволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звука применяют как для массового распространения звуковых записей (CD, SACD), так и в профессиональной звукозаписи (DAT, минидиск).

Для систем пространственного звучания также можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. — DTS и Dolby Laboratories Inc. — Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена для систем домашнего кинотеатра.

Сравнение звуковых форматов

Название формата

Квантование, бит

Частота дискретизации, кГц

Число каналов

Величина потока данных с диска, кбит/с

Степень сжатия/упаковки

CD

16

44,1

2

1411,2

1:1 без потерь

Dolby Digital (AC3)

16-24

48

6

до 640

~12:1 с потерями

DTS

20-24

48; 96

до 8

до 1536

3:1 с потерями

DVD-Audio

16; 20; 24

44,1; 48; 88,2; 96

6

6912

1:1 без потерь

DVD-Audio

16; 20; 24

176,4; 192

2

4608

1:1 без потерь

MP3

16-24

до 48

2

до 320

~11:1 с потерями

AAC

16-24

до 96

до 48

до 512

с потерями

AAC+ (SBR)

16-24

до 48

2

до 320

с потерями

Ogg Vorbis

до 32

до 192

до 255

до 500

с потерями

WMA

до 24

до 96

до 8

до 768

2:1, есть версия без потерь

Список цифровых аудиоформатов

AA

Dolby Digital (AC3)

AAC

ADX

ASF

AHX

AIFF

APE

AUD DMF

DTS

FLAC

MIDI

MOD

MP1

MP2

MP3

MP4 MPC

Ogg Vorbis

Opus

RA

TTA

VQF VOX

VOC

WAV

WMA

XM

Кодирование без потерь

Форматы без сжатия

AIFF

AU

CDDA — формат, используемый в аудио-CD

DSD — формат, используемый в SACD

IFF-8SVX — Interchange File Format

IFF-16SV

RAW — сырые замеры без какого-либо заголовка или синхронизации

WAV — Microsoft Wave (Waveform audio format). Разработан совместно с IBM

[править]

Сжатие звука без потерь

FLAC (.flac) — свободный кодек из проекта Ogg

Lossless Audio (.la)

Lossless Predictive Audio Compression (LPAC; .pac)

Apple Lossless (.m4a)

Monkey's Audio (.ape)

OptimFROG (.ofr)[1]

RKAU (.rka)[2]

Shorten (.shn)

TTA — True Audio, свободный кодек

TAK (.tak) — (T)om’s lossless (A)udio (K)ompressor

WavPack (.wv)

Windows Media Audio 9 Lossless (.wma)

ADX — формат звука с максимальным битрейтом в 1 Гбит/с

[править]

Кодирование с потерями

MP2 — MPEG Layer 2

MP3 — MPEG Layer 3

Vorbis — проект Ogg, свободен и похож по принципам на MP3

Speex — проект Ogg, свободен, сжатие голоса, низкий битрейт

Opus — проект Ogg, свободен, передача звука по сети; основан на технологиях кодеков CELT и SILK.

GSM-FR — GSM Full Rate, изначально для сотовых телефонов

G.723.1 — один из базовых речевой кодеков IP-телефонии

G.729 — эффективный узкополосный речевой кодек IP-телефонии

Windows Media Audio (WMA)

AAC (.m4a, .mp4, .m4p, .aac) — Advanced Audio Coding, часто в контейнере MPEG-4

Musepack — Musepack (MPC)

TwinVQ — Yamaha TwinVQ (VQF)

RealAudio (RA, RM)

OTS Audio File — похож на MP3

SWA — Macromedia Shockwave Audio. Сжатие как в MP3 с дополнительными заголовками для Macromedia Director.[3]

[править]

Другие форматы

GYM — лог чипа Genesis YM2612

IMF (id Music File) — создан id Software. Данный формат лишь содержал байты, передаваемые чипу OPL2.

IT (модуль Impulse Tracker, добавлены сжатые инструменты, действия на отпускание ноты, и др.)

MID, MIDI (Musical Instrument Digital Interface) — обычно просто ноты и управляющие инструкции, но изредка и дампы семплов)

MT2 (модуль MadTracker комбинирует свойства IT и XM)

MNG — BGM для игр серии Creatures, начиная с Creatures 2[4]

MOD (Soundtracker и Protracker модули для семплов и мелодии)

MusicXML

NSF (NES music)

NIFF

ORG (Organya) — формат, придуманный разработчиками игры Cave Story

PSF — Portable Sound Format

PSF — PlayStation sound format

PTB (Power Tab Editor tab)

S3M (модуль ScreamTracker 3, чуть больше эффектов и отдельной колонкой громкости)

SPC — Super Nintendo Entertainment System sound file format.

STF — StudioFactory project file. It contains all necessary patches, samples, tracks and settings to play the file.

SYN — SynFactory project file. It contains all necessary patches, samples, tracks and settings to play the file.

VGM (Video Game Music) лог нескольких чипов

XM (модуль Fast Tracker, добавлены инструменты)

YM — Atari ST/Amstrad CPC YM2149 sound chip format

Форматы плей-листов

Существуют форматы плей-листов, разделяются на общепринятые (стандартные) и те, которые разработаны для конкретного медиаплеера. Однако нередко форматы второго типа становятся популярными и стандартными.

В число наиболее популярных форматов для хранения плей-листа входят:

Advanced Systems Format (.asx) — Windows Media Metafile — XML-подобный формат файла, представленный в Windows Media Player.

B4S — базирующийся на XML формат плейлиста Winamp3.

FPL — плей-лист плеера Foobar2000.

M3U (.m3u, .m3u8) — текстовый файл, изначально появился в Winamp, далее поддержка появилась и в других плеерах.

PLS — формат, используемый первоначально в Light Alloy.

Real Audio Metafile — только для файлов формата Real Audio.

smil — XML-подобный формат, рекомендованный Консорциумом W3C. Распространяется как на аудио, так и на видео-форматы.

VLC — собственный формат плей-листа в VLC media player.

Windows Media Player Playlist (WPL) — список воспроизведения Windows Media Player, начиная с 9 версии.

XSPF — открытый XML-формат, рассчитанный на переносимость и кроссплатформенность. Разработан Xiph.Org.

ZPL — формат плейл-иста в Zoom Player.

Аудиореда́ктор, или волновой редактор — программа для редактирования звуковой информации в цифровом представлении (цифровой звукозаписи). Аудиоредактор является основным программным компонентом цифровой звуковой рабочей станции. Основное предназначение аудиоредактора — это преобразование аудиосигнала. Большинство видов преобразований звука пришли из эры аналоговой звукозаписи, однако некоторые из них стали возможны только с применением цифрового представления аудиоданных.

В настоящее время существует огромное количество компьютерных программ-аудиоредакторов для большинства популярных операционных систем. Часть редакторов звука универсальны, другие обладают ограниченной функциональностью и предназначены для решения только узкоспециализированных задач, таких как:

оцифровка звука (грабберы)

изменение формата звукозаписи

склеивание нескольких аудио-файлов в один

разрезание звукозаписи на части

и т. п.

Некоторые мультимедийные программы, сочетают в себе функции редактора звука, редактора видеоряда и/или записи результата на CD диск (CD-RW) или DVD диск и т. п.

Среди аудио-редакторов встречаются как проприетарные программы, так и свободные, а также программы с открытым исходным кодом. Первые в большинстве своём требуют для использования приобретения платной лицензии (особенно профессиональные решения), другие распространяются бесплатно и без каких-либо ограничений. Наиболее известные аудиоредакторы Adobe Audition (в прошлом Cool Edit Pro), Sound Forge, WaveLab, Audacity, Wavosaur, GoldWave, MhWaveEdit и др.

Универсальные

Adobe Audition (CoolEdit) — полупрофессиональная, платная, проприетарная. Только для Windows.

Ardour — цифровая звуковая станция, свободная (бесплатная), с открытым исходным кодом. ОС: Linux, FreeBSD, Mac OS X.

Audacity — полупрофессиональная, свободная (бесплатная), с открытым исходным кодом. Кроссплатформенная.

Sound Forge — профессиональная, платная, проприетарная. Только для Windows.

WaveLab — профессиональная, платная, проприетарная. Windows, Mac OS X.

Специализированные

Грабберы

Exact Audio Copy

Редакторы формата MP3

mp3DirectCut

MP3Gain (и easyMP3Gain)

Редакторы звукоряда в видео

Sonar

Steinberg Nuendo

Представление звуковой информации

Частота дискретизации — это количество измерений входного сигнала за 1 секунду. Частота измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц. 1000 измерений за 1 секунду — 1 килогерц (кГц). Характерные частоты дискретизации аудиоадаптеров: 11 кГц, 22 кГц, 44,1 кГц и др.

Разрядность регистра — число битов в регистре аудиоадаптера. Разрядность определяет точность измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 28 = 256 (216 — 65 536) различных значений. Очевидно, 16-разрядный аудиоадаптер точнее кодирует и воспроизводит звук, чем 8-разрядный.

Звуковой файл — файл, хранящий звуковую информацию в числовой двоичной форме. Как правило, информация в звуковых файлах подвергается сжатию.

Пример 1

Определить размер (в байтах) цифрового аудиофайла, время звучания которого составляет 10 секунд при частоте дискретизации 22,05 кГц и разрешении 8 битов. Файл сжатию не подвержен.

Решение Формула для расчета размера (в байтах) цифрового аудиофайла (монофоническое звучание): (частота дискрети¬зации в Гц) х (время записи в секундах) х (разрешение в битах)/8.

Таким образом, размер файла вычисляется так: 22 050 • 10 • 8 / 8 = 220 500 байт.