- •1.1.Форматы общего типа
- •2.2. Сжатие m-Law и a-Law
- •2.3. Au
- •2.4. Система сжатия adpcm
- •2.5. Wave
- •2.7. Aiff
- •3. Системы сжатия, основанные на преобразованиях сигналов с использованием mpeg технологии
- •3.1. Основные стандарты mpeg
- •3.2. Mpeg-1 (iso/iec 11172-3)
- •3.3. Mpeg-2 bc (iso/iec 13818-3)
- •3.4. Mpeg-2 Advanced Audio Coding (aac)(iso/iec 13818-7)-
- •3.5. Сравнение mpeg-acc и mpeg-2 bc
- •3.6 Mpeg-4 (iso/iec 14496-3)
- •3.6.1 Что нового содержит mpeg-4 Audio по сравнению с mpeg-2 Audio?
- •3.6.2. Дополнительные функциональные возможности mpeg-4
- •3.6.3. Аудио объекты в mpeg-4
- •3.6.4.Использование mpeg-4 кодер речи (speech coder) вместо itu кодека
- •3.5. A2b music ( based on mpeg acc)
- •3.6.Vqf - (vector quantization format)
- •3.6.1 Размер файлов:
- •3.6.2 Качество звука:
- •3.6.3 Использование cpu:
- •3.6.4 Недостатки:
- •3.6.5 Системные требования:
- •3.6.6 Mp3 против vq. Сравнительная характеристика:
- •3.4.Dolby ac-3
- •3.4.3 Применение ac-3
- •3.6. QDesign Music
- •3.6.1. Обзор
- •3.6.2. Software
- •3.6.3. Преимущества технологии qDesign Music
- •3.6.4. Ограничения
- •3Сводная таблица характеристик:
- •3.7. Aspec
- •4.Методы сжатия речевых сигналов.
- •4.1. Основные типы систем сжатия речи
- •4.2. Некоторые системы кодирования речи на основе стандартов itu-t
- •4.4.InterWave
- •4.5.TrueSpeech
- •4.6. ToolVox for the Web
- •5. Основные форматы аудио данных в Интернете на музыкальных сайтах :
3.6.3. Преимущества технологии qDesign Music
Превосходное музыкальное воспроизведение.
Допускает полный диапазон с 16 битами, 44.1kHz стерео воспроизведение с 28.8 модемом (для некоторых материалов)
Лучше звуковое качество, чем MPEG уровень III для низких скоростей потока данных.
При наивысшем качестве (128Kbits/s, 16 KByte/s), позволяет сохранять на CD-ROM до 10 часов очень высококачественного звука.
3.6.4. Ограничения
Требует умеренно высокой загрузки CPU.
При высоких скоростях потока данных (64-128kbit/sec), качество может быть не таким высоким как MP3.
3Сводная таблица характеристик:
Идеальный исходный Материал |
Лучший - инструментальная музыка; также дает хорошее качество и для другой музыки |
Степень компрессии/ скорость потока |
Basic: 8-48 kbits/sec(1-6 kbytes/sec) Pro: 4-128 kbits/sec(0.5-16 kbytes/sec) |
Время компрессии |
Basic: примерно 14 мин. для компрессии 1 мин. Материала на 133mhz Pentium or 180 mhz PPC Pro: в два раза быстрееBasic (примерно 7 мин. для этого примера), приблизительно реальное время для 22 Кгц моно. |
Требования к кодеру
|
Любой Power PC или Pentium |
Требования к декодеру |
Любой Power PC или Pentium |
Возможности кодирования |
Basic: Включено в Quick Time 3 Pro: загрузить Демо (free); приобрестиunlock code (лицензию) в фирме TERRAN.INC |
Возможности декодирования |
Встроены в QT 3.0 |
Алгоритм |
Основан на психоакустике |
Производитель |
QDESIGN |
3.7. Aspec
ASPEC– один из алгоритмов сжатия высококачественного звука. Он позволяет добиться качестваCDи поддерживает несколько скоростей потока данных – от 128kbps до 64kbps включительно. ASPECоснован на диапазоне частот, улавливаемых человеческим ухом и алгоритме комплексной энтропии(complex entropy) для сжатия сигнала.
Лучшие черты ASPEC иMUSICAMбыли объединены в MPEG Layer III.
4.Методы сжатия речевых сигналов.
4.1. Основные типы систем сжатия речи
Сжатие тишины (преобразование в абсолютную тишину). Определяются паузы в речи и исключаются из сигнала, запоминается длительность исключенных участков. Производится Сжатие по методу RLE
Логарифмическое сжатие MU-Law и A-Law
ADPCM - кодирование разницы уровней двух последовательных элементов дискретизации сигнала и«адаптированная квантизация»,т.е. масштабирование разрешения дискретизации по уровню сигнала: меньшему значению - меньше битов.
·LPC - Метод линейного предсказания речи - преобразует сигнал с помощью модели речевого тракта, затем манипулирует параметрами полученной модели. Зависит от мощности процессора.
Механический голос на 2.4 кбит/сек.
·CELP и его модификации - Реализует алгоритм линейного предсказания речи, оперируя при этом кодом ошибки.
Качество аудио конференций при 4.8 кбит/сек.
Стандарт ориентирован на качество речи, соответствующие телефонным линиям, например, речь, закодированную с использованием 8 битового ulaw алгоритма и максимальной частотой 3.3kHz. Скорость потока данных здесь 64 kbps и соответствует представлению сжатой (ну, скажем) 16 bit, 16 kHz речи, которая является стандартной в системах распознавания речи. Вulaw не используются корреляционные связи между выборками.
ADPCM– другое семейство алгоритмов кодирования речи, в которых используется эта дополнительная информация, - для предсказания следующей выборки применяется линейный фильтр. Результирующая ошибка предсказания квантуется (4bit), что обеспечивает скорость потока данных32kbps. ПреимуществоADPCM– то, что он может быть легко реализован и имеет малое время задержки.
Чтобы добиться лучшего сжатия необходимо использовать специфичные свойства речевого сигнала. Главное допущение известно как модель фильтра источника речи (filter model of speech production). В ней предполагается, что что сигнал (голос или фрикативный звук (fricative excitation)) пропускается через фильтр (соответствующий речевому тракту (vocal tract)), формируя речь. Простейшая реализация этой модели –LPC-синтезаторы (например,LPC10e). Каждый фрейм речи анализируется для вычисления коэффициентов фильтра, энергии возбуждения, определения:звонкий/глухой звук и определения основного тона (если звонкий). В декодере упорядоченный набор импульсов – для звонких и белый шум – для глухих звуков пропускается через линейный фильтр и домножается на коэффициент усиления, создавая речь. Это очень эффективная система и она используется для создания речи на1200-2400 bps. С использованием акустического векторного предсказания(acoustic vector prediction)можно достичь300-600 bps. Недостаток – потеря естественности речи и, иногда, речь может даже стать неразборчивой.
Семейство CELPкодеров обладает лучшим качеством по сравнению сLPCмоделью за счёт использования дополнительной информации. Каждый вектор возбуждения сравнивается с имеющимися во внутренней таблице и передаётся индекс наиболее подходящего. Это приводит к увеличению скорости потока данных до4800-9600 kbps. Большинство исследований в области кодирования речи сейчас ориентированы наCELP.