Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерное аудио - форматы аудио-файлов и методы компрессии.doc
Скачиваний:
55
Добавлен:
01.05.2014
Размер:
352.77 Кб
Скачать

3.6.3. Преимущества технологии qDesign Music

  • Превосходное музыкальное воспроизведение.

  • Допускает полный диапазон с 16 битами, 44.1kHz стерео воспроизведение с 28.8 модемом (для некоторых материалов)

  • Лучше звуковое качество, чем MPEG уровень III для низких скоростей потока данных.

  • При наивысшем качестве (128Kbits/s, 16 KByte/s), позволяет сохранять на CD-ROM до 10 часов очень высококачественного звука.

3.6.4. Ограничения

  • Требует умеренно высокой загрузки CPU.

  • При высоких скоростях потока данных (64-128kbit/sec), качество может быть не таким высоким как MP3.

3Сводная таблица характеристик:

Идеальный исходный

Материал

Лучший - инструментальная музыка; также дает хорошее качество и для другой музыки

Степень компрессии/

скорость потока

Basic: 8-48 kbits/sec(1-6 kbytes/sec)

Pro: 4-128 kbits/sec(0.5-16 kbytes/sec)

Время компрессии

Basic: примерно 14 мин. для компрессии 1 мин. Материала на

133mhz Pentium or 180 mhz PPC

Pro: в два раза быстрееBasic (примерно 7 мин. для этого примера), приблизительно реальное время для 22 Кгц моно.

Требования

к кодеру

Любой Power PC или Pentium

Требования к декодеру

Любой Power PC или Pentium

Возможности

кодирования

Basic: Включено в Quick Time 3

Pro: загрузить Демо (free); приобрестиunlock code (лицензию) в фирме TERRAN.INC

Возможности

декодирования

Встроены в QT 3.0

Алгоритм

Основан на психоакустике

Производитель

QDESIGN

3.7. Aspec

ASPEC– один из алгоритмов сжатия высококачественного звука. Он позволяет добиться качестваCDи поддерживает несколько скоростей потока данных – от 128kbps до 64kbps включительно. ASPECоснован на диапазоне частот, улавливаемых человеческим ухом и алгоритме комплексной энтропии(complex entropy) для сжатия сигнала.

Лучшие черты ASPEC иMUSICAMбыли объединены в MPEG Layer III.

4.Методы сжатия речевых сигналов.

4.1. Основные типы систем сжатия речи

  • Сжатие тишины (преобразование в абсолютную тишину). Определяются паузы в речи и исключаются из сигнала, запоминается длительность исключенных участков. Производится Сжатие по методу RLE

  • Логарифмическое сжатие MU-Law и A-Law

  • ADPCM - кодирование разницы уровней двух последовательных элементов дискретизации сигнала и«адаптированная квантизация»,т.е. масштабирование разрешения дискретизации по уровню сигнала: меньшему значению - меньше битов.

·LPC - Метод линейного предсказания речи - преобразует сигнал с помощью модели речевого тракта, затем манипулирует параметрами полученной модели. Зависит от мощности процессора.

  • Механический голос на 2.4 кбит/сек.

·CELP и его модификации - Реализует алгоритм линейного предсказания речи, оперируя при этом кодом ошибки.

  • Качество аудио конференций при 4.8 кбит/сек.

Стандарт ориентирован на качество речи, соответствующие телефонным линиям, например, речь, закодированную с использованием 8 битового ulaw алгоритма и максимальной частотой 3.3kHz. Скорость потока данных здесь 64 kbps и соответствует представлению сжатой (ну, скажем) 16 bit, 16 kHz речи, которая является стандартной в системах распознавания речи. Вulaw не используются корреляционные связи между выборками.

ADPCM– другое семейство алгоритмов кодирования речи, в которых используется эта дополнительная информация, - для предсказания следующей выборки применяется линейный фильтр. Результирующая ошибка предсказания квантуется (4bit), что обеспечивает скорость потока данных32kbps. ПреимуществоADPCM– то, что он может быть легко реализован и имеет малое время задержки.

Чтобы добиться лучшего сжатия необходимо использовать специфичные свойства речевого сигнала. Главное допущение известно как модель фильтра источника речи (filter model of speech production). В ней предполагается, что что сигнал (голос или фрикативный звук (fricative excitation)) пропускается через фильтр (соответствующий речевому тракту (vocal tract)), формируя речь. Простейшая реализация этой модели –LPC-синтезаторы (например,LPC10e). Каждый фрейм речи анализируется для вычисления коэффициентов фильтра, энергии возбуждения, определения:звонкий/глухой звук и определения основного тона (если звонкий). В декодере упорядоченный набор импульсов – для звонких и белый шум – для глухих звуков пропускается через линейный фильтр и домножается на коэффициент усиления, создавая речь. Это очень эффективная система и она используется для создания речи на1200-2400 bps. С использованием акустического векторного предсказания(acoustic vector prediction)можно достичь300-600 bps. Недостаток – потеря естественности речи и, иногда, речь может даже стать неразборчивой.

Семейство CELPкодеров обладает лучшим качеством по сравнению сLPCмоделью за счёт использования дополнительной информации. Каждый вектор возбуждения сравнивается с имеющимися во внутренней таблице и передаётся индекс наиболее подходящего. Это приводит к увеличению скорости потока данных до4800-9600 kbps. Большинство исследований в области кодирования речи сейчас ориентированы наCELP.