3.6.3. Преимущества технологии qDesign Music

Превосходное музыкальное воспроизведение.
Допускает полный диапазон с 16 битами, 44.1kHz стерео воспроизведение с 28.8 модемом (для некоторых материалов)
Лучше звуковое качество, чем MPEG уровень III для низких скоростей потока данных.
При наивысшем качестве (128Kbits/s, 16 KByte/s), позволяет сохранять на CD-ROM до 10 часов очень высококачественного звука.

3.6.4. Ограничения

Требует умеренно высокой загрузки CPU.
При высоких скоростях потока данных (64-128kbit/sec), качество может быть не таким высоким как MP3.

3Сводная таблица характеристик:

Идеальный исходный Материал	Лучший - инструментальная музыка; также дает хорошее качество и для другой музыки
Степень компрессии/ скорость потока	Basic: 8-48 kbits/sec(1-6 kbytes/sec) Pro: 4-128 kbits/sec(0.5-16 kbytes/sec)
Время компрессии	Basic: примерно 14 мин. для компрессии 1 мин. Материала на 133mhz Pentium or 180 mhz PPC Pro: в два раза быстрееBasic (примерно 7 мин. для этого примера), приблизительно реальное время для 22 Кгц моно.
Требования к кодеру	Любой Power PC или Pentium
Требования к декодеру	Любой Power PC или Pentium
Возможности кодирования	Basic: Включено в Quick Time 3 Pro: загрузить Демо (free); приобрестиunlock code (лицензию) в фирме TERRAN.INC
Возможности декодирования	Встроены в QT 3.0
Алгоритм	Основан на психоакустике
Производитель	QDESIGN

3.7. Aspec

ASPEC– один из алгоритмов сжатия высококачественного звука. Он позволяет добиться качестваCDи поддерживает несколько скоростей потока данных – от 128kbps до 64kbps включительно. ASPECоснован на диапазоне частот, улавливаемых человеческим ухом и алгоритме комплексной энтропии(complex entropy) для сжатия сигнала.

Лучшие черты ASPEC иMUSICAMбыли объединены в MPEG Layer III.

4.Методы сжатия речевых сигналов.

4.1. Основные типы систем сжатия речи

Сжатие тишины (преобразование в абсолютную тишину). Определяются паузы в речи и исключаются из сигнала, запоминается длительность исключенных участков. Производится Сжатие по методу RLE
Логарифмическое сжатие MU-Law и A-Law
ADPCM - кодирование разницы уровней двух последовательных элементов дискретизации сигнала и«адаптированная квантизация»,т.е. масштабирование разрешения дискретизации по уровню сигнала: меньшему значению - меньше битов.

·LPC - Метод линейного предсказания речи - преобразует сигнал с помощью модели речевого тракта, затем манипулирует параметрами полученной модели. Зависит от мощности процессора.

Механический голос на 2.4 кбит/сек.

·CELP и его модификации - Реализует алгоритм линейного предсказания речи, оперируя при этом кодом ошибки.

Качество аудио конференций при 4.8 кбит/сек.

Стандарт ориентирован на качество речи, соответствующие телефонным линиям, например, речь, закодированную с использованием 8 битового ulaw алгоритма и максимальной частотой 3.3kHz. Скорость потока данных здесь 64 kbps и соответствует представлению сжатой (ну, скажем) 16 bit, 16 kHz речи, которая является стандартной в системах распознавания речи. Вulaw не используются корреляционные связи между выборками.

ADPCM– другое семейство алгоритмов кодирования речи, в которых используется эта дополнительная информация, - для предсказания следующей выборки применяется линейный фильтр. Результирующая ошибка предсказания квантуется (4bit), что обеспечивает скорость потока данных32kbps. ПреимуществоADPCM– то, что он может быть легко реализован и имеет малое время задержки.

Чтобы добиться лучшего сжатия необходимо использовать специфичные свойства речевого сигнала. Главное допущение известно как модель фильтра источника речи (filter model of speech production). В ней предполагается, что что сигнал (голос или фрикативный звук (fricative excitation)) пропускается через фильтр (соответствующий речевому тракту (vocal tract)), формируя речь. Простейшая реализация этой модели –LPC-синтезаторы (например,LPC10e). Каждый фрейм речи анализируется для вычисления коэффициентов фильтра, энергии возбуждения, определения:звонкий/глухой звук и определения основного тона (если звонкий). В декодере упорядоченный набор импульсов – для звонких и белый шум – для глухих звуков пропускается через линейный фильтр и домножается на коэффициент усиления, создавая речь. Это очень эффективная система и она используется для создания речи на1200-2400 bps. С использованием акустического векторного предсказания(acoustic vector prediction)можно достичь300-600 bps. Недостаток – потеря естественности речи и, иногда, речь может даже стать неразборчивой.

Семейство CELPкодеров обладает лучшим качеством по сравнению сLPCмоделью за счёт использования дополнительной информации. Каждый вектор возбуждения сравнивается с имеющимися во внутренней таблице и передаётся индекс наиболее подходящего. Это приводит к увеличению скорости потока данных до4800-9600 kbps. Большинство исследований в области кодирования речи сейчас ориентированы наCELP.

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1210 11 12 > Следующая >>>

Соседние файлы в предмете Цифровая обработка сигналов

#
01.05.20142.68 Mб285Вейвлет-преобразование в задачах цифровой обработки сигналов.doc
#
01.05.20142.43 Mб44Дельта-модуляция.DOC
#
01.05.201499.84 Кб128Дискретное преобразование Фурье.doc
#
01.05.2014598.54 Кб219Книга по ЦОС в формате pdf.pdf
#
01.05.20141.09 Mб23Компрессия данных.DOC
#
01.05.2014352.77 Кб55Компьютерное аудио - форматы аудио-файлов и методы компрессии.doc
#
01.05.2014441.34 Кб74Компьютерный синтез речи. Realspeak Solo Katerina.doc
#
01.05.2014749.57 Кб39Лабораторная работа №6.doc
#
01.05.2014364.03 Кб29Лабораторная работа №61.doc
#
01.05.2014423.42 Кб23Лабораторная работа №62.doc
#
01.05.20143.93 Mб27Лабораторная работа №63.doc