Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТИК.doc
Скачиваний:
6
Добавлен:
31.07.2019
Размер:
837.63 Кб
Скачать

11.5. Особенности восприятия звука человеком (ограниченность спектра, зависимость чувствительности от громкости, восприятие тишины и маскирование).

Основные моменты, характеризующие особенности восприятия звука, это:

- ограниченность частотного диапазона;

- зависимость восприятия от громкости звукового фона;

- а также эффект маскирования во временной и частотной областях.

Частотный диапазон, воспринимаемый человеческим ухом, распространяется от 20Гц до 16 кГц. При этом нетренированное ухо среднего человека слабо воспринимает частоты выше 10 кГц. Диапазон так называемой “слоговой разборчивости”, когда без искажений воспринимается смысл речи, составляет от 300 до 3400 Гц по европейским стандартам и от 300 до 2900 Гц по американским. Ограничение спектра очевидно важно для объема кода, поскольку максимальная частота согласно теореме Котельникова определяет частоту дискретизации.

Зависимость слухового восприятия от громкости звука проявляется в том, что на громком “фоне” огрехи слышны гораздо меньше, поскольку слуховой аппарат автоматически снижает чувствительность. Эта чувствительность, к тому же, зависит от частотного диапазона, в частности, она максимальна в диапазоне 1-5 кГц, в котором происходит речевое общение.

Маскирование проявляется как во времени, так и по частоте. Например, после восприятия краткого звукового импульса (“щелчка”) ухо теряет чувствительность примерно на полсекунды. С другой стороны, если в спектре имеется гармоника с высокой амплитудой, то находящиеся “в непосредственной близости” частоты будут восприниматься гораздо хуже. Добавим, что эффект маскирования существенно зависит от частотного диапазона, в частности, более низкочастотный звук сильнее маскирует высокочастотный.

11.6 Основные приемы сжатия звука, используемые в методе сжатия mp3.

Метод MP3 характеризуется следующими основными моментами (рис.11.3):

- он разрабатывался с ориентацией на возможности компьютерной обработки и потому использует все наиболее эффективные приемы сжатия звука. Важнейшая особенность метода состоит в том, что пользователь сам задает требования к итоговому звуковому потоку (битрейт). При этом при относительно высоких значениях битрейта (312 или 256 кбит/c) качество воспроизведения практически не уступает качеству AudioCD, тогда как объём кода оказывается примерно в 4,5-5,5 раз ниже по сравнению с первичным кодированием с параметрами 44,1кГц х 16 бит х 2канала = 1411кбит/c. Дальнейшее снижение объема кода достигается ценой заметной потери качества звука;

- исходная последовательность отсчетов разбивается MP3-кодером на блоки (фреймы), для каждого из которых выполняется дискретное спектральное преобразование с последующей обработкой спектра (в первую очередь – огрубление амплитуд спектральных составляющих с учетом частотных диапазонов и эффекта маскирования в частотной области);

- наряду с обработкой спектра выполняется и сжатие во временной области (прежде всего, кодирование “тишины”, а также разностное кодирование амплитуд для обоих звуковых каналов). Алгоритм предусматривает автоматический выбор уровня потерь качества звука в зависимости от заданного битрейта. Используется также режим переменного битрейта, когда кодер автоматически понижает его величину для относительно простых участков кодирования и наоборот;

- поскольку в сложность сжатия в соседних фреймах может существенно различаться, алгоритм кодирования предусматривает “заем” части емкости относительно простых блоков в пользу соседних более сложных. В итоге метод MP3 способен обеспечить очень высокие степени сжатия звука – до 16 кбит/c и даже ниже. Впрочем, при этом качество страдает уже очень существенно. В Интернет, как правило, выкладывают звуковые файлы с битрейтом 128 или 192 кбит/c.

12.1 Особенности зрения и их использование при сжатии изображений с потерями

12.2 Обзор подходов к сжатию изображений в стандартах JPEG, JPEG2000, MPEG

-Алгоритм Jpeg

Алгоритм компрессии (сжатия) изображений JPEG включает три основных этапа:

- предварительную подготовку или препроцессинг (здесь изображение, в частности, разбивается на небольшие блоки пикселей);

- обработку каждого блока с потерей информации о мелких деталях изображения за счет удаления высокочастотных составляющих спектра;

- окончательную “упаковку” данных для каждого блока.

Декомпрессия выполняется в обратном порядке. Потери информации при сжатии проявляются как сглаживание цветовых переходов внутри блоков и проявление границ между ними.

-JPEG 2000

Идея алгоритма заключается в том, что мы сохраняем в файл разницу — число между средними значениями соседних блоков в изображении, которая обычно принимает значения, близкие к 0. Так два числа a2i и a2i+1 всегда можно представить в виде b1i=(a2i+a2i+1)/2 и b2i=(a2i-a2i+1)/2. Аналогично последовательность ai может быть попарно переведена в последовательность b1,2i.

Разберем конкретный пример:

Пусть мы сжимаем строку из 8 значений яркости пикселов (ai): (220, 211, 212, 218, 217, 214, 210, 202).

Мы получим следующие последовательности b1i, и b2i: (215.5, 215, 215.5, 206) и (4.5, -3, 1.5, 4). Заметим, что значения b2i достаточно близки к 0.

Повторим операцию, рассматривая b1i как ai. Мы получим из (215.5, 215, 215.5, 206): (215.25, 210.75) (0.25, 4.75). Полученные коэффициенты, округлив до целых и сжав, мы можем поместить в файл.

Здесь преобразование применялось к исходной цепочке только два раза. Реально мы можем позволить себе применение wavelet- преобразования 4-6 раз.

-MPEG

Семейство стандартов MPEG (MPEG 1, MPEG 2, MPEG 4) используется для сжатия видеопотока за счет устранения пространственной и временной избыточности. Первая составляющая обеспечивается методами JPEG. Вторая связана с похожестью следующих друг за другом кадров.

Форматы сжатия MPEG предусматривают использование трех типов кадров:

- опорные I-кадры (Intra frame – внутренний кадр) получаются за счет сжатия по JPEG исходных кадров видеопотока. Они следуют с невысокой частотой (типична, например, частота 2 кадра/c);

- в промежутки между I-кадрами включаются кадры, содержащие только изменения между ними – P-кадры (Predicted frame – прогнозируемый кадр). P-кадры могут содержать как собственно вновь появившиеся части изображения, так и векторы смещения частей изображения из ближайшего предыдущего I или P-кадра;

- для того чтобы сократить потери информации между I-кадром и P-кадром, вводятся так называемые B-кадры (Bidirectional frame – двунаправленный кадр). В них содержится информация, которая берется из предшествующего и последующего кадров (интерполирование). По объёму B-кадры самые маленькие, но для воспроизведения требуют предыдущего I- или P-кадра, а также, возможно, и ближайшего следующего P или I-кадра. Это означает, что к моменту, когда надо воспроизводить B-кадр, декодер должен уже иметь все остальные кадры, от которых он зависит, а значит – менять их последовательность.

Группа кадров, начиная с I и включая все зависящие от него P и B, называется GOP (Group of Pictures). Последовательно идущие GOP составляют выходной видеопоток. Типичная последовательность кадров выглядит следующим образом: IBBPBBIBBPBBIBB… Соответственно, последовательность кадров в соответствии с их номерами будет воспроизводиться в следующем порядке: 1423765….

Очевидно, что чем меньше движения присутствует в кодируемой последовательности кадров, тем эффективнее использование P и B-кадров.

Основные разновидности MPEG имеют следующие особенности:

- MPEG-1 и MPEG-2 используют для формирования опорных кадров алгоритм JPEG. При этом в MPEG-2 используется ряд совершенствований;

- MPEG-4 использует технологию так называемого фрактального сжатия изображений. Такое сжатие подразумевает выделение из изображения контуров и текстур объектов. При этом текстуры представляются коэффициентами знакомого нам спектрального преобразования (например, ДКП). А вот контуры представляются в виде так называемых сплайнов (полиномиальных функций) и кодируются опорными точками. Такой способ является значительно более экономичным, чем кодирование JPEG.

Сжатие MPEG при приемлемом уровне качества удается сжимать объем кода видеопотока в сотни раз.