Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1 / Salmon_sjatie_dannyh_izobrajeniy_i_zvuka[torrents.ru]

.pdf
Скачиваний:
24
Добавлен:
05.06.2015
Размер:
7.92 Mб
Скачать

Глава 5. Cotcamue видео

то после деления на 2 переменная s станет равна 4. На этом шаге исследуются блоки, помеченные цифрой 4 с центром в (4,4). Пред­ положим, что наилучшим блок имеет координаты (6,4). Тогда ис­ следуются два блока с меткой 5. Пусть опять наилучшим блоком служит (6,4). Делим s на два и исследуем шесть блоков, помечен­ ных цифрой 6. Диаграмма показывает, что окончательным опти­ мальным выбором алгоритма станет блок с координатами (7,4).

- 8 --7 --Ь- Ь - 4 -3 -2 - \ С2) 'L 2

] С

1)

е)

''

8

8

 

сГ

Пт^

 

 

 

 

 

 

 

 

 

 

 

 

 

с

 

 

 

 

 

 

 

к.\>-

 

~\Ь)

 

 

 

СЛ

й

 

У\9У

Ч ^

1

 

 

 

 

 

 

4

LГ

\ ь- - < \>-

 

\_^gV/g\

1

3

 

 

сLb

 

 

 

 

 

 

 

 

 

 

 

 

к^

 

 

 

 

 

АS

г.S

S

 

 

 

 

 

А

 

 

 

 

 

^у

^у

^J

 

 

 

 

А\

^J

7

8

Рис. 5.7. Метод двумерного логарифмического поиска.

Поиск за три шага: Этот метод похож на процедуру дву­ мерного логарифмического поиска. На каждом шаге тестируется восемь блоков вместо четырех вокруг центра поиска, после чего размер шага делится на два. Если в начале 5 = 4, то алгоритм за­ вершится в три шага, что объясняет его название.

Ортогональный поиск: Это вариация двух алгоритмов, дву­ мерного логарифмического поиска и поиска за три шага. На каждом шаге ортогонального алгоритма осуществляется вертикальный и

5.2. Методы подоптимального поиска

горизонтальный поиск. В начале размер шага s равен \_{d-\- 1)/2J и исследуется центральный блок, а также два его соседа по бокам на расстоянии 5. Наилучший блок становится центром вертикально­ го поиска, а двумя другими блоками-кандидатами становятся блоки сверху и снизу от центрального на расстоянии s от него. Лучший из них становится центром следуюш;его поиска. Если размер шага s равен 1, то алгоритм обрывается и возвращаются координаты наи­ лучшего блока, найденного на текущем шаге. В противном случае S делится на два, после чего совершается новый шаг, состоящий из горизонтального и вертикального поиска.

Поиск по одному: В этом методе снова имеется два шага, горизонтальный и вертикальный. На горизонтальном шаге иссле­ дуются все блоки области поиска, чьи координаты у имеют то же значение, что и у блока В (то есть лежат на одной горизонтали с этим блоком). Пусть некоторый блок Н имеет наименьшее расхо­ ждение с В. Затем на вертикальном шаге анализируются все блоки, находящиеся на одной вертикальной оси с блоком Н. Наилучший блок этой оси объявляется оптимальным и возвращается алгорит­ мом в качестве результата поиска. Модификация этого алгоритма повторяет это действие с последовательным сокращением области поиска.

Перекрестный поиск: Все этапы этого алгоритма, кроме по­ следнего, исследуют пять блоков, находящихся по углам области в форме знака умножения х. На каждом этапе размер шага поиска делится на два, пока он не станет равен 1. На последнем этапе в качестве области поиска используется область в форме знака -}- с центром в результате предыдущего этапа.

Этим методом мы завершили наш краткий обзор методов моно­ тонного поиска по квадрантам.

Методы иерархического поиска: Иерархические методы основаны на преимуществе, которое обеспечивается тем, что бли­ зость блоков чувствительна к размеру блока. Иерархический по­ иск начинает с блоков больших размеров и использует их векто­ ры перемещения как исходную точку поисков для блоков меньших размеров. Большие блоки с меньшей вероятностью могут привести к ошибочному локальному минимуму, одновременно с этим, малые блоки обычно производят лучшие векторы перемещения. Метод ие­ рархического поиска имеет высокую вычислительную сложность, и ускорить его можно, сократив число выполняемых операций. Это делается несколькими способами. Вот некоторые из них:

Глава 5. Сэюатие видео

1.На первом шаге, когда размер блока еще велик, выбрать прибли­ зительно подходящие блоки. Соответствующие им векторы переме­ щения не будут наилучшими, но они будут использоваться лишь как отправные точки для дальнейших лучших векторов.

2.При исследовании больших блоков пропустить некоторые пикселы. Например, алгоритм может использовать только четверть пикселов больших блоков, половину пикселов меньших блоков и так далее.

3.Выбрать размеры блоков так, что блоки, используемые на шаге г, делятся на несколько (обычно четыре или девять) меньших блоков, используемых на следующем шаге. На этом пути каждый вектор перемещения, вычисленный на шаге г, будет служить приближен­ ной оценкой для нескольких векторов перемещений меньших блоков шага г + 1.

Методы многомерного пространственного поиска: Эти методы более сложны. При поиске блока, близкого блоку В, они ис­ пользуют не только сдвиги данного блока JB, НО также его вращения, растяжения и сжатия.

Метод многомерного пространственного поиска может также найти блок С, который близок блоку В, но при других условиях освещения. Это бывает полезно, когда объекты в кадре пересекают участки с разной освещенностью. Все рассмотренные выше алго­ ритмы оценивали близость двух блоков друг другу с помощью срав­ нения величин светимости соответствующих пикселов. Два блока В

иС, которые содержат одни и те же объекты, но с разной освещен­ ностью, будут объявлены различными.

Если же метод многомерного пространственного поиска обнару­ жит блок С, который походит на блок В, но с другой светимостью, то он объявит его близким к В и добавит к сжатому кадру вели­ чину светимости. Эта величина (возможно, отрицательная) будет прибавлена декодером к пикселам декодированного кадра, чтобы придать им изначальную светимость.

Метод многомерного пространственного поиска может также сравнивать блок В с повернутыми копиями блоков-кандидатов С. Это полезно, если объекты видеоряда могут врашдться наряду с совер­ шением поступательных перемещений. Более того, такой алгоритм может одновременно масштабировать блоки С, стараясь подобрать лучшее совпадение блоков. Например, если блок В состоит из 8 х 8 пикселов, то алгоритм может попытаться сравнивать этот блок с блока­ ми С, состоящими из 12 х 12 пикселов, путем их сжатия до разме­ ров 8x8.

5.2. Методы подоптимальиого поиска

Конечно, такие алгоритмы используют еще большие вычислитель­ ные мощности для совершения дополнительных операций и срав­ нений. Можно говорить, что это существенно увеличивает размер­ ность пространства поиска^ и этим оправдывается использование наименования многомерное пространство поиска. Однако, насколь­ ко известно автору, на практике пока не разработан метод много­ мерного пространственного поиска, который использует в полной мере масштабирование, вращение и изменение светимости.

Video meliora proboque deteriora sequor

(Я вижу лучшее и одобряю его, но следую за худшим).

Овидий ^Метаморфозы», 7:20

ГЛАВА 6

СЖАТИЕ ЗВУКА

Файл С текстом занимает обычно мало места на диске компьютера. Типичная книга, содержащая около миллиона символов, в несжатом виде будет занимать объем порядка 1 MB, tckb каждому символу будет отведен один байт. Например, книга в 400 страниц, в сред­ нем, по 45 строк из 60 букв на каждой странице будет содержать примерно 60 X 45 X 400 = 1080000 символов или байт.

В отличие от этого, хранение изображений требует гораздо боль­ ших объемов, которое придает иное звучание фразе «картина стоит тысяч слов ее описания». В зависимости от числа используемых цве­ тов изображения, один пиксел требует от одного бита до трех бай­ тов. Таким образом, картинка размером 512 х 512 пикселов займет от 32 KB до 768 КВ.

С появлением мощных и недорогих персональных компьютеров стали разрабатываться всевозможные мультимедийные приложения и программы, в которых используются тексты, изображения, анимированные фрагменты и звук. Всю эту разнородную цифровую информацию необходимо хранить в компьютере, отображать, ре­ дактировать и проигрывать. Для хранения звука места требуется меньше, чем для изображений и видео, но больше, чем для текста. Вот почему проблема сжатия аудио информации стала весьма ак­ туальной в 1990 годах и привлекла пристальное внимание исследо­ вателей.

Эта глава начинается коротким введением о природе звука и методах его оцифровывания. Потом обсуждается строение органов слуха человека и особенности восприятия звука ухом и мозгом, ко­ торые позволяют выбрасывать при сжатии большую часть цифро­ вой аудио информации без потери качества воспринимаемого зву­ ка. Затем обсуждаются два простых метода сжатия оцифрованного звука, а именно подавление пауз и уплотнение. В конце главы при­ водится описание популярного метода сжатия звука МРЗ, который является составной частью стандарта MPEG-1.

6.1. Звук

6.1. Звук

Для большинства из нас звук является привычным явлением, мы постоянно его слышим. Однако, если попытаться дать точное опре­ деление звуку, то быстро выясниться, что сделать это можно с двух различных точек зрения.

Интуитивное определение: звук, это оп^ущения, воспринимаемые нашим ухом и интерпретируемые мозгом определенным образом.

Научное определение: звук это колебание среды. Он распростра­ няется в среде с помощью волн давления посредством колебания ато­ мов и молекул.

Обычно, мы слышим звук, который распространяется в воздухе

иколеблет наши барабанные перепонки. Однако звук может распро­ странятся и во многих других средах. Морские животные способны издавать звуки в воде и откликаться на них. Если ударить молот­ ком по концу металлического рельса, то в нем возникнут звуковые колебания, которые можно обнаружить на другом конце. Хорошие звуковыми изоляторами разрежены, а наилучшим изолятором слу­ жит вакуум, в котором отсутствуют частицы, способные колебаться

ипередавать возмущения.

Одновременно звук можно считать волной, даже если ее часто­ та может все время меняться. Эта волна является продольной; в ней направление возмущения совпадает с направлением распростра­ нения волны. Наоборот, электромагнитные волны и волны в океане являются поперечными. Их колебания направлены перпендикулярно движению волны.

Как и любая волна звук имеет три важных атрибута, а именно, скорость, амплитуду и период. Частота волны не является независи­ мым атрибутом, она равна числу периодов волны за единицу време­ ни (одну секунду). Единицей частоты служит герц (Гц). Скорость звука зависит от свойств среды, в которой он распространяется, а также от температуры. В воздухе на уровне моря (при давлении в одну атмосферу) и при температуре 20° по Цельсию скорость звука равна 343.8 метров в секунду.

Человеческое ухо способно воспринимать звук в широком диапа­ зоне частот, обычно, от 20 Гц до 22000 Гц, что зависит от возраста и состояния здоровья человека. Это, так называемый, диапазон слы­ шимых частот. Некоторые животные, например, собаки и летучие мыши, могут слышать звук более высокой частоты (ультразвук). Простое вычисление дает периоды слышимых звуков. При частоте 22000 Гц период равен около 1.56 см., а при 20 Гц он равен 17.19 м.

Глава 6. Сэюатие звука

Амплитуда звука также важна. Мы воспринимаем ее как гром­ кость. Мы слышим звук, когда молекулы начинают ударять по бара­ банным перепонкам в ушах и оказывают на них определенное давле­ ние. Молекулы перемещаются вперед-назад на крошечное расстоя­ ние, которое соотносится с амплитудой, но не с периодом звука. Период звука может быть равен нескольким метрам, а молекулы при этом смещаются на миллионные доли сантиметра в своих ко­ лебаниях. Таким образом, устройство регистрации звуков должно иметь весьма чувствительную диафрагму, чтобы улавливать давле­ ние звуковой волны и переводить их в электромагнитные колебания, которые затем будут преобразовываться в цифровую форму.

Сложности с измерением интенсивности звука связаны с тем, что наше ухо чувствительно к весьма широкому диапазону уровней громкости (амплитуде) звука. Уровень грохота пушки и уровень комариного писка может различиться на 11-12 порядков. Если мы обозначим уровень наименьшего сльппимого звука (порог слыши­ мости) за 1, то уровень грохота пушки будет равен Ю^М Весьма затруднительно работать с таким широким размахом измеряемой величины, поэтому для измерения громкости звука используется ло­ гарифмическая шкала. Логарифм 1 равен О, а десятичный логарифм 10^^ равен 11. Используя логарифмы, можно иметь дело с числами в интервале от О до И. На самом деле, такой интервал маловат, поэтому его принято умножать на 10 или на 20, чтобы работать с числами от О до 110 или от О до 220. В этом заключается хорошо из­ вестный (но иногда вызывающий затруднения с пониманием) метод измерения с помощью децибел.

Единица измерения в 1 децибел (дБ) определяется как десятич­ ный логарифм частного между двумя физическими величинами, для которых единицей измерения служит мощность (энергия в единицу времени). Этот логарифм следует умножить на 10 (Если не делать этого, то получится единица, называемая «бел», которая, впрочем, была давно отброшена в пользу единицы «децибел»). Итак, получаем

уровень = lOlogio -^ дБ,

где Р\ ТА Р2 - величины, измеренные в единицах мощности, то есть, ватт, джоуль/сек, грамм-см/сек или лошадиная сила. Это может быть мощность молекулы, электрическая мощность или еще что-то. При измерении громкости звука применяется единица акустической мощности. Поскольку громкий звук можно произвести с помощью малой энергии, то обычно используется единица микроватт (10~^).

6.1. Звук

Децибел - это логарифм частного двух величин. В числителе стоит мощность Pi звука, чей уровень громкости мы желаем из­ мерить. В качестве знаменателя принято использовать мощность самого слабого различимого звука (порога слышимости). Из экспе­ риментов было получено, что мощность порога сльпиимости соста­ вляет 10~^ микроватт, то есть, 10~^^ ватт. Таким образом, стерео устройство, производящее 1 ватт акустической мощности, имеет уровень громкости

10^

10 log10 10-6 = 101ogio(10'^) = 10 X 12 = 120 дБ

(это где-то в районе порога болевого ощущения; см. рис. 6.1), а на­ ушники, вырабатывающие 3 х 10~^ микроватт имеют уровень

lOlogio

3 X 10"^

 

 

,„_«

= 101ogio(3 X 102) = 10 X (logio 3 + 2) « 24.77 дБ.

 

10

 

 

 

 

 

грохот пушки

• 220

 

 

 

 

210 •

 

 

 

 

200

ракета

 

 

 

190

 

 

 

 

• 180

 

 

 

 

170

 

 

реактивный самолет

• 160

 

 

150

болевой порог

 

 

 

• 140

 

порог ощущений

130 •

 

 

120

 

 

ниагарский водопад

110

- фом

 

100

• поезд

 

заводской шум

90 •

 

 

80

- уличный шум

 

 

учреждение

70 •

 

 

60

 

 

 

 

50 •

 

 

тихий дом

40

 

 

 

30 -

- студия звукозаписи

 

сельский уголок

• 20

 

 

10 -

 

 

порог слышимости

i]ОOdBB SPLЯ = 0.0002 дин/см

 

Рис .

6.1. Шкала уровней звука в единицах дБ PSL.

В теории электричества существует простое соотношение меж­ ду (электрической) мощностью Р и давлением (напряжением) V. Электрическая мощность равна произведению электрического тока на напряжение Р = I V. Ток, по закону Ома, пропорционален на­ пряжению, то есть, I = V/R, где R - сопротивление. Следовательно, можно записать, что Р = V^/R и использовать давление (напряже­ ние) при измерениях в децибелах.

Глава 6. Сжатие звука

На практике не всегда имеется доступ к источнику звука для измерения электрической мощности на выходе. Держа в руках изме­ ритель децибелов звука, можно оказаться в сложном положении при измерении уровня шума вокруг себя. Измеритель децибелов опреде­ ляет давление Рг^ которое оказывают звуковые волны на его диа­ фрагму. К счастью, акустическая мощность на единицу площади (обозначаемая Р) пропорциональна квадрату звукового давления Рг. Это имеет место в силу того, что мощность Р равна произ­ ведению давления Рг и скорости звука г?, а звук, в свою очередь, можно выразить как давление, деленное на особый импеданс (пол­ ное сопротивление) среды, через которую проходит данный звук. Поэтому громкость звука еще принято измерять в единицах дБ SPL (sound pressure level, уровень звукового давления) вместо мощности звука. По определению,

Pi

PJ.2

Рг

 

уровень = lOlogio ^ = lOlogio

^ 2^^^^10р;^дБ8РЬ.

Р2

PrJ

 

Нулевой уровень, измеренный в единицах, дБ PSL соответствует величине 0.0002 рщ1/ом^^ где дина - это малая единица силы, рав­ ная примерно весу 0.0010197 грамм. Поскольку дина равна 10~'^ Н (ньютона), а сантиметр - это 0.01 метра, то нулевой уровень (порог слышимости) равен 0.00002 H/м^. В табл. 6.2 приведены типичные значения дБ для обоих единиц мощности и SPL.

ватты

дБ

давление Н/м^

дБ8РЬ

источник

30000.0

165

2000.0

160

реактивный самолет

300.0

145

200.0

140

болевой порог

3.0

125

20.0

120

заводской шум

0.03

105

2.0

100

уличный транспорт

0.0003

85

0.2

80

бытовой прибор

0.000003

65

0.02

60

беседа

0.00000003

45

0.002

40

тихая комната

0.0000000003

25

0.0002

20

шепот

0.000000000001

0

0.00002

0

порог сльшгамости

Табл. 6.2. Уровни различных звуков в единицах мощности и давления.

Чувствительность уха человека к уровню звука зависит от его частоты. Из опытов известно, что люди более чувствительны к звукам высокой частоты (поэтому сирена воет высокими тонами). Можно слегка модифицировать систему дБ SPL, чтобы она силь­ нее зависела от высоких частот и слабее от низких. Такая система

6.2. Оцифрованный звук

называется стандартом dBA. Существуют также стандарты дБВ и дБС для измерения уровня шума. (В электротехнике применяются также стандарты dBm, dBmO и dBrn; см., например, [Shenio 95]).

Из-за применения функции логарифм величины, измеренные в децибелах, нельзя складывать. Если трубач заиграет после концер­ та на своей трубе, извлекая звуки, скажем в 70 дБ, а затем к нему присоединится второй музыкант, играя на тромбоне с таким же уровнем звука, то (бедный) слушатель получит удвоение интенсив­ ности звука, но этому будет соответствовать уровень лишь в 73 дБ, а не в 140 дБ. В самом деле, если

1 0 1 o g i o ( ^ ) = 7 0 ,

lOlogio {—^

= 10 (log,o 2 + logio ( ^ ) ) = 10(0.3 + 7) = 73.

Удвоение интенсивности шума приводит к увеличению уровня на 3 единицы (при использовании единиц SPL это число следует удвоить).

Более подробные сведения о звуке, его свойствах и измерении можно почерпнуть из [8Ьепош 95].

6.2. Оцифрованный звук

Как уже отмечалось, любое изображение можно оцифровать раз­ бив его на пикселы, а каждому пикселу приписать некоторое число. Точно также звук можно оцифровать, разбив его на фрагменты и присвоив им некоторые числовые значения. Если записывать звук через микрофон, то он переводится в электрический сигнал, напря­ жение которого непрерывно зависит от времени. На рис. 6.3 пока­ зан типичный пример записи звука, которая начинается в нуле и колеблется несколько раз. Это напряжение называется аналоговым представлением звука. Оцифровка звука делается с помош;ью изме­ рения напряжения сигнала во многих точках оси времени, перевода каждого измерения в числовую форму и записи полученных чисел в файл. Этот процесс называется сэмплированием или отбором фраг­ ментов. Звуковая волна сэмплируется, а сэмплы (звуковые фрагмен­ ты) становятся оцифрованным звуком. Устройство сэмплирования звука называется аналого-цифровым преобразователем (АЦП или, по-английски, ADC, analog-to-digital converter).

Соседние файлы в папке 1