- •5 Введение
- •Глава 1
- •1.1. Информатика — состав и структура
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.3. Структуризация взаимосвязи информатики с предметной областью применения
- •1.4. Уровни информационных процессов
- •Глава 2
- •2.1. Текстовая информация. Модель документа
- •2.2. Языки разметки документов
- •2.3. Технологии xml
- •2.4. Текстовый редактор Word
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 3
- •3.2. Форматы записи-воспроизведения аудиосигналов
- •3.3. Технологии статических изображений
- •3.4. Программные средства обработки изображений
- •3.5. Цифровое видео
- •Глава 4
- •4.1. Оптическое распознавание символов (ocr)
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 5
- •5.2. Базы данных и субд
- •Логический файл
- •Логический файл
- •Очереди
- •Время установки головок чтения-записи
- •5.4. Анализ информации и хранилища данных
- •Глава 6
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 7
- •Глава 8
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
3.2. Форматы записи-воспроизведения аудиосигналов
Формат МРЗ
МРЗ — сокращение от MPEG Laver3. Это один из основных цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования Audio CD.
Высокая степень компактности МРЗ при сохранении качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества.
Степень сжатия и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем при задании параметров кодирования. Ширина потока, или битрейт (bitrate) может изменяться от наибольшего для МРЗ (320 кбит/с) до 96 кбит/с и даже ниже. Термин битрейт обозначает общую ширину потока, независимо от того, монофонический или стереофонический сигнал он содержит.
При испытаниях опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в МРЗ с коэффициентом сжатия 6 : 1, т. е. с битрейтом в 256 кбит/с.
Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования. Объективно и 256 кбит/с не дает возможности осуществить полностью обратимое кодирование, то же самое можно сказать и про наивысший битрейт — 320 кбит/с, но отличия от CD Audio, по которому кодируется тестовый МРЗ, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки.
Поэтому самое большое на сегодня преимущество МРЗ перед другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он полностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для МРЗ.
Файл формата МРЗ (обычно используется расширение *.трЗ) может также содержать информацию о файле непосредственно в заголовке: имя исполнителя, графику (альбом диска), URL для дальнейшей информации, текст песни и т. д.
Процесс кодирования. Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помешается в конечный файл независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.
Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу.
Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналами соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.
Для оставшихся данных каждого диапазона определяется, сколькими битами на сэмпл можно пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 дБ.
После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.
Кроме того, кодирование стереосигнала осуществляется четырьмя различными методами:
• Dual Channel — каждый канал получает ровно половину потока и кодируется отдельно, как моносигнал. Рекомендуется главным образом в случаях, когда разные каналы
содержат принципиально разный сигнат — скажем, текст на различных языках;
Stereo — каждый канал кодируется отдельно, но кодер может принять решение отдать одному канату больше места, чем другому;
Joint Stereo (MS Stereo) — стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие;
Joint Stereo (MS/IS Stereo) — вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Очевидно, для кодирования этой информации употребляется еще меньший битрейт. MS Stereo — частный случай MS/IS Stereo, когда переменная, отвечающая за кодируемый таким образом диапазон, принимает нулевое значение.
Скорости передачи. На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие которых нередко серьезно меняет эмоциональную окраску композиции, придает или лишает ее таких эффектов, как ощущение «кристальной чистоты» звука (в той мере, в которой она присутствует в CD Audio). Кроме того, в соответствии с психоакустической моделью, высшие (более 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом. Кроме того, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 кбит/с могут оказаться «смазанными» верхние частоты, наблюдается эффект «шепелявости». Узкое место всех схем компрессии класса MPEG — участки с резкими изменениями сигнала. В случае МРЗ задержка может достигать величин порядка 160 мс, теоретический минимум — 59 мс.
На высших битрейтах при последовательном применении психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании кодера.
Битрейты порядка 112—128 кбит/с по качеству неплохи для прямых трансляций и ознакомительного прослушивания, но отнюдь не для создания архивов музыки качества CD Audio.
Любители МРЗ по-разному оценивают степень приемлемости одних и тех же битрейтов и имеют свой взгляд на то, какой именно битрейт следует считать оптимальным. Одни выбирают 128 кбит/с, другие — 160 кбит/с. третьи золотую середину: 192—256 кбит/с, некоторые — 320 кбит/с.
Из этого можно сделать три вывода. Во-первых, битрейт 256 кбит/с следует считать пограничным. Во-вторых, для абсолютного большинства пользователей он действительно достаточен. В-третьих, для высокого качества следует несколько увеличить запас скорости.
С другой стороны, те же гесты определили диапазон 160—192 кбит/с как в большинстве случаев вполне приемлемый для хранения аудио на компьютере, например, в компьютерных играх, когда внимание отвлечено.
Следующий после 256 кбит/с битрейт — 320 кбит/с, он же — максимальный для кодирования аудио с характеристиками CD Audio, т. е. 44,1 кГц 16 бит Stereo. В данном случае мы имеем запас в '/4 от битрейта 256 кбит/с, и его вполне можно считать достаточным в силу имеющихся данных о степени улучшения качества кодирования при кодировании на 160 кбит/с вместо 128 кбит/с.
Однако различие между качеством звука на битрейтах 128 кбит/с и 256 кбит/с / 320 кбит/с принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних.
В Internet, как правило, можно найти только МРЗ, закодированные с битрейтом 128 кбит/с. Этот битрейт был признан также оптимальным для использования в Internet.
В XingTech был разработан кодер, использующий технику переменного битрейта (VBR). при которой разные участки трека кодируются с разным битрейтом, исходя из степени их сложности для кодирования.
Другие форматы
WAV. Формат WAV является метаформатом для данных любого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содержаться данные, не имеющие отношения к аудио.
Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным файлом, и если установлен — подключает его.
Кодеки, индивидуальные для каждого полформата, регистрируются в системе при их установке, после чего становится возможным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.
Стандарт МРЗ не определяет никакого точного стандартного математического алгоритма кодирования, его разработка целиком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последовательности фреймов могут передаваться потоком (streaming) или храниться в файлах.
Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV и получается то, что называют WAV-МРЗ.
VQF. Этот формат разработан компанией NTT. Алгоритм кодирования широко не разглашается, но если сравнить результаты кодирования в форматах VQF и МРЗ. то можно заключить, что алгоритмы имеют очень мало общего и основаны на совершенно разных подходах к сжатию звука.
Самая сильная сторона формата — степень сжатия. VQF-файл с компрессией 80 кбит/с по качеству идентичен МРЗ-файлу. записанному в 128 кбит/с. степень сжатия превосходит МРЗ более чем на 30 °с. Главный недостаток алгоритма — высокое потребление системных ресурсов.
WMA. В 1998 г. компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. Через некоторое время компания отделилась от проекта и на основе разработок VQF создала новый формат, получивший название Voxware Audio Codec 4.0. Он стал первым алгоритмом сжатия, обеспечивающим качество 128 кбит/с МРЗ-файлов при цифровом потоке в 64 кбит/с.
OGG Verbis. Этот формат был опубликован летом 2000 г. В это же время появилась бета-версия его кодера. После втрое более медлительного по сравнению с WMA процесса кодирования на выходе при 128 кбит/с получается звук, близкий к оригинальной записи.
В файле OGG может содержаться до 255 каналов, т. е. можно кодировать многоканальные потоки вроде Dolby Digital. Кроме того, в OGG-файды можно встраивать графические изображения и тексты, которые могут возникать по ходу воспроизведения.
МРЗРго. Создателем МРЗРго является частная компания Coding Technologies. Созданная в 1997 г.. компания занимается разработкой и маркетингом кодеков на основе технологии SBR (Spectral Band Replication). У Coding Technologies два солидных стратегических партнера — Fraunhofer Institute и Thomson Multimedia.
Прежде всего своим появлением она обязана возникновению потребности передачи цифровой музыки в реальном времени через Internet (Internet-радио и т. д.), а также для мобильных компьютеров и различных портативных цифровых плейеров. Ограниченная скорость передачи или малый объем памяти вынуждают использовать низкие битрейты при сжатии музыки, применяя форматы МРЗ или ААС. Использование более скоростных способов связи, таких, как ISDN или xDSL, не обеспечивает постоянного потока данных из-за перегрузки сети internet.
Технология SBR дополняет использование психоакустических моделей. Ее идея такова: при кодировании передавать чуть более узкий диапазон частот, при этом, естественно, обрезая «верхи», а при декодировании верхние частоты восстанавливаются, основываясь на информации о более низких частотах.
Формат МРЗРго в отличие от стандартного МРЗ содержит два потока, один из которых обычный Layer Ill-поток, а второй содержит информацию, на основе которой декодер восстанавливает самые верхние частоты. Поэтому файл, сжатый с использованием МРЗРго (имеющий расширение *.трЗ), может быть воспроизведен и обычным проигрывателем, но с частотой дискретизации 22 кГц, так как плейер воспримет только первый поток.
DVD-аудио. Известно, что первым оптическим носителем данных, ставшим широко доступным публике, был хорошо знакомый аудиокомпакт-диск. Компьютерной промышленности потребовалось несколько лет для того, чтобы понять, что компакт-диск является идеальной средой для того, чтобы сохранять ;t распределять большие количества цифровых данных, и только в 1990 гг. устройства CD-ROM стали стандартными компонентами ПК.
С появлением DVD производители CD начали создавать стандарты более высококачественного воспроизведения. Среди них — аудиокомпакт-диск высшего качества (SACD или Super Audio CD), диск цифровой звукозаписи (DAD или Digital Audio Disc).
Эти стандарты предполагают диски с разрешающей способностью (уровни квантования) 24 бита и частотой выборки в 96 кГц, в противоположность обычному CD с форматом 16 бит и 44,1 кГц. Кроме того, формат SACD обладает обратной совместимостью с существующими проигрывателями — факт, который может помочь в сражении за потребителя.
Когда DVD появились в 1996 г., еще не был предусмотрен формат DVD-Audio и только в начале 1998 г. DVD-Форум в сотрудничестве с ключевыми производителями промышленности музыки выпустил проект такого стандарта [24, 25]. Спецификация DVD аудио VI.0 была выпушена весной 1999 г., но потребовался еще год, прежде чем вышла спецификация VI.2, в которой были добавлены зашита от копирования и создание водяных знаков.
Основное преимущество спецификации DVD-аудио сравнительно с DVD-видео и компакт-диском заключается в значительном увеличении качества при записи в аудиоформате РСМ (Pulse Code Modulation или импульсно-кодовая модуляция).
DVD-аудио обеспечивают значительно более высокое качество РСМ-аудио, чем возможно на компакт-диске или DVD-видео. DVD-аудио РСМ может быть записан с диапазоном частот, который более чем в 4 раза шире, чем для CD, что предоставляет живость и выразительность, невозможные на компакт-диске. DVD-аудио РСМ также имеет намного больший динамический диапазон, чем это возможно на компакт-диске. — делающий громкие звуки громче, а тихие — более тихими.
Таблица 3.1 сравнивает технические спецификации для РСМ на DVD-аудио и стандартном компакт-диске.
Звуковое окружение театральной системы (Digital Theatre Systems Digital Surround или DTS) — формат аудиокодирования, подобный цифровой системе Долби, которому для воспроизведения требуется декодер, находящийся в проигрывателе либо во внешнем приемнике [25]. Система предполагает шесть каналов: один для басового громкоговорителя плюс пять для динами-
Таблица
3. 1.
Технические спецификации для
РСМ-кодирования
Спецификация
DVD-Audio
CD
Аудиоформат
PCM
PCM
Емкость
диска, Гбайт
4,7
- однослойный 8,5 - двухслойный 17 -
двусторонний двухслойный
650
Мбайт
Число
каналов
До
6
2
(стерео)
Полоса
пропускания, кГц
0-96
(макс.)
5-20
Динамический
диапазон, дБ
144
96
Частота
дискретизации (2 канала), кГц
44,1,
88,2, 176,4 или 48, 96, 192
44,1
Частота
дискретизации (много каналов)
44,1,
88,2 или 48,96
N/A
Разрешающая
способность (уровни оцифровки), бит
12,
16, 20 или 24
16
;
Скорость передачи (макс.), Мбайт/с
9,6
9,6
ков — слева спереди, в центре спереди, справа спереди, слева сзади, справа сзади — и иногда утверждают, что DTS звучит лучше, чем Dolby Digital из-за более низкого коэффициента сжатия. Как и для видео, качество аудио зависит от того, насколько хорошо были выполнены обработка и кодирование сигнала. Несмотря на сжатие, системы Dolby Digital и DTS обеспечивают качество лучшее, чем CD.
Вместимость двухслойного диска DVD-аудио — по крайней мере до 2 ч для полного, окружающего звука, и до 4 ч для стереозвука. Вместимость однослойного диска — вполовину ниже.
Сравнительные характеристики некоторых форматов. На рис. 3.4 приводятся амплитудно-частотные характеристики (АЧХ) аудиосигналов:
исходный звук (WAVE-файл);
результаты кодирования-декодирования каждым из кодеков: МРЗ на 128 и 192 кбит/с; МРЗРго на 64 и 96 кбит/с; WMA на 64 и 96 кбит/с.
Жанры музыки, выбранные для тестирования:
Dance — современная танцевальная музыка (Gala «Keep The Secret», ритмичный и богатый различными стереоэффектами фрагмент);
Рис.
3.4.
Характеристики кодирования-декодирования
различных (|юрматов
д
Jazz — джаз с живыми исполнителями (Joe Cocker «Could You Be Loved», исключительно живая музыка с мощным мужским вокалом и женским бэк-вокалом, насыщенная на средних и высоких частотах);
Pop — поп-музыка с вокалом (Nek «Laura No Esta», ита- ло-поп с ярко выраженным вокалом и, соответственно, богатыми средними частотами).
На АЧХ, представляющих танцевальную музыку и битрейты, соответственно 128 кбит/с для МРЗ и 64 кбит/с для МРЗРго и WMA (рис. 3.4, а), легко заметить, что на частотах до 10 кГц все кодеки выглядят практически одинаково, не считая провала на 30 Гц у МРЗ, который, правда, не будет заметен на слух.
В случае джаза, где реальные инструменты звучат в сочетании с различными вокалами (рис. 3.4. б) следует отметить МРЗ/128, как обеспечивающий наиболее точный результат. Несмотря на то, что фильтрация верхнего диапазона начинается уже на 15,5 кГц, передача высоких частот до этого момента достаточно точная. В случае МРЗРго/64 звук более богат деталями высоких частот.
В случае поп-музыки (рис. 3.4, в) лидером является МРЗРго.
При рассмотрении более высоких битрейтов (рис. 3.4, г, д), заметно, что все кодеки ведут себя более предсказуемо, при этом ближе всех к форме оригинальной АЧХ графики у МРЗРго и МРЗ, a WMA не передает ряд мелких деталей.
Если говорить о поп-музыке, то теперь WMA не искажает вокал Nek и звучит очень хорошо, примерно на уровне МРЗ в 128 —160, хотя этого и не скажешь, глядя на графики АЧХ. По частотному балансу МРЗРго 96 и МРЗ 192 идут практически на одном уровне.
Вполне естественно, что увеличение потока приведет к улучшению и такой более сложной для кодирования музыки, как джаз.
Программные средства записи-воспроизведения звука
Большинство МРЗ-файлов производится из материала, находящегося на аудиокомпакт-диске. Это — двухступенчатый процесс, первая стадия включает преобразование дорожек из формата цифровой звукозаписи CD-DA (CD-Digital audio) к формату WAV. Есть программы, которые могут произвести МРЗ непосредственно из аудио CD, но они достигают этого, все же выполняя извлечение аудио из компакт-диска как начальный шаг процесса. Задача выполняется специализированными программами, известными как CD-Ripper (взломщики CD). Программа читает дорожки аудиокомпакт-диска в цифровой форме и записывает их на жесткий диск как WAV-файлы. Четырехминутная дорожка (трек, фонограмма) занимает около 40—50 Мбайт формата WAV (расширение .wav), так что преобразование полного компакт-диска требует большое пространство на жестком диске.
Вторая стадия в процессе заключается в конвертировании . wav-файла в формат .трЗ. Этот шаг использует специализированное программное обеспечение и программы, которые исполняют эту задачу, известны как кодеры МРЗ. МРЗ-файлы могут создаваться, используя разнообразие норм сжатия, разрешая пользователям выбрать оптимальное соединение количества и качества. Как правило, доступны следующие варианты:
качество компакт-диска — сжатие 12:1, поток данных (битрейт) между 128 и 192 кбит/с;
почти качество компакт-диска — сжатие в пределах 18:1;
качество радио ЧМ — сжатие может быть 70:1, скорость — 64 кбит/с.
МРЗ Maker. Программный продукт Magix 2004 МРЗ Maker (рис. 3.5, 3.6) реализует следующие преобразования звуковых данных:
дорожка аудиоСО — файл МРЗ;
микрофонный или линейный вход — файл МРЗ;
файл МРЗ — аудиоСО и пр.
Winamp. Winamp является весьма популярным плейером, это мультимедиа плейер с поддержкой неограниченного числа форматов (рис. 3.7). При этом используются декодеры, предоставляемые производителями. В целом система напоминает работу Windows с WAV-файлами. Он является одним из самых развитых плейеров, и не только МРЗ. Большинство МРЗ-файлов, доступных через Internet, закодировано в формате 44 кГц и 128 Кбит/с, который приводит к хорошему коэффициенту «качество/размер» для файла МРЗ.
■
■Л.
6
а
Рис. 3.5. МРЗ Maker Diamond, исходный экран: а — регулятор и индикатор громкости каналов; б — панель выбора файлов; в — графический визуалнзатор аудиосигнала («цветомузыка»): г — пульт управления записью-воспроизведением
И»»»:' teCO
fCi 1 ! — * J 0
I в; RV7T
liyd'C.'SCSUsfc ritG&i
Reosicirg-
il } ; Ш , H
Рис. 3.6. МРЗ Maker Diamond, экран настройки режима записи МРЗ: а — выбор источника сигнала; б — настройка кодера (128 кбит/с); в — индикатор уровня; г — задание режима сжатия сигнала
•V " = |
= WINAMP |
• ■ |
*++ 1. F.SHOPIN. BfiLLfffiS -2\ |
I |
jkbps [kHz |
|
MgHllllaB.::Wg[HK Ш0 I |
j. |
^ 4 |
5013 П31 |
ЩЩ Ш1ВШЭДШ / |
Рис.
3.7.
Основной экран-пульт управления Winamp:
1
— индикатор спектра сигнала; 2 —
информация из заголовка файла (автор,
исполнитель и пр.);
3
— регулятор громкости:
4
— регулятор баланса каналов; 5 —
управление воспроизведением; 6 —
графический эквалайзер; 7 — программа
(список) воспроизведения
(plavlist):
8
— клавиши редактирования программы:
добавить файл — ADD,
удалить
— REM