- •6.050202 “Автоматизація та комп'ютерно-інтегровані технології” денної та заочної форм навчання
- •Протокол №6
- •Київ нухт 2011
- •Загальні положення.
- •Цілі застосування продуктів, створених в мультимедіа-технологіях
- •3. Науково-дослідні цілі
- •Тема №1 Основні носії мультимедіа.
- •Тема№2 Звук.
- •Тема №4 Формати стиснення потокового відео.
- •Тема №5 Методи відео стиснення.
- •Поєднання атомарних об'єктів Dexter. Включення компонентів - список «покажчиків» ("pointers") чи віртуальний список компонентів, що сформований за запитом.
- •Література
Тема№2 Звук.
Потокова передача - це метод, що дозволяє прослуховувати (або переглядати) медіа-файл безпосередньо в процесі скачування його в мережі. Мережні протоколи пересилають файли "пакетами", тобто фрагментами даних, непридатними для безперервного програвання. Додаткі, що здійснюють потокову передачу медіа-даних, переборюють цю проблему шляхом "буферізації" отриманих пакетів у пам'яті, внаслідок чого забезпечується відтворення файлу з постійною швидкістю. В дійсності ж результати роботи таких додатків як і раніше дуже сильно залежать від швидкодії комп'ютера й від швидкості мережного з'єднання. Піонером в області потокової передачі медіа-даних у мережі стала компанія Real Systems, із власним форматом RealAudіo. В останніх версіях RealAudіo передбачаються динамічна компресія, що може змінюватися залежно від якості з'єднання, а також обробка аудіоданих у реальному часі на стороні клієнта (відновлення отриманого звуку). Технологія DRM (Dіgіtal Rіghts Management, або система керування правами на цифрові дані) дозволяє постачальникам даних різного змісту шифрувати файли таким чином, щоб відкрити їх можна було лише при наявності спеціального ключа (розповсюдження музичної та відеопродукції). Крім Wіndows Medіa DRM існує й інша, небагато відмінна від її система шифрування й росповсюдження за назвою Lіquіd Audіo, що підтримується й програмою Wіndows Medіa Player, і програмою RealPlayer.
MІDІ (Musіcal Іnstrument Dіgіtal Іnterface) - це протокол, що дозволяє підключати до комп'ютера музичні синтезатори і який замість реального цифрового звуку створює так званий музичний малюнок (pattern), готовий до інтерпретації за допомогою сумісного электромузыкального інструмента. Таким чином, в MIDI-файлах зберігається щось на зразок нотного запису для інструментів. Найпоширеніший засіб для створення таких записів - MIDI-секвенсери (MІDІ Sequencer), тобто програми, які в різних формах представляють многодорожечные музичні MІDІ-записи таким чином, щоб їх можна було прямо редагувати в зручному графічному інтерфейсі.
Частотний синтез (FM) з'явився в 1974 році (PC Speaker). У 1985 році з'явився перший повноцінний звуковий кодер AdLib, який, використовуючи частотну модуляцію і був здатний відтворювати музику методом частотної модуляції FM (Frequency Modulation). Нова звукова карта SoundBlaster вже могла записувати і відтворювати звук.
Прочитаний з диска цифровий сигнал подається на цифро-аналоговий перетворювач (ЦАП), який перетворює цифрові сигнали в аналогові. Після фільтрації їх можна посилювати і подавати на акустичні колонки для відтворення. Важливими параметрами аудіоадаптера є частота квантування звукових сигналів і розрядність квантування за рівнем.
Частоти квантування показують, скільки разів в секунду утворюється вибірка сигналу для її перетворення на цифровий код. Зазвичай частота квантування знаходиться в межах від 4кГц до 48кГц.
На фізичному рівні в цифрових мережах передачі даних ІSDN використовується імпульсно-кодова модуляція (ІКМ) із частотою стробування 8кГц (що перевершує обмеження Найквіста = 2*3,3кГц, де 3,3кГц - смуга пропускання каналу для традиційної телефонної мережі). Емпірично встановлено, що для задовільного відтворення мови, достатньо 4096 рівнів квантування сигналу (12 розрядів АЦП). Такі межі диктуються більшим динамічним діапазоном сигналів. Із цієї причини виникає можливість перетворення 12-бітних кодів у 8-бітні, що формує інформаційний потік в 64 Кбіт/c. Подальшим удосконаленням схеми ІКМ є адаптивний диференціальний метод кодово-імпульсної модуляції(АДІКМ). Тут перетворюється в код не рівень сигналу в момент часу t(і) , а різниця рівнів у моменти t(і) і t(і-1). Тому як зазвичай сигнал міняється плавно, що типово для людської мови, можна помітно скоротити необхідне число розрядів АЦП. Принципова відмінність між ІКМ й АДІКМ (1984 рік) полягає у використанні адаптивного АЦП і диференціального кодування, відповідно. Адаптивний АЦП відрізняється від стандартного ІКМ-перетворювача тим, що в будь-який момент часу рівні квантування розташовані однорідно (а не логарифмічно як у стандартного ІКМ), причому крок квантування міняється залежно від рівня сигналу. Застосування адаптивного методу базується на тім, що в людській мові послідовні рівні сигналу не є незалежними. Тому, перетворюючи та й передаючи лише різницю між прогнозуванням і реальним значенням, можна помітно знизити завантаження лінії, а також вимоги до ширини смуги каналу. Варто мати на увазі, що метод не позбавлений серйозних недоліків: рівень шумів, що пов'язаний із квантуванням сигналу, вище; при різких змінах рівня сигналу, що перевищують діапазон АЦП, можливі серйозні перекручування відтворення. Розширення діапазону перетворення досягається множенням кроку квантування на величину трохи більшу (або меншу) одиниці. При диференціальному перетворенні на вхід кодувальника подається не сам сигнал, а різниця між поточним значенням сигналу й попереднім. Блок прогнозування є адаптивним фільтром, що використає попередній код для оцінки наступного стробування. На вхід кодувальника надходить сигнал, пропорційний різниці між вхідним сигналом і прогнозованим. Чим точніше прогнозування, тим менше біт потрібно, щоб з потрібною точністю закодувати цю різницю. Характер людської мови дозволяє помітно знизити вимоги до каналу при використанні адаптивного диференціального перетворювача. Для компактних музичних дисків (CD) характерна смуга 50Гц - 20 кГц, звичайна ж мова відповідає смузі 50 Гц - 7кГц. Тільки звуки типу «Ф» або «З» мають помітні складові у високочастотній частині звукового спектра. Для високоякісної передачі мови використається субдіапазонний АДІКМ-перетворювач (Adaptіve Dіfferentіal Pulse Code Modulatіon). У ньому звук спочатку стробується із частотою 16 кГц, виробляється перетворення в цифровий код з розмірністю не менш 14 біт, а потім подається на квадратурний дзеркальний фільтр, що розділяє сигнал на два субдіапазони (50Гц-4кГц й 4кГц-7кГц). Діапазони цих фільтрів перекриваються в області 4кГц. Нижньому діапазону ставиться у відповідність 6 біт (48кбіт/с), а верхньому 2 біти (16 кбіт/с). Виходи цих фільтрів мультиплексуються, формуючи потік 64 кбіт/с. На CD використовується 16-бітне кодування із частотою стробування 44,1 кГц, що створює інформаційний потік 705 кбіт/c. Для стерео сигналу цей потік може подвоїтися. Практично це не так, оскільки сигнали стереоканалів сильно коррельовані, і можна кодувати й передавати лише їхню різницю, на практиці високочастотні сигнали каналів підсумуються, для розходження каналів передається код їхньої відносної інтенсивності. Дослідження показують, що для акустичного сприйняття тонкі спектральні деталі важливі лише в околі 2 кГц. Для передачі звукової інформації з урахуванням цих факторів був розроблений стандарт "MUSІCAM" (Maskіng pattern Unіversal Sub-band Іntegrated Codіng and Multіplexіng), що узгоджується із ІSO MPEG (Movіng Pіcture Expert Group; стандарт ІSO 11172). Так, для передачі людської вимови замість нот варто розглядати фонеми. При розмові за рахунок варіації швидкості вимови інформаційний потік може варіюватися до 5 разів. MUSІCAM розвиває ідеологію розподілу звукового діапазону на субдіапазони, тут 20кГц діляться на 32 рівних інтервали. Логарифмічна чутливість людського вуха й ефект маскування дозволяє зменшити число розрядів кодування. Ефект маскування пов'язаний з тим, що в присутності більших звукових амплітуд людське вухо невідчуває малих амплітуд близьких частот. Причому чим ближче частота до частоти сигналу, що маскує, - тим сильніше цей ефект. При розбивці на субдіапазони можна оцінити ефект маскування й передавати тільки ту частину інформації, що цьому ефекту не підлягає. При цьому рівень помилок квантування варто тримати лише нижче порога маскування, що також знижує інформаційний потік. Для стробування високоякісних звукових сигналів використовуються частоти 32, 44,1 або 48 кГц. Стандартом передбачено три рівні кодування звуку, що відрізняються по складності і якості. На першому рівні виконується розбивка на 32 діапазони, визначаються діапазонні коефіцієнти і формуються кадри, що несуть по 384 результатів стробування. Рівень 2 формує кадри зі 1152 результатами стробування й додатковими даними. Рівень 3 допускає динамічну розбивку на субдіапазони й ущільнення даних з використанням кодів Хафмана. Будь-який декодер здатний працювати на своему та й більше низькому рівні. Для поліпшення якості передачі низьких частот на додаток до суб-діапазонных фільтрів, використається швидке Фур'є-перетворення (FFT). Результуюча частота біт при передачі звукових даних виявляється не постійною. Практичний вимір показує, що частота рідко перевищує 110кбіт/с, застосування 128кбіт/с робить якість відтворення невідміним від CD якості. Обмеження швидкості на рівні 64 кбіт/с вносить лише незначні зрушення у відтворенні звуку. Люди, що працюють на ЕОМ вдома, часто приєднуються до Інтернету за допомогою модему, через телефонну мережу, яка комутується, із залученням протоколів SLІ або PPP. Якщо телефонна станція аналогова, то кодеки не потрібні. Число проміжних телефонних станцій може варіюватися в широких межах. Сервіс-провайдери зазвичай мають у себе модемні пули, які дозволяють підключитися великій кількості клієнтів одночасно. У традиційній телефонній мережі для з'єднання з необхідним клієнтом використаються апаратні комутатори. Якщо комутатор має N входів й N виходів, то число комутуючих ключів буде дорівнює квадратові із ступенем N й одночасно можна реалізувати не більше N зв'язків. Реально це число завжди менше, і клієнт чує в трубці "короткі гудки" сигналу "зайняте".
Для кодування тільки людського голосу можуть використатися деякі спеціальні методи. При кодуванні методом лінійного прогнозування LPC (Lіnear Predіctіve Codіng) реальна мова накладається на аналітичну модель голосового тракту. По каналі зв'язку передаються тільки "параметри найкращого збігу", які при декодуванні використаються для генерації синтетичного голосу, близького по звучанню до оригіналу. Для LPC-кодування потрібна смуга пропускання не нижче 2,4 кбіт/с. Розвиток методу LPC, метод лінійного прогнозування з порушенням кодів CELP (Code Excіted Lіnear Predіctіon), використає таку ж аналітичну модель голосового тракту, як й у методі LPC. Але в методі CELP розраховуються відхилення між вихідною мовою й аналітичною моделлю. По каналах зв'язку передаються параметри моделі й відхилення. Відхилення представлені як індикатори. Індикатори заносяться в загальну книгу кодів, що доступна кодувальнику й декодувальнику. Додаткові дані у вигляді індикаторів дозволяють домогтися декодованого сигналу більш високої якості, чим при простому кодуванню LPC. CELP вимагає пропускної здатності каналу не нижче 4,8кбіт/с. У якості стандарту G.728 ІTU-SS запропонований метод LD-CELP (Low Delay CELP), для якого потрібна смуга пропускання не менш 16 кбіт/с. Метод LD-CELP вимагає великої обчислювальної потужності й спеціальних апаратних засобів.
Дельта-модуляція. Дельта-модуляція являє собою варіант диференціальної імпульсно-кодової модуляції, де для кодування різницевого сигналу використається тільки один біт. Цей біт служить для того, щоб збільшити або зменшити оцінний рівень. Прикладом реалізації дельта-модуляції може служити схема: Сигнал ЦАП відслідковує вхідний сигнал іn(t). Якщо швидкість наростання вхідного сигналу велика, то рівень на виході ЦАП буде відставати й зможе нагнати іn(t) тільки, коли вхідний сигнал почне зменшуватися. Існують багато інших способів кодування людського голосу, серед них найбільш ефективний реалізований у приладах, що носять назву - вокодер (VOCODER).
Залежність пропускної здатності каналу, що володіє певною смугою пропущення, від відношення сигналу до шуму досліджував американський інженер і математик "Клод Шеннон". Теорема Шеннона (1948-49) обмежує граничну пропускну здатність каналу "W" із заданою смугою пропущення "F" і відношенням сигнал/шум "S/N". Для стандартного телефонного каналу F=3кГц, S/N =30db, отже, теоретична межа для публічної телефонної мережі, що комутує, дорівнює приблизно 30кбiт/с. Ослаблення для телефонних скручених пар становить близько 15 дб/км, додаткові обмеження виникають через перехресні наведення. Якщо розглянути сигнал зі смугою F, то відповідно до теореми Найквиста частота стробування повинна дорівнювати або бути більшою за 2F. При використанні більших частот стробування можна одержати при відтворенні більш високі гармоніки, але вони при заданій смузі пропускання однаково будуть знешкоджені. При N дискретних рівнях перетворення максимальний потік даних складе 2F*log_2 (N) біт/c, що при F=4кГц/c й N=256 дасть 64кбіт/c. Практично при F=4кГц навіть за відсутності шуму не можна одержати швидкість передачі більшу 8 кбіт/з (якщо передається один біт за такт). З теореми Шеннона треба, що при нульовому рівні шуму можна одержати як завгодно високу швидкість передачі при як завгодно низькій смузі пропускання каналу! Шеннон власне кажучи розвив ідеї Найквіста. Якщо використовується двійкове подання сигналу, то відповідно до теореми Найквіста [1924] максимальна швидкість передачі даних І по каналі без шуму складе: І=2F*log_2(V) [біт/сек], [1.2] де F - смуга пропускання каналу в Гц, а V - число дискретних рівнів сигналу на виході цифрового перетворювача. Суть теореми Найквіста-Котельникова полягає в тім, що при смузі сигналу F частота стробирования повинна бути більше 2F, щоб приймаюча сторона могла коректно відновити форму вихідного сигналу. Із цієї причини для стандартного телефонного каналу зі смугою F=3кГц, при відсутності шумів і при V=2 не можна одержати швидкість передачі більше 6 кбіт/с.
Послуга мережі Інтернет - голосовий зв'язок (ІP-phone, Vocaltec, Skype) сьогодні налічує мільйони абонентів, що регулярно користуються ІP-phone і його аналогами, очікується до 200 мільйонів до кінця поточного десятиліття, якість передачі поступово наближається до рівня цифрової телефонії. Серед користувачів є ті, для кого це лише можливість спілкування, як для радіоаматорів; але усе більше людей використає ІP-phone для ділових контактів або навіть як об'єкт бізнесу. Існують два алгоритми стискання звукової інформації, використовуваних для ІP-телефонних переговорів: GSM (Global system for mobіle communіcatіons), що забезпечує коефіцієнт стискання 5, і алгоритм DSP-групи (true speech) з коефіцієнтом стискання даних 18 (працює при частотах 7,7 кбіт/с). Додавання апаратних засобів стискання інформації дозволяє скоротити необхідну смугу до 6,72 Кбит/с. Втрата 2-5% пакетів залишається непоміченою, 20% залишає розмову зрозумілою. Якість передачі звуку залежить від завантаженості ІP-каналу. Для транспорту використовується протокол UDP. Для забезпечення високої якості звуку потрібна гарантована ширина ІP-канала, адже надміру затримані UDP-дейтаграми губляться безповоротно, що й призводить до перекручувань відтворенного звучання. Впровадження протоколів, що гарантують певну ширину каналу зроблять ІP-phone значно більше привабливим. Найбільші труднощі викличе реалізація якісного відтворення звуку. Програми здатні перетворювати символьний текст у голос вже існують. Проблема розпізнавання індивідуального голосу давно вирішена в охоронних системах. Залишилося навчитися використовувати результати такого аналізу при відтворенні. Докладні підрахунки показали, що додаткова інформація, що втримується в інтонації, гучності й індивідуальних особливостях голосу при звичайній розмові не повинна перевищувати 75% від "значущої" інформації, а при дуже швидкій мові вона становить не більше 30%, за те при повільній розмові ця інформація може досягати 150% (у цих умовах людина може розрізняти більше нюансів). Оперуючи з усним мовленням, у відмінності від письмової подводить до роботи з фонемами, а не буквами. У російській мові їх існує 42. Але існують й інші оцінки числа фонем, наприклад - 48. Для англійської мови характерне використання 45 фонем. Інформаційна надмірність фонем становить 80-85%. Для забезпечення прийнятної мелодійності в таку послідовність потрібно внести певну надмірність. Але при занадто великій надмірності, коли наступні ноти майже однозначно задаються попередніми, ми одержимо занадто монотонну мелодію. Із цієї причини надмірність простих мелодій не менше, ніж надмірність нормальної мови. Аналіз показав, що для простих мелодій ентропія однієї ноти Е=log8=3 біти. Активно розробляються багато нових стандартів і протоколи для забезпечення передачі звуку по ІP-каналам, проведення відеоконференцій і керування в реальному масштабі часу. До таких протоколів відносяться RTP (Real Tіme Protocol, RFC-1889, -1890), RTCP (Real-Tіme Control Protocol), що є доповненням RTP, і RSVP (resource reservatіon protocol), - це службові протоколи для забезпечення своєчасної доставки даних при роботі в реальному часі. Протокол RTP здатний працювати крім UDP/ІP у мережах CLNP, ATM й ІPX. Він забезпечує детектувння втрат, ідентифікацію вмісту, синхронізацію й безпеку (доступ по шифрованому паролю). Проблема синхронізації при передачі звуку особливо важлива, тому, що навіть для локальних мереж час доставки пакетів може варіюватися в досить широких межах через використовуваний алгоритм доступу (наприклад, CSMA/CD), а це приводить до перекручувань при відтворенні. Протоколи RTP й RTCP дозволяють одночасне голосове спілкування необмеженого числа людей у рамках мережі Інтернет. Протокол же RSVP (або його аналог) у випадку впровадження гарантує якість зв'язку (за достатньої ширини каналу) за рахунок підвищення пріоритету пакетів реального часу.
Замість частотної модуляції (FM) тепер все більше використовують табличний (wavetable) або WT-синтез (хвильовий синтез), сигнал отриманий таким чином, більш схожий на звук реальних інструментів, чим при використанні FM-синтезу. Розташована на звуковому адаптері мікросхема для хвильового синтезу зберігає записані зазделегідь відцифрованні зразки звучання музичних інструментів (Samples) і звукових ефектів. Використовуючи відповідні алгоритми, навіть тільки по одному тону музичного інструмента можна відтворювати все інше, тобто відновлювати його повне звучання. Вибірки таких сигналів зберігаються або в постійно запам'ятовуючому пристрої (ROM), або програмно завантажуються в оперативну пам'ять (RAM) звукової карти.
Піонером в реалізації WT-синтеза стала в 1984 році фірма Ensoning. Незабаром WT-синтезатори почали виробляти такі відомі фірми, як Emu, Korg, Roland і Yamaha. Метод оновлення WT-таблиці перезаписом ROM звукової плати є більш сучасним і таким, що використовується в побуті.
Одним з компонентів сучасних звукових карт став сигнальний процесор DSP (Digital Signal Processor). До функціональних обов'язків цього пристрою можна віднести: розпізнавання мови, об’ємне звучання, WT-синтез, стиснення і декомпресія аудіосигналів. Найвідомішими виробниками DSP зараз є фірми Texas Instruments та Yamaha.
У новітні звукові карти входить цифровий сигнальний процесор DSP (Digital Signal Processor) або розширений сигнальний процесор ASP (Advanced Signal Processor) [14]. Вони використовують довершені алгоритми для цифрової компресії і декомпресії звукових сигналів, для розширення бази стереозвуку, створення тилових голосів і забезпечення об'ємного (квадрофонічного) звучання. Програма підтримки ASP QSound постачається безкоштовно фірмою Intel на CD-ROM “Software Developer CD". Важливо зазначити, що процесор ASP використовується при відтворенні звичайних двохканальних стереофонічних записів і його застосування додатково не завантажує акустичні тракти мультимедіа комп'ютерів. Можливий цифровий запис, редагування, робота з хвильовими формами звукових даних (WAVE), а також фонове відтворення цифрової музики, передбачена робота через порти MIDI. Згаданий вище конвертор перетворює також і аудіоданні між форматами WAVE, PCM, AIFF (формат аудіофайлів Apple Macintosh).
Останнім часом особливу популярність отримав формат Mp3. Який став частиною формату відеопотоку і має повну назву MPEG-1 Layer III (про цю частину стандарту у нас і йде мова). У МР3 встановлені особливості людського слухового сприйняття, відображені в "псевдоаккустичній" моделі. Розробники MPEG виходили з постулату, що далеко не вся інформація, яка міститься в звуковому сигналі, є корисною і необхідною - більшість слухачів її не сприймають. Тому певна частина даних може бути визнана надмірною. Ця "зайва" інформація віддаляється без особливої шкоди для суб'єктивного сприйняття. Прийнятна міра "очищення" визначалася шляхом багаторазових експертних прослуховувань. При цьому стандарт дозволяє в заданих межах змінювти параметри кодування - отримувати меншу міру стиснення при кращій якості або, навпаки, погоджуватися на втрати в сприйнятті заради більш високого коефіцієнта стиснення. Звуковий wav-файл, перетворений в формат MPEG-1 Layer III із швидкістю потоку (bitrate) в 128 Кбіт/с, має в 10-12 раз менший розмір від реального звукового потоку. При кодуванні з швидкістю 256 Кбіт/с на компакт-диску можна записати біля 6 годин музики при різниці в якості в порівнянні з CD, доступної лише тренованому експертному вуху.
Потенційна проблема при використанні вбудованих засобів обробки звуку складається в обмеженості системних ресурсів IBM PC сумісних комп'ютерів, а саме в можливості конфліктів по каналах прямого доступу до пам'яті (DMA). Використання режиму DualDMA на аудіокодеках, тобто подвійний прямий доступ до пам'яті дозволяє реалізувати одночасно запис і відтворення звуковового потоку користуючись для цього буферами упередження.
Фрейм граббери.Як правило вони об'єднують графічні та аналогово-цифрові процессори для обробки відеосигналів, які дозволяють дискретизувати відеосигнал, зберігати окремі кадри зображення в буфері з подальшим записом на диск або виводити їх безпосередньо у вікно на моніторі комп'ютера. Вміст буфера оновлюється кожні 40 мс, тобто з частотою зміни кадрів. Вихід відеосигналів відбувається в режимі накладення (overby). Для реалізації вікна на екрані монітора з "живим" відео, карта фреймграббера (Framegrabber) сполучена з графічним адаптером через 26 контактний Feature-коннектор. З ним зазвичай постачається пакет Video fоr Windows. Вихід зображення розміром 240*160 пікселів при відтворенні 256 кольорів і більше. Перші такі пристрої - Video Blaster, Video Spigot. В сучасності фрейм грабер є влаштованою частиною карт нелінійного відеомонтажу.
Перетворювачі VGA-TV.Дані пристрої транслюють сигнал в цифровий образ VGA-зображення в аналоговий сигнал придатний для введення на телевізійний приймач. Виробники звичайно пропонують подібні пристрої виконані або як внутрішні PCI карта або як зовнішній блок у вигляді пристрою TV Tuner, карт нелінійного відеомонтажу.
Телевізійні сигнали і сигнали VGA моніторів несумісні один з одним. Існує велика різниця між показниками сканування, кроку люмінофора кінескопів, специфікації та загальної конструкції. Нормальні відео сигнали, які ми дивимося на екрані телевізора, як правило, підведені у вигляді композитного відео або радіочастотного сигналу (антеною) не відповідають форматові VGA монітору. Швидкість горизонтальної розгортки телевізора 15625 Гц (для телевізійних PAL і SECAM стандартів) або 15750 Гц (для стандартного цифрового телебачення NTSC). Швидкість вертикальної розгортки становить 50 Гц (для PAL і SECAM) або 60 Гц (для NTSC). Телебачення використовує переплетіння, що утворилося у 25 або 30 кадрах на секунду, і показує ті у дві частини: одна область включає в себе все, навіть номер горизонтальні лінії і всі інші непарні - горизонтальні лінії. Переплетення це процес сканування 1 кадру в два проходи - непарні ліній первого проходу і лінії другого. Це дозволяє частотою кадрів у 25/29.97 створювати відображення без мерехтіння як від системи, де люмінофор світитися досить довго, щоб отримати від верхньої до нижньої частини кадру за один прохід.
VGA монітор може здійснюватися накладання тільки RGB сигналів з окремих сигналів синхронізації (горизонтальної та вертикальної). Оригінальний VGA використовує близько 31 кГц горизонтальної синхронізації і 60-70 Гц частоти кадрової розгортки. Через різницю форматів сигналів і частот оновлення екрану зображення, відправити телевізійний сигнал до VGA монитору є повністю несумісним. Але телевізійний сигнал може бути конвертований в RGB формат деякими додатковими пристроями. Для того, щоб показати телевізійне зображення на VGA екран значні перетворення необхідні для перетворення фотографій одного формату в найближчий інший формат, який VGA може сприймати.
Тема №3 Типи данних мультимедіа інформації і засоби їх обробки.
Стандарт МРС (точніше засіб пакету програм Multimedia Windows - операційної середи для створення і відтворення мультимедіа-інформації) забезпечує роботу з різними типами даних мультимедіа.
Нерухомі зображення. Тут слід розрізняти векторну графіку і растрові картинки; останні включають зображення, отримані шляхом відеоцифрування за допомогою різних плат захоплення, грабберів, сканерів, а також створені на комп'ютері або закуплені у вигляді готових банків зображень. Засоби роботи з 24-бітним кольором, як правило, входять до складу супутнього программнного забезпечення тих або інших 24-бітних відеоплат. Людина сприймає 95% інформації візуально, що поступає до нього ззовні у вигляді зображення, тобто "графічно". Таке представлення інформації за своїй природою більш наочне і легше до сприйняття чим чисто текстове, хоч текст це також графіка. Однак в силу щодо невисокої пропускної спроможності існуючих каналів зв'язку, проходження відцифрованих графічних файлів по них вимагає значного часу. Це примушує концентрувати увагу на технологіях стиснення даних, що являють собою методи збереження одного і того ж обсягу інформації шляхом використання меншої кількості інформативних бітів. З’являється термін оптимізація (стиснення) - представлення графічної інформації більш ефективним способом, іншими словами "вичавлення води" з даних. Потрібно використати перевагу трьох узагальнених властивостей графічних даних: надмірності, передбачуваності та необов’язковості. Схема, подібна груповому кодуванню (RLE), яка використовує надмірність, механізи схожий до: "тут три ідентичних жовтих пікселя", замість "ось жовтий піксель, ось ще один жовтий піксель, ось наступний жовтий піксель". Кодування за алгоритмом Хаффмана і арифметичне кодування, засноване на статистичній моделі, використовує передбачуваність, передбачаючи більш короткі коди для пікселів значеня колірного коду яких зустрічається найчастійше. Наявність необов'язкових даних передбачає використання схеми кодування з втратами ( "JPEG стиснення з втратами"). Наприклад, для випадкового перегляду людським оком не потрібно тієї ж точності для колірної інформації в зображенні, яка потрібна для інформації про інтенсивність. Тому дані, що представляють високу колірну точність, можуть бути виключені. Отже призначену до публікації в мережі Інтернет графіку, необхідно заздалегідь оптимізувати для зменшення її об'єму. На жаль в мережі зустрічаються вузли з абсолютно "неосяжною" графікою.
Мережева графіка представлена переважно двома форматами файлів - GIF (Graphics Interchange Format) і JPG (Joint Photographics Experts Group). Обидва цих формату є компресійованими, тобто дані в них вже знаходяться в стислому вигляді. Стиснення, проте, являє собою предмет вибору оптимального рішення. Кожний з цих форматів має ряд параметрів, що настроюються та дозволяють керувати співвідношенням якість-розмір файла. Таким чином, за рахунок свідомого зниження якості зображення, що часто практично не впливає на сприйняття, домагаються зменшення об'єму графічного файлу, іноді значною мірою. GIF підтримує 8-бітный колір, реалізований у вигляді палітри. До особливостей цього формату потрібно віднести послідовність або перекриття безлічі зображень (анімація) і відображення з чергуванням рядків (Interlaced). Декілька параметрів GIF формату, що настроюються, дозволяють управляти розміром файла, що отримується. Найбільший вплив надає глибина колірної палітри. GIF-файл може містити від 2-х до 256 кольорів. Відповідно менший вміст кольорів в зображенні (глибина палітри), при інших рівних умовах, дає менший розмір файла. Інший параметр що впливає на розмір GIF-файла - дифузія. Це дозволяє створювати плавний перехід між різними кольорами або відображати колір відсутній в палітрі шляхом змішення та збільшення кількості пікселів різного кольору. Застосування дифузії збільшує розмір файла, але часто це єдиний спосіб представляти більш якісне зображення за адекватну передачу початкової палітри малюнка після редуціювання (зниження глибини палітри кольорів). Іншими словами застосування дифузії дозволяє в більшій мірі урізати глибину палітри GIF-файла і тим самим сприяти його "полегшенню".При створенні зображення, яке в подальшому буде переведене в GIF формат, потрібно враховувати наступну особливість алгоритму LZW стиснення. Міра стиснення графічної інформації в GIF залежить не тільки від рівня її повторюваності і передбачуваність (однотонне зображення має менший розмір, ніж безладне "зашумленне"), але і від напряму, так як сканування малюнка проводиться порядково, в той час як LZW замінює кожний рядок кодом. Це добре видно на прикладі створення GIF-файла з градієнтним залиттям. При інших рівних умовах файл з вертикальним градієнтом кольорів буде стиснений на 15% сильніше за файл з горизонтальним градієнтом (2.6 Кб проти 3.0 Кб).
Насправді не існує формату JPG, як такого. У більшості випадків це файли форматів JFIF і JPEG, TIFF стислі по JPEG технологіях стиснення. Алгоритм стиснення JPEG з втратами не дуже добре обробляє зображення з невеликою кількістю кольорів і різкими кордонами їх переходу. Формат дозволяє представляти багатотонові зображення. В більшості випадків стисенння за алгоритмом JPEG вносить втрати за яскравістю зображення. Цей алгоритм не дуже якісно стискає чорнобілі зображення, штрихові малюнки, малюнки векторної графіки, зображення променевого сканування [15]. Наприклад намальовану в звичайному графічному редакторі картинку або текст об'ємом від 6 до 24 біт на піксель більш ефективно може представити GIF-формат. У той же час він незамінний при підготовці до web-публікації фотографій. Цей метод може відновлювати повнокольрове зображення практично адекватно до оригіналу, використовуючи при цьому біля одного біта на піксель для його зберігання. Алгоритм стиснення JPEG досить складний, тому працює повільніше за більшість інших. Крім того до цього типу стиснення відносяться декілька близьких за своїми властивостями JPEG технологій.
Алгоритми JPEG пропонує глибину стиснення більшості зображень приблизно 24:1. Кожні 24 біта даних стискаються в 1 біт.
JPEG - це алгоритм, який покликаний задовольнити вимоги широкого діапазону користувачів для стиснення статичних зображеннь, у цього алгоритму є 4 режими роботи:
1. Заснований дискретному косинусоїдальному перетворенні
У цьому способі вхідні блоки зображення розміром 8x8 відформатовані для стиснення, переглядаються за хвилястим напрямком координат. Блок складається з 64 зразків одного компонента, які становлять зображення. Кожен блок зразків перетворений до блоку коефіцієнтів швидким дискретним косинусоїдальним перетворенням (ДКП). Коефіцієнти в данному випадку квантуются відповідно до ентропії.
2. Прогресивний дискретний заснований на косинусоїдальному перетворенні
Цей метод робить швидку версію з низькою точністю зображення, що поступово (прогресивно) очищається до більш високої точністі. Це особливо корисно, якщо в середовищі, що відокремлює шифрувальника й декодер існує низька смуга пропускання (наприклад, 14,4K зв'язок модему з Інтернетом, у свою чергу забезпечуючи повільний зв'язок з віддаленою базою даних зображення). У будь-який час користувач може зупинити завантаження. Це подібно послідовному заснованому на дискретно-косинусоїдальному алгоритмі, але зображення вимагає багаторазового перегляду кодування.
3. Без втрат
Декодер віддає точне відтворення оригінального цифрового зображення.
4. Ієрархічний
Вхідне зображення закодоване як послідовність більш високих структур рішення. Додаток - клієнт припинить розшифровувати зображення, коли відповідне зображення набуде потрібного відтвореня.
JPEG операційні параметри й визначення. Зображення, що буде закодовано, використовуючи будь-який спосіб JPEG, може мати від 1 до 65 535 ліній й 1 - 65 535 пикселів у лінії. У кожного пікселя можуть бути 1 - 255 компонентів, хоча прогресивний спосіб підтримує тільки 1 - 4 компонентів.
ДКП і квантизація. Всі шифрувальники JPEG засновані на ДКП працюють розподілом зображення в неперекриваємі розміром 8x8 точок блоки складових зразків. Зразки – шари зображення з визначеною інтенсивністю від-128 до +127 (замість від 0 до 255). Ці одиниці даних 8x8 оцінені інтенсивності піксела визначені Sіj, де і та j перебуває в діапазоні від 0 до 7. Таким чином блоки перетворюються від просторової області в область частотну, через використання швидкого ДКП. Це перетворення виконане 64 рази з одиницею даних, що приводить до 64 коефіцієнтів Sіj.
Таким чином, виходить матриця 8x8 з коефіцієнтами від S00 до S77, де S00 відомий як ДК-коефіцієнт і визначає фундаментальний колір одиниці даних у 64 пікселя в оригінальному зображенні. Інші коефіцієнти називають AC-коефіцієнтами(коефіцієнтами апроксимації або наближення). Щоб відновити зображення, декодер використовує зворотнє ДКП.
Наступний крок, що виконується, є квантизацією. Процес квантизації скорочує кількість бітів, має закодувати дані шляхом збільшення числа нульових коефіцієнтів. Із цією метою, колірні таблиці JPEG можуть визначити матрицю з 64 записами, з безпосередньою картографією між інтенсивністю в матриці коефіцієнтів ДКП. Кожен коефіцієнт ДКП розділений за його відповідною точністю квантизації і округлений до найближчого цілого числа. JPEG не визначає матрицю квантизації в стандарті. Матриця квантизации повина бути зрозумілою для декодера, або по-іншому розшифроване зображення може бути спотворене. Деквантизація виконанується, множенням кожного коефіцієнту ДКП з відповідною точністю квантизації. Але, однак, в процесі стискання, оцінка отриманної згортки коефіцентів є округленою. Тому це техніка стиснення із втратами, оскільки косинусний процес не може повернути оригінальні оцінки кожного пікселя.
Більшість областей типового зображення містять велики області, складені з того ж самого кольору. Після швидкого ДКП і квантизації, у переданих оцінках S будуть дуже низькі інтенсивності, хоча у країв зображення мають бути високі інетнсивності,- наслідок кодування даних гармонійним сигналом. В середньому в зображені лишається багато проміжних AC-коефіцієнтів, які є майже нулевими. Зображення далі стискається кодуванням ентропії коефіцієнтів ДКП в кожному елементі даних.
Кодування ентропією (хвилясте сканування)
Якщо вектор інтенсивностей квантування буде побудований використанням хвилеподібного перегляду, так-як на малюнку вище, то очикуваним буде великий вміст у скануванні нульових інтенсивностей. Нульові інтенсивності AC-коефіцієнтів, в данному випадку, - закодована довжина сканування. Тоді вектор даних вдало кодується системою шифрування за алгоритмом Хафмана (Huffman) або більш ефективними арифметичними системами кодування. В обох випадках пареметри алгоритму Huffmanа та арифметичні коефіцієнти повинні бути доступними для декодера. Такий порядок підтримує послідовне кодування, де зображення закодоване й розшифровується скануванням в один прохід.
Розширений спосіб кодування із втратами. На додаток до методу, описаного раніше, JPEG визначає прогресивне кодування. Замість того, щоб використати тільки один крок квантизації, прогресивне кодування підтримує багаторазове сканування. Чим більшим виявиться блок квантизації, тим менше значень буде представлено для кодування. Так, використовуючи матрицю квантизації 8x8 безпосередньо отримаємо блок даних 8x8, який представляє зображення. Разом з тим невелика помилка округлення, забезпечить досить точне розгорнуте зображення. Якщо ж, розглянути ситуацію, де використовується матриця квантизації 64x64 і блоки більші за попердні у 8 разів будуть квантуватися за одне сканування, - отримаємо істотні втрати в точності. Таким чином, чим більше матриця квантизації, тим нижче повна точність розгорнутого зображення. Однак, якщо багато матриць квантизації використовуються й повторно до тих самих коефіцієнтів ДКП, то розгорнуте в декілька етапів зображення буде представленне досить точно. Головна перевага полягає в тому що, якщо зображення завантажується через повільну лінію зв'язку в мережі, то користувач може бачити те, що перебуває в зображенні швидше, ніж у випадку використання послідовного кодування. Так користувач може перервати завантаження, якщо зображення не те, що він очікував.
Спосіб без втрат. Цей спосіб використовується, коли необхідно представляти стисле зображення, ідентичне оригіналові. Ступінь стиснення типово тільки 2:1. Замість того, щоб групувати пікселі у 8x8 блоки, елементи даних еквівалентні єдиним пікселям. Обробка зображення й квантизація використовують прогнозуючу техніку, а не одиничне перетворення коду. Для пікселя X у зображенні, відібраний один з 8 можливих провісників. Відібране пророкування буде тим, що дає кращий наслідок апріорних відомих оцінок інтенсивності сусідніх пікселів. Оцінку очікуванної інтенсивності так само як розходження пророкування до фактичної цінності передають до наступного кодування ентропії.
Ієрархічний спосіб. Цей спосіб використовує або алгоритми із втратами на основі ДКП або техніку стиснення без втрат. Головна особливість цього способу - кодування зображення з різною точністю. Готове зображення спочатку опрацьоване з більш низькою точністю (зменшеним фактором 2n). Згодом, представлення із зменшеним фактором 2n-1 вертикально й горизонтально. Далі стисненню підлягає результат різниці між отриманим і реальним зображенням. Процес повторюється поки залишок не представлятиме цінності для відтворення.
Ієрархічне кодування вимагає значно більшої ємності запам'ятовувального пристрою, але стисле зображення негайно доступне в бажаній точності.
Основним параметром присутнім у всіх них є якість зображення (Q-параметр), що вимірюється у відсотках. Розмір вихідного JPG-файла знаходиться в прямій залежності від цього параметра, тобто при зменшенні "Q", меншає розмір файла.
JPEG ТА JPEG2000. JPEG (the Joint Photographic Experts Group, - це витвір робочої групи ISO подібної до групи MPEG) відповідає за ряд ряд стандартів кодування статичних зображень. Найбільш відомим з цієї групи вважається JPEG стандарт та JPEG2000 стандарт. Кожний з них є часткою стандарту MPEG-4 Visual та H.264, де застосовується для стиснення статичних зображень.
«Чистий» JPEG стандарт підтримує стиснення статичних зображень. Для роботи алгоритму використовується ДКП (дискретне косинусоїдальне перетворення) з подальшим квантуванням, перепризначенням, по-шаровим кодуванням та кодуванням за ентропією із змінною довжиною початкового коду, подібне до MPEG-4Visual (де використовується Intra-кодовий режим). JPEG2000 був розроблений як більш ефективний процесор подібний до чистого JPEG. Тут використовується ДВП (дискретне вейвлєт-перетворення)у якості базового алгоритму кодування та розширене схоже на кодування Still Texture у MPEG-4 Visual. JPEG2000 впроваджує більший коефіцієнт стиснення аніж JPEG, не збільшуючи при цьому кількість артефактів. Формат JPEG2000 широко використовується для збереження відеозображень у цифрових відеокамерах, компьютерах та web-сторінках. Формат Motion JPEG (нестандартний метод стиснення відеопотоку, що використовує JPEG) – найбільш поширений формат для роботи із відеозображенням, комп’ютерного редагування зображень і засобів безпеки.
При зміщенні сигналів відеозображення основні проблеми, що виникають із синхронізацією двох зображень, для чого слугує канал генлок (genlock). За його допомогою на екрані монітора можна суміщати, згенеровану комп’ютером (анімовану або нерухому графіку, текст, тітри) та “живе” відео. Для обробки потокового відео користуються пристроями відеозахоплення (capture board, frame grabbers). Відцифровка аналогових сигналів породжує великі масиви даних. Так, кадр стандарту NTSC (525 рядків), перетворений пристроєм типу Truevision, перетворюється на компьютерне зображення із точністю 512x482 пікселів. Якщо кожна точка представлена 8 бітами, то для зберігання всієї картинки необхідно близько 250 кбайт пам’яті, причому падає якість зображення, так як забезпечується лише 256 різних кольорів. Ввважається, що для адекватної передачі реального зображення необхідно мати палітру у 16 млн. відтінків, тому використовується 24-бітовий формат збереження кольорової картинки, а необхідний розмір пам’яті зростає.
Запис потоку кадрів у цифровому вигляді вимагає від комп’ютера великих об’ємів зовнішньої пам’яті: частота кадрів у американському ТВ–стандарті NTSC — 30 кадрів/с (PAL, SECAM — 25 кадрів/с), де для запам’ятовування однієї секунди повнокольорового повноекранного відео вимагається 20–30 Мбайт. Але послідовність кадрів недостатньо тільки запам’ятати, її необхідно виводити на екран у відповідному темпі. Дуже важко забезпечити зовнішній пристрій який був спроможний забеспчити 30 Мбайт/с в каналі обробки даних. Зменшення розміру екрана та зниження частоти кадрової розгортки до 10–15 кадрів/с, зменшення числа біт/піксель призводить до зменшення якості зображення в цілому.
Більш радикальним заходом проблеми обмеженої пам’яті та пропускної спроможності є застосування методів стиснення розгортки данних, які дозволяють зменшувати розмір блоку інформації до запису на зовнішньому пристрої, а потім зчитувати та розгортати в реальному режимі часу при виведені на екран. Так, для рухомих відеозображень існують адаптивні різнецеві алгоритми, які дозволяють зменшувати розмір блоку данних із коефіцієнтом порядка 100:1— 160:1, що дозволяє розташувати на CD–ROM дисках більше години повноцінного відео. Робота цих алгоритмів заснована на тому, що зазвичай наступний кадр відеопослідовності відрізняється від попереднього лише деякими деталями, тому, зупинившись на одному базовому кадрі, для наступних можна зберігати лише відносні зміни. При значних змінах кадру, наприклад, при монтажному склеюванні, наближенні або панорамуванні камери, автоматично обирається новий базовий кадр. Для статичних зображень коефіцієнт стиснення, звичайно, нижчий і становить близько 20–30:1. Для аудіоданих застосовують інші методи декомпресії.
Існує симетрична та асиметрична схеми стиснення даних. При асиметричній схемі інформація сстискається у автономному режимі (тобто одна секунда повноцінного відео стискається протягом декількох секунд за допомогою паралельних процесорів та заноситься до буферу данних у свою чергу. На машинах користувачів встановлюються достатньо дешеві пристрої декодування, що забеспечують відтворення інформації в реальному часі. Використання такої схеми збільшує коефіцієнт зтиснення, збільшує якість зображення, однак користувач втрачає можливість створювати власні мультимедіа-продукти. При симетричній схемі стиснення і розгортка відбуваються в реальному часі на машині користувача, завдяки чому за персональними комп’ютерами в цьому разі зберігається можливість створення власного продукту мультимедіа. Недоліком симетричної схеми кодування є деяка втрата якості зображення, поява “розмитих” кольорів, у картинки відбувається певне розфокусування. З розвитком інформаційних технологій ця проблема втрачає свою актуальність, однак поки що дотримуються змішаної схеми, за якою розробник продукта готовить, відлагоджує і випробовує продукт мультимедіа на власній машині із симетричною схемою, а потім первинний продукт через стандартний формат передається до запису за допомогою асинхронного стискання.
Зараз цілий ряд фірм роробляє власні алгоритми стисненн відеопотоку, наближаючи при цьому до коефіцієнта стиснення 200:1 і вище. Більшість з них мають за основу використання алгоритмів: DCT (Discrete Cosine Transform, дискретне косинусоїдальне перетворення) та DPCM (Differential Pulse Code Modulation, різнецеву імпульсно–кодову модуляцію) [18], а також фрактальні методи. Алгоритми реалізуються апаратно — у вигляді спеціальних мікросхем або “firmware” — записаної в ПЗУ программи, аб о ж чисто програмни шляхом.
Різнецеві алгоритми стиснення використовуються для створення анімації в мультимедіадля фільмів великих розмірів.
Відеоадаптери багатьох новітніх телеприставок мають швидку відеопам’ять розмір якої сягає сотен Мбайт та графічні процесори-прискорювачі. Це забеспечує швидкість у 100–120 кадрів на секунду та якісне відворення рухомих повноекранних відеопотоків.
Стиснення розділяють на два типи: без втрати якості (часто стисло називаються "без втрат") і з втратою якості ( "з втратами"). Різниця між цими типами зрозуміла з їх назви. Більшість методів стиснення без втрати якості не враховують візуальну схожість сусідніх кадрів відеопотока. Методи стиснення з втратою якості, навпаки, в більшості випадків використовують цю схожість. Через це максимальна міра стиснення средньостатистичного відеофрагмента, що досягається алгоритмами без втрат, не перевищує 3 до 1, в той час як алгоритми, працюючий з втратою якості, можуть стискати аж до 100 до 1.
Досить часто методи, що враховують схожість сусідніх кадрів відеопотока, називають "рекурсивними". У них зберігаються повністю лише окремі кадри, звані ключовими (іноді, інтра) кадрами. Всі інші кадри містять лише відмінності від попередніх (іноді вони також містять посилання на інформацію, що міститься в подальшому кадрі).
При стисненні без втрати якості частіше за все використовуються алгоритми, аналогічні що застосовується в файлових архіватор. Найбільш сильно стискають алгоритми, що використовують дискретне перетворення Фурье із збереженням такої кількості коефіцієнтів, якого досить для повного відновлення початкової інформації.
У методах стиснення з втратою якості також частіше за все застосовуються алгоритми, засновані на дискретному перетворенні Фурье, однак кількість коефіцієнтів, що зберігаються практично завжди значно менше алгоритмів, працюючих без втрати якості. При стисненні з втратами звичайно жорстко задають або міра зниження якості для кожного кадру, або середній або миттєвий бітрейт вихідного файла.
Стиснення приводить до видимих порушень якості відеопослідовності, виникаючі в процесі стиснення з втратами. Що найчастіше зустрічається артефакт стиснення - розбиття картинки на квадратні блоки. У "рекурсивних" алгоритмів стиснення також часто спостерігаються "сміття" поруч з контрастними кордонами і рухомими об'єктами, а також і кольори, що "розплилися", що "хвилюються".
