
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА”
АНАЛІЗ І ОБРОБКА ЗВУКОВИХ СИГНАЛІВ
МЕТОДИЧНІ ВКАЗІВКИ
до лабораторної роботи з курсів
“Проблемно-орієнтовані методи та засоби інформаційних технологій”
для студентів базового напрямку 6.0305 “Філологія” та
“Методи та засоби комп’ютерних інформаційних технологій”
для студентів базового напрямку 6.0804 “Комп’ютерні науки”
Затверджено
на засіданні кафедр
“Системи автоматизації проектування”
Протокол № 1 від 31.09.2009 р.
Львів – 2009
Аналіз і обробка звукових сигналів. Стеганографія.: Методичні вказівки до лабораторної роботи з курсів “Проблемно-орієнтовані методи та засоби інформаційних технологій”для студентів базового напрямку 6.0305 “Філологія” та “Методи та засоби комп’ютерних інформаційних технологій” для студентів базового напрямку 6.0804 “Комп’ютерні науки”.
/ Укл.: В.В. Мазур – Львів: Видавництво Національного університету“ Львівська політехніка”, 2009. - 8 с.
Укладач Мазур В.В., канд. техн. наук, доц.
Відповідальний за випуск Ткаченко С.П., канд. техн. наук, доц.
Рецензент Тимощук п.В., докт. Техн. Наук., доц.
1. Мета роботи
Мета роботи – вивчити формати цифрового представлення звукових сигналів і методів їх обробки для аналізу та синтезу звукових повідомлень.
Короткі теоретичні відомості
Звукові мовні та музичні сигнали є аналоговими сигналами складної форми. Складна форма цих сигналів практично не піддається аналітичному опису за допомогою формул. Крім того, для більшості таких сигналів невідомі математичні співвідношення, які описують їх проходження через канали зв’язку чи радіоелектронні пристрої.
З метою уніфікації представлення різноманітних аналогових сигналів та їх комп’ютерної обробки використовується дискретизація. При цьому дискретизований аналоговий сигнал представляється у вигляді сукупності дикретних виборок, які описують його з відповідною точністю. Згідно з формулою Найквіста (теоремою Котельнікова) частота дискретизації має перевищувати частоту найвищої гармоніки сигналу (при розкладі його на спектральні складові за допомогою прямого перетворення Фур’є) не менше ніж у два рази. В залежності від якості відтворення мовних чи музичних сигналів частотний діапазон може змінюватися в широких межах від 300 Гц до 3.5 кГц для розмовної телефонії до 20 Гц-20 кГц при високоякісному відтворенні музики. Частота дискретизації визначається кількістю відліків за одну секунду і забезпечує деталізацію представлення (можливість відслідковування швидких змін у часі) аналогового сигналу. Типові звукові плати, які здійснюють аналогово-цифрове та цифро-аналогове перетворення сигналу (АЦП та ЦАП), використовують стандартизовані значення частоти дискретизації 8, 11, 22 та 44 кГц. Точність представлення дискретизованого аналогового сигналу визначається не тільки частотою дискретизації, але й максимальною кількістю квантів, яка визначає точність вимірювання амплітуди сигналу для кожного відліку. Кількість квантів, в свою чергу, визначається кількістю байтів, які використовуються для збереження значення відліку в оперативній пам’яті. На практиці використовують одно та двобайтове представлення значення відліку. При однобайтовому представленні максимальна кількість квантів буде 256 (від 0 до 255, причому значення 128 відповідає нульовому рівню сигналу). Похибка при однобайтовому представленні не перевищує 1/256*100 %0.4 %. При двобайтовому представленні кількість квантів рівна 65536, а похибка не первищує 1/65536*100 %. Кількість квантів визначає не тільки точність (похибку) представлення, але й динамічний діапазон зміни сигналу, який визначається співвідношенням максимального і мінімального його рівнів. Динамічний діапазон визначається в децибелах по формулі D=20* lg*(Umax/Umin) dB. Наприклад, при Umax=1 Вольт і Umin=10 мікроВольт, динамічний діапазон буде рівний 100 dB.
Частота дискретизації і кількість рівнів квантування визначають затрати пам’яті, необхідної для збереження відліків дискретизованого аналогового сигналу. Наприклад, для для двохканального стререофонічного запису музики при двобайтовому представленні відліків і частоті дискретизації 44 кГц затрати пам’яті становитимуть M=44 кГц*2 байти*2 канали=176 Кбайт/сек= 633.6 Мбайт/год. При цьому, для неперервного запису чи відтворення потік байтів чи бітів оцифрованого сигналу (бітрейт) має бути не меншим ніж 176 Кбайт/сек (без використання стиснення).
Системи обробки аудіоінформації поділяються на голосові та музичні. В голосових системах використовують запис та відтворення оцифрованого звуку (як музики так і голосу). Музичні системи використовують методи синтезу на основі частотної модуляції та з використанням звукових таблиць (Wave Table Synthesis). Синтезатори бувають клавішні та комп’ютерні. В синтезаторах на основі частотної модуляції використовуються послідовно та паралельно підключені генератори простих сигналів з їх взаємною модуляцією.В синтезаторах з використанням звукових таблиць використовуються фрагменти (sample) звукових хвиль реальних інструментів (заданих вибірками), які комбінуються для отримання нових звуків. Використовуються і деякі інші методи синтезу: адитивний – отримання складних сигналів на основі простих синусоїд (різних по частоті та амплітуді); субстрактивний – формування результуючого сигналу фільтрацією деяких гармонік з складного багатого гармоніками сигналу.
Системи комп’ютерної генерації (синтезу) голосових повідомлень базуються на двох підходах:
побудова фізичної моделі мовної системи людини (біонічний підхід), який ще називається артикулярним синтезом;
моделювання та формування акустичного сигналу методами компілятивного та формантного синтезу.
Компілятивний синтез базується на зв’язуванні оцифрованих фрагментів (фонем, аллофонів, слів, словосполучень) в голосові повідомлення. Вказані фрагменти становлять акустико-фонетичну базу для синтезу. Для зглажування розривів на границях фрагментів використовуються алгоритми обробки сигналів.
Формантний синтез базується на обробці збуджуючого сигналу цифровими фільтрами, які моделюють резонатори голосового тракту.
Системи комп’ютерного розпізнавання голосових повідомлень базуються на двох моделях: акустичній та лінгвістичній. Акустична модель забезпечує представлення мовного сигналу. Лінгвістична модель інтерпретує інформацію, отриману за допомогою акустичної моделі і забезпечує представлення результатів розпізнавання користувачу. Лінгвістична модель поділяється на ряд рівнів: фонетичний, фонологічний, морфологічний, лексичний, синтаксичний, семантичний. На фонетичному рівні здійснюється перетворення мови в послідовнисть фонем (аллофонів). Аллофони – це варіанти фонем, які залежать від звукового оточення. На фонологічному рівні враховуються обмеження на поєднання фонем і аллофонів та імовірність їх появи. На морфологічному рівні оперують з морфемами (складоподібні одиниці мови), які накладають обмеження на структуру слова у відповідності із закономірностями мови. Лексичний рівень охоплює словник мови (слова та словоформи). Семантичний рівень встановлює відповідність між навколишніми об’єктами та словами, що їх позначають. Він визначає суть мовного повідомлення.
Класифікація систем розпізнавання голосових повідомлень по призначенню:
командні системи;
системи диктування тексту.
Класифікація систем розпізнавання мови по споживчих якостях:
диктороорієнтовані;
дикторонезалежні;
розпізнаючі окремі слова;
розпізнаючі розмовну (неперервну) мову.
Основними форматами для запису і відтворення аудіосигналів є WAV та MP3. Формат WAV є метаформатом для даних будь-якого типу. Має стандатний заголовок і описи областей даних (однієї чи кількох). Метод кодування вказується в заголовку і розпізнається операційною системою для підключення та запуску кодека.
Структура WAV-файлу містить п’ять розділів: заголовок файлу, заголовок опису файлу, заголовок фактичних даних, заголовок даних файлу, дані відліків. Опис полів кожного розділу представлений у таблиці.
Заголовок файлу |
||
Назва поля |
Ім’я поля |
Розмір |
Тип файлу (для WAV-файлу – ‘RIFF’) |
FileType |
DWORD |
Розмір файлу в байтах |
FileSize |
DWORD |
Заголовок опису файлу |
||
Назва поля |
Ім’я поля |
Розмір |
Назва заголовку опису файлу (‘WAVEFMT ‘) |
Descriptor |
8 BYTE |
Розмір заголовку в байтах |
DescSize |
DWORD |
Стиснення (1 – відсутнє) |
Compression |
WORD |
Кількість каналів (1 – MONO, 2 – STEREO) |
NonberChannel |
WORD |
Частота дискретизації |
DescrFreq |
DWORD |
Бітрейт |
Bitrate |
DWORD |
Представлення (1 – 8 біт) |
|
WORD |
Розрядність (8, 16) |
|
WORD |
Резерв |
Reserved |
WORD |
Заголовок фактичних даних |
||
Назва поля |
Ім’я поля |
Розмір |
Назва заголовку фактичних даних (‘FACT’) |
Descriptor |
DWORD |
Розмір заголовку в байтах |
DescSize |
DWORD |
Кількість байтів даних |
DataLenth |
DWORD |
Заголовок даних |
||
Назва поля |
Ім’я поля |
Розмір |
Назва заголовку даних (‘DATA’) |
Descriptor |
DWORD |
Кількість байтів даних |
DataLenth |
DWORD |
Дані відліків |
||
Назва поля |
Ім’я поля |
Розмір |
Відліки |
|
BYTE WORD DWORD |
Формат MP3 (скорочення від MPEG Layer 3) – один із основних цифрових форматів для збереження стиснутих аудіоданих. Є частиною стандартів стиснення аудіо та відеоданих MPEG1 та MPEG2. Використовується для передачі аудіоданих в реальному часі по мережевих каналах і для кодування звукових CD-дисків. Забезпечує бітрейт 320 Кбіт/сек, який є максимальний для кодування звуку з характеристиками CD Audio (44 кГц, 16 біт Stereo). Вважається, що бітрейт 256 Кбіт/сек є достатнім по якості для більшості користувачів.
При кодуванні із стисненням початковий сигнал розбивається на фрейми (ділянки), кожен з яких кодується незалежно від інших. Кожен фрейм може кодуватися з різними параметрами, які містяться в заголовку фрейма. Початковий сигнал фрейма за допомогою фільтрів розкладається на кілька сигналів різних частотних діапазонів. У відповідності з психоакустич-ною моделлю, для сигналу кожного частотного діапазону визначається величина маскуючого ефекту зі сторони сигналів сусідніх частотних діапазонів та сигналу попереднього фрейма. Якщо потужність сигналу деякого діапазону менша потужності сигналів сусідніх діапазонів, або менша порогу чутності, то цей сигнал не враховується і не кодується. Потім для врахованих сигналів проводиться таке допустиме зменшення кількості бітів (додаткове квантувавння) при якому втрати були б менші величини маскуючого ефекту (втрата одного біта веде до внесення шуму квантування 6 дБ). Потім сформований потік додатково кодується методом Хаффмана.