Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСЫ 124-184.doc
Скачиваний:
0
Добавлен:
25.12.2019
Размер:
2.8 Mб
Скачать
  1. Пристрої вводу-виводу мовних повідомлень. Основні ознаки, що характеризують мову. Елементи, що утворять фонологічний алфавіт.

^ 1.14 Пристрої введення-виведення мовної інформації

Модель мови. Пристрої введення - виведення (УВВ) мовної інформації відносяться до поєднаним периферійних пристроїв.

Існують декілька методів аналізу мови. Першим був застосований метод попередньої візуалізації мовлення. При цьому аналізуються оптичні зображення губ оператора. Цей метод побудований на досвіді мови спілкування глухонімих і тяжіє до біоніці. Другий метод - метод аналізу коливань голосових зв'язок, що знімаються з допомогою лорінгофона. Він, як і перший метод, тяжіє до біоніці і придатний до роботи в умовах сильних звукових перешкод, наприклад, в кабіні літального апарату, поблизу прокатного стану. Третій метод аналізу - аналіз спектральних характеристик мовлення - енергетичних, частотних, часових і амплітудних спектрів. Цей метод розглянемо докладніше в застосуванні до розпізнавання окремих слів, наприклад, команд управління.

^ Структурна схема аналізатора мови. Аналізатори підрозділяються на два основних класи: аналізатори сигналів і аналізатори повідомлень. У аналізаторах сигналів досягається стиск (компресія) інформаційного потоку сигналів з мікрофона (105 біт / c) за рахунок обліку акустичних і статистичних характеристик мовного сигналу без звернення до його смислової функції.

Системи мовного спілкування будуються на базі спеціалізованих мовних процесорів. Аналізатор реалізується апаратно і являє собою спеціалізований пристрій, що включає в себе електронні схеми, звані предпроцессором. Предпроцессор - програмно-керований аналогово-цифровий пристрій, яке здійснює спектральний аналіз мовного сигналу з наступним перетворенням даних у цифрову форму.

Для отримання значень шести спектральних параметрів звуку (при аналізі за методом спектральних характеристик мовлення) електричний сигнал, отриманий з мікрофона, пропускається через три смугових фільтра (малюнок 1.66) з смугами пропускання, рівними піддіапазонів мовного спектру. У кожному каналі трьох піддіапазонів піковий детектор виділяє максимальне значення амплітуд сигналів за часом кванта; аналого-цифровий перетворювач видає в двійковому коді значення величини виділеної амплітуди. Для забезпечення стабільної роботи в схему аналізатора введені підсилювачі, охоплені зворотним зв'язком, які здійснюють автоматичне регулювання посилення амплітуди сигналу.

На виході порогового устрою виходять напівхвилі гармонійних складових спектру сигналу в даному піддіапазоні.

Потім програмно проводиться об'єднання або розбиття квантів мови в залежності від того, який встановився сегмент мови або перехідною, параметри сусідніх квантів якого різко змінюються. Для цього необхідно вимірювати подібність між параметрами двох сусідніх квантів, а потім і сегментів. При великому схожості кванти об'єднуються, якщо ж зміна параметрів занадто велике, сегменти розбиваються. Таким чином визначаються межі фонем.

Малюнок 1.66 - Структурна схема аналізатора мови по методу спектральних характеристик

^ Структура пристроїв введення мови. Процес введення мови, як процес розпізнавання слухових образів, складається з трьох етапів: аналізу, ідентифікації та введення в ЕОМ (малюнок 1.67). Основні труднощі представляє індивідуальність голосу і злитість мови, що ускладнює аналіз та ідентифікацію одиниць мови - звуків, фонем, слів.

Малюнок 1.67 - 3 етапи процесу введення мовного повідомлення

В основі лежить принцип розпізнавання образів. Система виділяє із вступника мовного сигналу набір деяких ознак, що становить його опис, потім порівнює отримане опис з еталонними описами, що зберігаються в бібліотеці.

Всі системи введення мови поділяються за такими критеріями:

здатності розпізнавати злиту мова або окремо вимовлені слова;

обсягом словника розпізнаваних слів;

орієнтовності на одного мовця або на довільне число мовців.

Якщо набір слів обмежений, то розпізнавати слова і межі між ними досить просто (малюнок 1.68, а). У цьому випадку алгоритм розпізнавання мовних команд заснований на принципі перцептрона.

Кращі з сучасних програм після попередньої настройки на голос користувача розпізнають дискретну мова з помилкою, що не перевищує 5%. При розпізнаванні злитої промови (малюнок 1.68, б) число помилок приблизно в 5 разів більше. При спонтанному діалозі помилок розпізнавання приблизно вдвічі більше, ніж при читанні тексту. Зі збільшенням обсягу словника розбиття на слова стає складніше, якість розпізнавання падає.

Пристрої виведення мовної інформації - синтезатори. Завдання виведення мовної інформації зводиться до перетворення машинних кодів, в коливання звукових частот, складових мовний сигнал. Пристрої виведення мовних повідомлень при будь реалізації апаратно і програмно простіше, ніж пристрої введення.

Синтезатори мовних повідомлень діляться на дві групи: синтезатори обмеженого словника - компілятори та універсальні.

Малюнок 1.69 - Структурна схема компілятора

^ Системи введення-виведення мовної інформації

Способи формування мовного сигналу діляться на 2 групи:

- Формування за зразками (компілятивний синтез);

- Синтез за правилами.

Формування мовного повідомлення за зразками.

Являє собою відновлення аналогового сигналу, де вихідні мовні повідомлення (аналогові сигнали) знаходяться в бібліотеках-словниках. При необхідності вивести повідомлення - проводиться пошук потрібного повідомлення в бібліотеці і виводиться через канал відтворення.

Системи формування мовних сигналів за зразками розрізняються можливостями бібліотек, якістю звучання відновленої мови і складністю апаратної реалізації.

Недолік - повільний пошук потрібного повідомлення.

Гідність - забезпечує порівняно добру якість мови.

Синтез мовних повідомлення за правилами

Засноване на розчленовуванні мовного сигналу на окремі фонетичні складові. Що б вивести мовні повідомлення, необхідно мати фонетичне опис вимовного слова, Фонетичне опис являє собою послідовність елементів фонетичного алфавіту, включаючи паузи.

Введення в ЕОМ і машинний синтез мови

Особливе місце в системах мультимедіа займає використання аудіоапаратури для мовного спілкування. Структура-задач мовного спілкування приведена на рис.7.15.

Ріс.9. Структура завдань мовного спілкування

Для розпізнавання і розуміння мови дикторів необхідно ввести мовні сигнали в ЕОМ за допомогою акустичних пристроїв введення і проаналізувати мову, що вводиться.

Системи мовного введення діляться на два типи по характеру розпізнаваної мови:

Різниця між ними вельми істотна, оскільки при злитій вимові слів змінюється їх звучання.

При аналізі окремих команд здійснюються їх оцифрування, ідентифікація і ініціюється виконання програми, що відпрацьовує прийняту команду. Цей же режим використовується і для мовного введення цифрової інформації; в цьому випадку після ідентифікації введене слово перетвориться у відповідний код ASCH (за рахунок чого досягається істотне стискування мови). Фірма Курцвейл випускає на цьому принципі пристрій Voice Writer, який розпізнає близько 10 000 окремо вимовлених англійських слів і друкує їх на принтері.

В даний час практично відсутні пристрою для введення звукових сцен, що динамічно розвиваються. Пристрої введення і програми-аналізатори не дозволяють виділити емоційну складову мови, яка значно коректує сенс (і може навіть змінити його до протилежного). Найчастіше емоційна складова розглядається як перешкода (за винятком систем контролю емоційного стану). Як додаткове джерело інформації емоційне забарвлення голосу (і введеного повідомлення) в даний час не використовується.

Системи мовного виводу називаються синтезаторами мови.

Перший метод- найпростіший: ЕОМ в цьому випадку служить як цифровий магнітофон. Фрази і слова записуються роздільно і вибираються для відтворення в потрібний момент по командах, що поступають від відповідної програми. У такій системі неможливо відтворити слово, яке не було заздалегідь записано.

Для зберігання оцифрованої мови необхідна пам'ять великого об'єму, зберігати необхідно кожне слово з лексикону ЕОМ з урахуванням різних відмінкових закінчень, роду (пошел-пошла-пошло), числа... Та зате якість відтворення мови дуже висока.

Різновидом синтезаторів цього типу є автовідповідачі, побудовані з ЕОМ і Voice-модема; мовна телепочта (передача мовного повідомлення по обчислювальних мережах).

Вважається, що цей метод ефективний, коли словарний запас невеликий -не перевищує 10-15 слів (наприклад, що говорить приладовий щиток автомобіля, що говорять годинник, калькулятор, календар).

Другий метод використовує принципи акустичного моделювання голосового тракту людини. Мова складається з формантных частотних смуг, які створюються смуговими фільтрами. Сумарний вихідний сигнал формантных фільтрів досить близько відповідає частотному спектру людської мови. Але така мова звучить, як голос робота, розбірливість її залишає бажати кращого.

Цей метод універсальний: з його допомогою можна синтезувати будь-які слова, мати необмежений словник, оскільки мова створюється із звуків, що окремо генеруються. Синтезатор може бути реалізований програмним шляхом.

Найбільш поширений спосіб збудження синтезатора формантных частот полягає у використанні окремих, таких, що піддаються ідентифікації звуків мови, званих фонемами.

Фонемний синтезатор утворює послідовність фонем, яка при відтворенні на акустичному пристрої виводу звучить як мова.

Фонемний синтез мови практично не вимагає додаткової апаратури; він може бути реалізований на ЕОМ стандартної конфігурації програмним шляхом.

Мова розділяється на окремі елементарні частини - фонеми. Наприклад, в англійській мові виділяються такі фонеми для явних звуків, як її, i, eh і ін.

F1, F2, F3 - три основні формантные частоти, спостережувані в спектрограмі, При вимові Середнім Чоловічим голосом.

Але окрім голосних в мові людини існують фрикативні, вибухові і носові приголосні. Крім того, кожна фонема має варіації - аллофоны.

У російській мові приголосні фонеми бувають м'які і тверді, глухі і дзвінкі (галасливі, сонорні, губні, зубні, альвеолярні, велярні).

Третій метод використовує словник, який створюється голосом людини, але в пам'ять записується не оцифрований акустичний сигнал, а його частотні параметри, при цьому зменшується об'єм пам'яті, займаний словником. Синтез же мови проводиться інтегральними мікросхемами, що генерують заданий набір частот із заданими амплітудами і змішують їх.

Програмне забезпечення для роботи із звуковою інформацією

Для роботи із звуковою інформацією необхідне відповідне програмне забезпечення: музичні редактори, що “говорять машини”, мовні і аудіоредактори.

Музичні редактори служать для:

1. Введення звукового ефекту в ОП ЕОМ

2. Відтворення мелодії при натисненні клавіш ЕОМ (режим клавесина).

3. Автоматичному нотному запису мелодії, що вводиться.

4. Оформлення мелодії у вигляді програми для включення її до складу презентації або використання для індикації ходу обчислювального процесу.

5. Відтворення мелодії на акустичному пристрої виводу або на професійній апаратурі, підключеній до ПЕВМ.

6. Для професійної обробки введеної мелодії (оркестровка, оранжировка..), виведення нотного запису.

7. Для машинного синтезу музики.

8. Для оформлення мелодії відеоефектами на екрані ЕОМ (світломузика, багатоканальна індикація гучності...).

Прості музичні редактори забезпечують одноголосе відтворення і мають просте управління, орієнтоване на непідготовленого користувача (MUSMAKER - МГУ, редактор мелодій PIANOMAN...).

Складніші редактори (Scream Tracker, Whacker Tracker...) орієнтовані на користувачів, що мають уявлення про принципи створення музичних творів (зокрема багатоголосої музики).

Завдання всякого редактора “Для початківців” зазвичай полягає в тому, щоб допомогти подолати страх новачка перед “чистим листом” і швидко перейти до самостійної творчості. Призначення музичного редактора для домашнього комп'ютера - допомогти людині “почути свою внутрішню музику” (тобто своє уявлення про те, що він хоче отримати).

Музичні редактори надають для початку роботи блоки, більші, ніж окремі ноти.

Музичний редактор Scream Tracker (ST) підтримує власний формат цифрової музики і формат *.Mod, призначений для програмної імітації частотного синтезу з використанням хвилевих таблиць і алгоритмів.

ST є freeware - продуктом фірми PSI. Випущена третя версія (ST3) цього редактора, але подальшу роботу по удосконаленню і розвитку цієї програми фірма не веде. ST реалізований під DOC.

В кінці 1995 р. московська фірма “Елекай” (розробник) спільно з фірмою “Русс” (розробник і видавець) провели “розважаючий і повчальний” програмний продукт, призначений для твору музики:

Маестро+. Він може використовуватися як любителями, так і професіоналами на достатньо могутнє IBM-совместимом мультимедіа комп'ютері.

Музичний редактор дозволяє працювати з ним людині, яка не має поняття про ноти, а свою “внутрішню” музику якщо і чує, то досить смутно.

У Маестро+ реалізовані алгоритми “штучного інтелекту”, що дозволяють створювати гармонійну, деколи несподівану музику. Інтелектуальність комп'ютера допомагає “навести” людину на нову музичну тему, оформити її.

Маестро+ складається з трьох основних модулів, відповідних рівню музичної підготовки користувача:

Як “будівельний матеріал” музичний редактор має заготовки близько 800 різних інструментів, близько 50 готових мелодій і спецефектів, не менше 10 складних авторських композицій.

Об'єм системи досить великий, тому реалізований Маестро+ на компакт-диску.

Маестро+ працює в захищеному режимі DOS, що забезпечується розширювачем пам'яті фірми “Елекай”. Вимагає РС не гірше 486DXL2 66.

Всі три модулі музичного редактора об'єднуються програмою-меню, виконаною у вигляді комп'ютерної гри. Документація містить керівництво користувача, набір уроків для освоєння всіх трьох модулів.

Передбачається, що наступна версія працюватиме під Windows, використовуватиме формат “.WAV” (хвилевий Windows-формат) і укомплектована конвертером MEDI.

Музичний редактор “Band-in-a-Box” оперує поняттям “стиль”, під яким розуміється деякий набір готових музичних фрагментів. Створюючи свою композицію, користувач розставляє на кожному каналі і для кожного відрізання часу свої параметри: який фрагмент використовувати, яким інструментом, в якій гаммі і з якою швидкістю його грати. У пам'ять машини можна ввести мелодію, награну на клавіатурі. Можна грати і під час виконання комп'ютером композиції, використовуючи можливості ЕОМ як “електронний акомпанемент”; при цьому програма “підіграє” людині (який є таким, що веде), поки він активний і імпровізує в паузах.

Машини, що говорять, і мовні редактори використовуються для відтворення мови по введеному тексту і налаштування ПЕВМ (гучність, тембр, швидкість звучання, мужской-женский голос...).

Машини, що зазвичай говорять, завантажуються в оперативну пам'ять і залишаються резидентами. Звернення до них здійснюється натисненням “гарячих клавіш”. При використанні машини, що говорить, в цілях навчання (наприклад, вимові) вона може “промовляти” всю текстову інформацію, що виникає на екрані. Але таке використання машини, що говорить, сильно знижує продуктивність ЕОМ.

Мовні редактори дозволяють перенастроювати режими роботи машини, що говорить, відтворювати на екрані осцилограму мови, ставити мітки на осцилограмі, відтворювати мову між поставленими мітками, вирізувати і вставляти мовні фрагменти і так далі.

Аудіоредактори не спеціалізуються на якому-небудь виді звукової інформації. Функції такі ж, як у мовних редакторів, без налаштування машини, що говорить. До складу Windows входять такі аудіоредактори, як Sound Recorder і Mediapleer.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]