Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
inform / Лекция 4.doc
Скачиваний:
65
Добавлен:
08.06.2015
Размер:
18.2 Mб
Скачать
    1. 4.2. Мера близости

Основой любого распознающего алгоритма является сравнение двух векторов признаков с целью вычисления меры их подобия. Математически мера близости выражается функцией на векторном произведении пространств признаков двух векторов.

Пусть мы имеем два вектора x и y, определенных в векторном пространстве . Мы определяем метрику или функцию расстоянияd на векторном пространстве как функцию, принимающую целочисленные значения на Декартовом произведении:

;

;

.

Помимо всего, функция расстояния есть инвариант, если:

.

Первые три свойства – определимость, симметричность и транзитивность.

Ключевым моментом в выборе меры близости является субъективное понимание различия звуков или фонетической релевантности: похожие звуки должны находиться на маленьком расстоянии друг от друга, отличные – на большом.

Известны логарифмическая спектральная мера, кепстральная мера, мера правдоподобия, спектральные меры на преобразованных шкалах (см. рис. 4.6, 4.7 и табл. 4.2). Есть и другие меры.

Рис. 4.6. Субъективно воспринимаемые тоны и их перевод в линейную шкалу частот и в логарифмическую шкалу.

Рис. 4.7. Критические полосы на частотной шкале.

Таблица 4.2. Пример критических полос.

    1. Выравнивание и нормализация

Имея локальную функцию расстояния между двумя спектральными отсчетами, можно сравнивать речевые фрагменты как последовательности таких отсчетов. Такое сравнение позволяет принимать решение о степени подобия речевых фрагментов. Однако появляется известная трудность, которая заключается в неравной длине подобных отрезков речевой волны: одинаковые звуки могут произноситься в разное время с разной длительностью. Для устранения этого несоответствия вводится специальная процедура выравнивания.

Пусть мы имеем два речевых образа и, и соответствующие им две последовательности векторови, гдеи- векторы признаков.- расстояния между соответствующими векторами обоих последовательностей (условно будем их обозначать как, гдеи ()стояния между соответствующими векторами обоих последовательностей.вания.

заключающаясяечевой волны: разные звуки могут произ). Наиболее простое решение проблемы – линейная нормализация: две последовательности выравниваются по длине пропорционально (см. рис. 4.8). В этом случае:

, (4.1)

где иудовлетворяют условию:

. (4.2)

Рис. 4.8. Линейное выравнивание двух последовательной разной длины.

В более общем случае выравнивание и нормализация включает в себя две искажающие функциии, которые приводят индексы обоих последовательностейик общей нормальной временной оси:

, (4.3)

. (4.4)

И глобальная мера подобия может быть определена на основе пары выравнивающих функцийкак накопленное расстояние по всей длине последовательности (см. рис. 4.9):

. (4.5)

Рис. 4.9. Пример временного выравнивания двух последовательностей векторов признаков по отношению к общей оси времени.

Такое рассогласование выравнивается выявлением минимума:

, (4.6)

где должна удовлетворять множеству требований. Интуитивно выражение (3.6) полностью выполняется в случае, когдаиявляются реализациями одного и того же слова.

    1. Динамическое программирование

Динамическое программирование – хорошо изученный и давно используемы инструмент, предложенный Т.К. Винцюком [4] для решения подобных проблем. Одной из решаемых с помощью динамического программирования проблем является проблема нахождения оптимального пути. Опишем ее следующим образом. Допустим есть множество точек от 1до N. Соотнесем с каждой парой точек неотрицательное значение стоимости , которая назначается при прохождении от точкиi к точке j за один шаг. Проблема заключается в нахождении пути с минимальной стоимостью из начальной точки, скажем 1, в конечную точку, скажем i, за такое количество шагов, которое нужно для достижения этой точки. Мы можем определить путь, который необходимо пройти для достижения нужной точки как:

(4.7)

где (см. рис. 4.10) возможны три пути: ,и, которые могут быть определены как,, а. Путь на рис. 4.10 может быть представлен последовательностью переходов:

.

Рис. 4.10. Пример ограничений локальной непрерывности, выраженной в терминах координатных переходов (по Mayers et. Al [12]).

Возможны разные варианты достижения конечной точки (см. Таблицу 4.3).

Таблица 4.3.

Вследствие локальных ограничений на продолжение пути конкретный переход может быть исключен из рассмотрения. Мы можем рассматривать коридор допустимых переходов (см. рис.4.11). Вариантом динамического программирования является решетчатый алгоритм,используемый впроцедуре скрытых Марковских моделей.

Рис. 4.11. Влияние глобальных ограничений на траекторию.

    1. Скрытые Марковские модели

Практически все известные системы распознавания речи, созданные за последние двадцать лет, основаны на статистических принципах и используют аппарат скрытых Марковских моделей СММ. Скрытая Марковская модель состоит из Марковской цепи с конечным числом состояний, которая моделирует временные изменения сигнала и конечного множества выходных распределений вероятностей, которые позволяют моделировать изменения параметров сигнала. Основные положения теории СММ были сформулированы и опубликованы на рубеже 60-х-70-х годов [13], а первые практические результаты использования СММ в системах распознавания речи описаны Джоан Бейкер [14] и Елинеком с коллегами из IBM [15].

Дискретный Марковский процесс. Пусть некоторая система может быть описана в некоторый момент времени t некоторым состоянием (одним изN). Система может переходить в дискретном времени от состояния к состоянию с некоторой вероятностью, которая ассоциирована с этим состоянием. Полное вероятностное описание системы в этом состоянии должно включать помимо текущего состояния также и все предыдущие состояния. Для специального состояния дискретной во времени первого порядка Марковской цепи, которое мы рассматриваем в данный момент, вероятностная зависимость обрывается на предыдущем состоянии:

. (6.1)

Более того, мы рассматриваем только такие процессы, которые являются стационарными во времени, то есть переходные вероятности не зависят от времени:

. (6.2)

Определение СММ. Пример СММ изображен на рисунке 4.12. Модель состоит из пяти состояний, обозначенных , связанных вероятностными переходами, которые изображены стрелками, а вероятность перехода изi-го состояния в j-е равна . Допустимы переходы только в следующее состояние и циклы. Находясь в некотором, напримерk-м состоянии система генерирует наблюдаемый сигналс выходным вероятностным распределением.

Таким образом, модель определяет два одновременных стохастических процесса. Первый процесс является ненаблюдаемым (т.е. скрытым) – это последовательность состояний и мы можем судить о нем только с помощью второго, который задан реализацией – последовательностью наблюдений.

Рис. 4.12. Скрытая Марковская модель.

СММ определяется:

  1. Множеством состояний модели: , гдеN - число состояний модели.

  2. Множеством различных символов наблюдения, которые могут порождаться моделью. Для модели с конечным числом M символов наблюдения:

. (6.3)

  1. Вероятностями переходов между состояниями:

. (6.4)

  1. Вероятностями появления символов наблюдения (выходные вероятности) в состоянии j:

, где . (6.5)

  1. Начальным распределением вероятностей состояний :

. (6.6)

В це6лом можно сказать, что СММ модель есть триединство.

Практические применение аппарата СММ основано на методах решения трех следующих задач [16].

  • Задача 1. Пусть - последовательность наблюдений, а - множество параметров СММ. Как эффективно оценить вероятность появления последовательности для модели, то есть величину.

  • Задача 2. Пусть заданы последовательность наблюдений и модель. Как выбрать последовательность состояний, которая наилучшим образом соответствует последовательности наблюдений.

  • Задача 3. Пусть задана модель и последовательность наблюдений. Каким образом можно подстроить параметры модели для того, чтобы максимизировать вероятность появления последовательности наблюдений в рамках данной модели, т.е. .

С точки зрения распознавания речи решение задачи 1 соответствует алгоритму распознавания речевого высказывания, моделируемого СММ, решение задачи 2 – алгоритму сегментации, а задачи 3 – алгоритму обучения (оценки параметров) СММ по выборке данных.

Распознавание речевого высказывания. Пусть есть последовательность наблюдений и модель. Вычислим вероятность появления этой последовательности наблюдений при условии, что мы имеем соответствующую модель. Число возможных вариантов комбинаций порождающих последовательностей состояний -. Здесь- число состояний в модели, а- число символов в наблюдаемой последовательности. Пусть одной из таких последовательностей будет последовательность:

, (6.7)

где - начальное состояние. Тогда вероятность появления последовательности наблюдений, при условии заданной последовательности состояний:

. (6.8a)

Имея ввиду независимость наблюдений, получим:

. (6.8.b)

Вероятность такой последовательности состояний :

. (6.9)

Тогда совместная вероятность появления и- просто произведение:

. (6.10)

Вероятность получается суммированием этой совместной вероятности по всем возможным состояниям последовательности:

. (6.11)

Прямая процедура вычисления. Определим получаемую с начала наблюдения прямую вероятность как:

. (6.12)

Здесь вычислена вероятность наблюдения частичной последовательности (за времяt) и состояний I ко времени t, при условии модели . Мы можем вычислитьпо индукции:

  1. Инициализация

. (6.13)

  1. Индукция

. (6.14)

  1. Завершение

. (6.15)

На шаге 1 прямая вероятность является вероятностью совместного появления состояния i и первого наблюдения . На шаге индукцииt состояние j может быть достигнуто из всех N возможных состояний i. - это вероятность совместного появления наблюденийв момент времениt и состояния i, произведение - вероятность совместного появления наблюденийи достижения состоянияj в момент времени (t+1) через состояние i в момент времени t. Суммируя произведение по всем возможным в момент времени t состояниям i, получаем вероятность появления состояния j в момент времени t+1 вместе со всеми появившимися частичными наблюдениями. Умножаем на вероятность появления наблюдения в момент времениt+1 - , получаем вероятность. На шаге 3 получаем окончательную вероятность как сумму прямых вероятностей по всемi на предыдущем шаге:

. (6.16)

Рис. 4.13. (а) иллюстрация последовательности операций, необходимых для прямого вычисления переменной . (б) Использование вычисленийв решетке наблюденийt и состояний i.

Алгоритм Витерби. Для нахождения наилучшей единственной последовательности состояний для данной последовательности наблюдений, нам нужно определить предыдущее значение вероятности:

, (6.17)

где наибольшее значение вероятности вдоль некоторого пути в моментt, которое вычислено для первых t наблюдений и закончившееся в состоянии i. По индукции:

. (6.18)

Для нахождения оптимальной последовательности состояний, вы должны сохранять путь, который максимизирует выражение (6.18). Для этого вводим массив . Полная процедура нахождения последовательности состояний выглядит следующим образом:

  1. Инициализация

, (6.19a)

. (6.19b)

  1. Рекурсия

, (6.20a)

. (6.20b)

  1. Завершение

(6.21a)

. (6.21b)

  1. Запоминание пути

. (6.22)

Обучение СММ. Самая сложная задача – определение параметров модели. Не существует аналитического решения вычисления параметров модели , максимизирующих вероятность последовательности наблюдений. Но есть решение для локальной оптимизации. Например, итеративный алгоритм Баума-Вэлша.

Для этого введем вероятность нахождения в состоянииi в момент времени t, и в состоянии j в момент времени t+1, при условии наличия данной модели и конкретной последовательности состояний:

. (6.23)

Пути, которые удовлетворяют уравнению (6.23) представлены на рис. 4.14.

В терминах прямых и обратныхпеременных (обратная переменная вычисляется так же, как и прямая, только с конца реализации),можно записать в виде:

. (6.24)

Вычислим вероятность нахождения в состоянии I в момент времени t, при условии последовательности наблюдений O и модели как

. (6.25)

Если мы суммируем по всемt без последнего, мы получим ожидаемое число переходов из состояния i в случае последовательности наблюдений O. И то же самое, но для числа переходов из i в j, суммированием .

,. (6.26)

Тогда, используя все эти полученные выражения, можно написать выражения для перевычисления ,и:

, (6.27a)

, (6.27b)

. (6.27c)

Далее, либо , либо процедура продолжается (в том смысле, что).

Выбор алфавита СММ в системах распознавания речи. Выбор таких важных параметров как инвентарь СММ и числа состояний СММ осуществляется разработчиками системы распознавания самостоятельно, в основном на основании данных о фонетическом составе языка, словаре и размере обучающей выборки.

Крайние возможности заключаются, с одной стороны, в выборе числа СММ по количеству произносительных транскрипций слов в распознаваемом словаре, с другой – в выборе числа СММ по количеству фонем в фонетическом строе распознаваемого языка. Очевидно, однако, что лучшим выбором инвентаря будет такой, при котором, с одной стороны, выбранные СММ будут соответствовать акустическим реализациям фонем в реальной речи, а с другой, имеющаяся у разработчика обучающая выборка будет обеспечивать корректную оценку параметров моделей (без переобучения).

На практике, при наличии достаточных по размеру обучающих выборок, инвентарь СММ определяется таким образом, чтобы он соответствовал аллофонам – контекстно-зависимым акустическим реализациям фонем. Простейшим примером аллофонов являются трифоны – акустические реализации фонемы при известных предшествующих и последующих фонемах. Поскольку различных трифонов потенциально может быть достаточно много (в русском языке – до 60 тысяч), для возможности корректной оценки параметров моделей на ограниченных выборках данных их количество уменьшают путем объединения акустически схожих аллофонов в классы. Кластеризация имеет смысл потому, что многие аллофоны, имеющие общие центральные звуки и контексты, которые относятся к одной и той же широкой фонетической категории, акустически очень схожи и в этом смысле их корректно представлять одной и той же СММ.

Поскольку мужские и женские голоса существенно отличаются по параметрам, в большинстве приложений имеет смысл также раздельное формирование семейств СММ для мужского и женского голоса, в этом случае удается заметно уменьшить вероятности ошибок распознавания, но за счет практически удвоения мощности множества СММ.

Рис. 4.13. Составление эталонных сигналов слов из фонем в соответствие с моделью произношения.

Рис. 4.14. Пофонемное распознавание слитной речи, состоящей из слов выбранного словаря, в случае свободного порядка следования слов.

Рис. 4.15. СММ с произвольным порядком следования моделей фонем в слове.

Рис. 4.16. Вверху - преобразованный граф с предыдущего рисунка. Внизу - СММ с произвольным порядком следования моделей слов в предложении. Справа – траектории прохода по различным вершинам СММ при отображении на модель входного предложения.

Моделирование длительности состояний СММ. Марковская модель речевого сигналов том виде, как она была сформулирована выше, предполагает экспоненциальную модель длительности состояния: плотность вероятности пребывания модели в состоянии qi с переходной вероятностью aii имеет вид:

(4.8)

Такая плотность вероятности оказывается неприемлемой для речевых сигналов (ее введение ухудшает точность распознавания по сравнению с системами, где длительность переходов вообще игнорируется, то есть принимается, что все aii = 1). По этой причине способ моделирования длительностей в Марковских моделях считается одним из основных их недостатков.

На практике эту проблему решают либо заданием явных функций плотности вероятности пребывания в заданном состоянии, оценивая эту плотность на обучающей выборке, либо вводят предельные ограничения (минимальное и максимальное значение) на длительность звуков, либо предполагают, что функция плотности параметрическая - имеет заданный вид, например, гамма–распределение. С экспериментальной точки зрения эти варианты практически не различаются по эффективности.

Рис. 4.17. Математическая модель сигналов фонем. Описание речевых сигналов последовательностями элементов-векторов.

4.6. Модель языка

5. Верхние уровни

    1. Синтаксический уровень

    2. Семантические представления

6. Нейросетевой подход

7. Реализация и использование систем распознавания речи

Одним из первых применений этой технологии были эксперименты по сортировке багажа в аэропортах Чикаго и Нью-Йорка. Это и многие другие приложения (заказ авиабилетов, запросы к базам данных), характеризовались небольшим объемом словаря, существенно ограниченной предметной областью, возможностью распознавать речь только одного диктора. В дальнейшем некоторые из ограничений были сняты, например, нормой стала многодикторность систем распознавания речи. Объем словаря нередко достигает нескольких сотен тысяч словоформ. Труднее всего преодолеть трудности, связанные с моделированием предметных областей и спонтанным характером распознаваемой речи.

Реализация понимания речи в первую очередь была осуществлена в речевых диалоговых системах. Интерактивный характер взаимодействия способствует уточнению запроса (и таким образом лучшему пониманию), исправлению ошибок, допущенных при распознавании.

В [17] описаны приложения, реализующие речевое управление самолетом и речевой доступ к информационному автокаталогу – системе «Автомаркет». В последнем случае задача, поставленная перед системой, состояла в заполнении формы поиска популярных японских автомобилей. Поскольку пользователь не всегда сохраняет строгую последовательность при перечислении характеристик автомобиля, было необходимо, чтобы система адекватно реагировала на различные варианты фраз, содержащие избыточную или преждевременную, с точки зрения системы, информацию. Разработанная технология понимания может быть внедрена и в других предметных областях с ограниченной, устоявшейся терминологией.

В работе [18] представлен экспериментальный образец автономной многофункциональной подвижной платформы с программно реализованной системой интеллектуального управления. Для человеко-машинного взаимодействия данная система имеет развитый интерфейс, составной частью которого являются программные модули автоматического распознавания и интерпретации устных команд на естественном языке, позволяющие пользователю в супервизорном режиме управления подвижной платформой формулировать сложные задания. Формулировка заданий предполагает человеко-машинный диалог различной глубины в зависимости от числа параметров конкретного задания и начального состояния управляемой системы. Команды могут состоять либо из отдельных имен объектов и действий, указаний направлений и условий действий, либо из фраз, отражающих цель задания. В настоящее время используется около 100 команд.

На данный момент одной из лучших систем понимания речи является VERBMOBIL [19, 20]. Это работающий прототип дикторонезависимой системы речевого перевода спонтанных телефонных диалогов в мобильных ситуациях. Диалоги могут осуществляться в рамках трех предметных областей, ориентированных на бизнес: планирование деловых встреч, планирование поездок и удаленное управление персональным компьютером.

Это первая завершенная система речевого перевода, в которой на стадии лингвистического анализа используется просодическая информация. К просодической информации относятся сведения о фразовом ударении, о границах и коммуникативных типах фраз, получаемые на этапе распознавания.

В системе VERBMOBIL используется глубинный семантический анализ, позволяющий распознавать намерения говорящего и переводить то, что он хотел сказать, а не то, что он действительно сказал [19].

Хотя точность распознавания слов в системах автоматического распознавания речи пока невысока, правильно разработанные приложения с использованнием интерактивной связи и элементов понимания речи могут эффективно использовать существующие технологиии и быть полезными для пользователей.

В настоящий момент известны следующие системы, решающие различные задачи распознавания речи. Система для диктовки текстов фирмы Nuance [21], Аннонсируется русский язык (из прямого общения с персоналом), но только для юридической тематики. Система для транскрибирования теле-радио вещания [22]. Заявлен русский язык, но попробовать его не удалось. Еще одна система [23]. Есть русский язык. Скорее всего используется движок IBM Voicetailor Decoder [24].

Разработки Гугл:

- перевод с 7 языков [25];

- голосовой ввод поисковой строки, заточен под наиболее частые запросы,

есть русский [26]. В обоих случаях речь обрабатывается на сервере.

8. Моделирование диалога человека и машины

ЕЯ тексты, наиболее приближенные к речи чаще всего находятся в транскрипциях диалогов, возникающих как между людьми, так и при взаимодействии человека и машины, главным образом, в информационно-справочных системах.

Следует различать два вида таких систем. В первом случае система полностью ведет человека, следуя четкому порядку заполнения определенных форм. Примером такой системы может стать заказ билетов. На каждом шаге человеку предлагается назвать, например, номер рейса, исходный или конечный пункт, дату отправления. В каждом из состояний система настраивается на распознавание заранее приготовленных атрибутов, допуская варианты возврата к предыдущему шагу или выходу из системы.

В системах другого рода человеку отводится скорее роль собеседника, который может сам проявлять интерес к разным аспектам информации, задавая любые вопросы. Со своей стороны, машина может инициировать смену темы, детектируя, скажем, вялую реакцию собеседника. Таким образом, в явном виде возникает модель понимания на прагматическом уровне, которая проявляется в оптимизации стратегии ведения диалога. Ярким примером такой системы послужит автоматический гид по богатой достопримечательностями местности.

Заметим, что в обоих случаях, диалоговая система более или менее навязчиво запрашивает подтверждение воспринятой информации.

В общем случае, системы устного диалога классифицируются также по направлению потока информации и по структуре информации, согласно нижеследующим таблицам.

Таблица. Классификация систем устного диалога по направлению потока информации

Тип системы

Поток информации

Примеры

Объяснение

Система  Пользователь

Прокладка маршрута, обучение

Заполнение форм

Пользователь  Система

Покупки по телефону, перенаправление абонента

Получение информации

Пользователь  Система

Резервирование гостиницы, поиск литературы

Таблица. Классификация систем устного диалога по структуре информации

Структура информации

Тип системы

Распознавание речи

Семантическая интерпретация

Стратегия диалога

Реляционная БД

Запрос к БД

Ограниченное грамматикой, заданной экспертом

Отображение результата понимания на SQL-запрос

Заполнение необходимых форм и подтверждение второстепенных

ЕЯ текст

Извлечение документа

Статистическая модель

Извлечение информации (векторно-простран-ственная модель)

Уточнение запросов и ограничивание совпадающих элементов

В мире проводятся исследования в области речевого диалога, реализуются диалоговые системы в рамках международных и национальных проектов [27, 28, 18] представлен экспериментальный образец автономной многофункциональной подвижной платформы с программно реализованной системой интеллектуального управления. Для человеко-машинного взаимодействия данная система имеет развитый интерфейс, составной частью которого являются программные модули автоматического распознавания и интерпретации устных команд на естественном языке, позволяющие пользователю в супервизорном режиме управления подвижной платформой формулировать сложные задания. Формулировка заданий предполагает человеко-машинный диалог различной глубины в зависимости от числа параметров конкретного задания и начального состояния управляемой системы. Команды могут состоять либо из отдельных имен объектов и действий, указаний направлений и условий действий, либо из фраз, отражающих цель задания. В настоящее время используется около 100 команд.

9. Сравнение эффективности распознавания человеком и искусственными системами

9.1. Сравнение уровня эффективности человека и искусственных систем, независящих от диктора, в различных задачах распознавания в отсутствии противодействия

Задача

Процент ошибок человека

Процент ошибок ИСРР

База "TI46", SNR ~60 дБ Звуки, обозначающие буквы алфавита

1.6% 1

5% 2

База "TI digits", SNR ~60 дБ Цифровые последовательности

0.009%

0.72%

0.105% 3

База "Resource Management", SNR ~60 дБ (словарь 1000 слов, языковое моделирование)

0.1%

3.6%

База "Resource Management", SNR ~60 дБ (словарь 1000 слов, нет модели языка)

2%

17%

База "Wall Street Journal", SNR ~60 дБ (словарь 5000 слов, чтение)

0.9%

7.2%

База "Switchboard", SNR ~60дБ (задача распознавания спонтанной речи)

4%

43%

База “Corpus of Spontaneous Japanese”, SNR ~ 60 дБ

(задача распознавания спонтанной речи)

4%

9%

База "Switchboard", SNR ~60 дБ (задача выделения 20 ключевых слов)

12.8% 4

31.1%

7.4% 5

Слитная речь, SNR ~60 дБ (словарь 20000, чтение)

2.6%

12.6%

1 - распознавание последовательностей 2 - распознавание изолированных слов 3 - распознавание вокодерной речи (модель линейного предсказания 12-го порядка) 4 - отсутствие контекста, бессмысленный поток слов 5 - осмысленный контекст ~ 2 сек

9.2. Сравнение уровня эффективности человека и типичной коммерческой ИСРР, независящей от диктора, в задаче распознавания изолированных цифр в зашумлённых условиях

Отношение Сигнал-Шум

Процент ошибок человека

Процент ошибок ИСРР

SNR ~60 дБ

~1%

~1%

SNR 18 дБ

~1%

~10%

SNR 12 дБ

~1%

~25%

SNR 6 дБ

~1%

~60%

SNR 0 дБ

~1%

~100%

Литература

  1. Rabiner L., Juang B.-H. Fundamental of Speech Recognition. – New Jersey, “Prentice Hall PTR”, 1993

  2. Flanagan J.L., Coker C.H.. Rabiner L.R., Shafer R.W., Umeda N. “Sinthetic Voices for Computer”, IEEE Spectrum, 7 (10): 22-45, October 1970

  3. Markel J.D., Gray A.H. Linear Prediction of Speech. Springer-Verlag, 1976

  4. Винцюк Т.К.

  5. Hermansky H. Perceptual Linear Predictive (PLP) analysis of speech // J. Acoust. Soc. Am. - 1990. - Vol. 87, N 4. - P.1738-1752

  6. Juang J.-H., Wong D.Y., Gray A.H., Jr. Distortion Performance of Vector Quantization for LPC Voice Coding IEEE Trans. Acoustics, Speech and Signal Proc., ASSP-30 (2)/ Pp 294 – 304, April 1982

  7. Шкала Мелов

  8. Ghitza O. Auditory Nerve Representation as a Basis for Speech Processing. /In Advances in Speech Signal Processing, Furui S., Sondhi M. Tds., Marcell Dekker, NY. Pp. 453 – 458, 1991

  9. Myers C., Rabiner L.R., Rosenberg A.E. Performance tradeoffs in dynamic time warping algorithms for isolated word recognition. IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-28 (6). Pp. 623 – 635, December 1980

  10. H. Dudley, "Remaking speech," Journal of Acoustical Society of America, vol. 11, no. 2, pp. 169-177, 1939

  11. Arai T., Pavel M., Hermansky H., Avendano C. Syllable intelligibility for temporally filtered LPC cepstral trajectories // J. Acoust. Soc. Am. – 1999 – vol. 105 – pp 2783-2791

  12. Meyers C., Rabiner L.R., Rosenberg A.E. “Performance tradeoffs in dynamic time warping algorithms for isolated word recognition”, IEEE Trans. Acoustics, Speech, Sygnal Proc., ASSP-28 (6), December 1980. Pp. 623-635

  13. Baum L.E., Egon J.A. “An inequality with applications to statistical estimation for probabilistic functions of Markov process and to a model for ecology”, Bull. Amer. Meteorol. Soc., 73, 1967. Pp. 360 – 363

  14. Baker J.K. “The Dragon system – an overview”, IEEE Trans. Acoustics, Speech and Signal Proc., ASSP-23 (1), 1975. Pp. 24 – 29

  15. Jelinek F. “A fast sequential decoding algorithm using a stack”, IBM J. Res. Develop., 13, 1969. Pp. 675 – 685

  16. Jelinek F. “Continuous speech recognition by statistical methoods”, Proc. IEEE, 64, 1976. Pp. 532 - 536

  17. Ли И.В. Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи. Автореф. дис. ... канд. техн. наук: 05.13.11 – 2004. Санкт-Петербург, Институт информатики и автоматизации РАН. – 17 с.

  18. Сухоручкина О.Н. Интеграция компонентов интерфейса пользователя и системы управления персонального мобильного робота: пример реализации // Искусственный интеллект. — 2008. — № 3. — С. 482–489

  19. Verbmobil: Foundations of Speech-to-Speech Translation (Artificial Intelligence. Wolfgang Wahlster (Editor) Springer, 2000)

  20. Noth E., Batliner A., Kiessling A., Kompe R. Niemann H. VERBMOBIL: the use of prosody in the linguistic components of a speech understanding system. IEEE Transactions on Speech and Audio Processing, Sep 2000, 8 Issue:5, 519 – 532

  21. http://www.nuance.com/dragon/index.htm

  22. http://www.apptek.com/index.php/ourcompany/solutions

  23. http://voxaleadnews.labs.exalead.com/?language=all

  24. http://www.cedat85.com/documenti/4.pdf

  25. https://market.android.com/details?id=com.flaviuapps.talktome.cloud

  26. https://market.android.com/details?id=com.google.android.voicesearch

  27. LUNA - spoken language understanding in multilingual communication systems. http://www.ist-luna.eu

Seneff, "'TINA: A Natural Language System for Spoken Language Applications," Computational Linguistics Vol. 18, Number 1, pp. 61-86, March 1992)

Фонетический и фонологический анализ

Несомненно, наиболее важная область в обработке речи, нуждающаяся в исследованиях, - это акустическо-фонетический анализ. Его цель — найти фонемное представление слова. Если акустическо-фонетический анализ слабый, то ошибочные гипотезы выдадут в итоге неправильный анализ. Сегментация и идентификация акустического сигнала в последовательности лингвистических единиц чрезвычайно трудна, поскольку акустическое сигналы, ассоциирующиеся с сегментами, непосредственно с ними не связанны; на эти сигналы сильно влияют соседние сегменты.

Акустическо-фонетический компонент необходим для любой обрабатывающей речь системы, основанной на знаниях, потому что система требует знания относительно фонологических процессов, активных в языке и в прикладных программах, чтобы восстанавливать канонические произношение слов, которые могут быть сопоставлены с соответствующими входами словаря, и получать дальнейшие сигналы к синтаксической и семантической/прагматической интерпретации речевого высказывания. Однако, фонологические компоненты в значительной степени ограничены лексическими, сегментными процессами и обычно имеют дело с фонологически управляемыми изменениями, генерируя альтернативное произношение для индивидуальных лексических единиц и сохраняя их в дополнительном словаре. Этот подход не может иметь дело адекватно с фонологическими процессами, которые соединяют границы слова, типа палатализации (смягчения). В этом случае полезна сегментация, которая, разлагая на слоги и слова речь, может обеспечить сведения для синтаксического анализа. Палатализация соединяет границы слова, но блокирована на границах главных синтаксических составляющих, так что ее отсутствие может использоваться, чтобы решить неоднозначность относительно присутствия такой границы в данном месте речевого сигнала.

Согласно артикуляционной теории звук образуется в 3 стадии:

  1. экскурсия (приготовление);

  2. произнесение;

  3. рекурсия (расслабление).

В русском языке, так же как и во многих других, два типа звуков: гласные и согласные.

Гласные звуки характеризуются по ряду, длительности, лабиализации, напряженности; согласные — характеризуются по месту образования, способу, твердости/мягкости, глухости/звонкости, придыхательности.

Так как звуки речи произносятся неизолированно, а в звуковой цепи связной речи, то звуки могут, во-первых, влиять друг на друга, когда рекурсия предыдущего звука взаимодействует с экскурсией последующего, и, во-вторых, испытывать влияние общих условий произношения. В результате появляются следующие фонетические процессы:

  • редукция (изменение длительности звуков в безударных словах: количественная/качественная). Она тесно связана с ударением: -силовое -количественное(ударный звук произносится более долго) -тоновое(изменение высоты тона).

  • аккомодация - взаимное приспособление гласных и согласных(малый-мяло), качество согласного влияет на качество гласного и наоборот.

  • ассимиляция - качественное уподобление смежных по произношению звуков. Бывает -прогрессивной (когда предыдущий звук влияет на последующий) -регрессивной (когда последующий звук влияет на предыдущий, напримервокзал- [вогзал],лодка- [лотка]).

  • диссимиляция - расподобление, когда из 2 одинаковых или подобных звуков получается 2 различных звука. Процесс, противоположный ассимиляции(кто- [хто]).

Фонема и звук - разные понятия, поскольку фонема - психическое явление, а звук — акустико-физиологическое.

Фонема – полифункциональная единица языка, которая: различает звуковые оболочки слов и морфем; доводит звуки речи до восприятия; является смыслоразличительная. При этом фонема - целиком психическое явление, равно как и аллофон, реализацией их в речи является звук. Одной фонеме могут соответствовать несколько различных ее реализаций или аллофонов. Аллофон - группа звуков, в которых реализуется данная фонема в зависимости от характера выполняемой ими функции, места в слове и соседства с другими звуками, а также ударности и безударности.

Для нахождения канонического фонемного представления слова русского языка в словаре по его фонетической форме произнесения необходимо учитывать следующее.

В русском языке существуют определенные буквенно-звуковые соотношения. К наиболее частотным и обычно вызывающим затруднение при написании транскрипции слова, или его звукового состава, относятся следующие:

- буква обозначает несколько звуков (е,ё,ю,яначале слова, после гласного, после разделительныхЬиЪ):юла- [йула]. В отдельных случаях послеЬ два звука может обозначать и гласная и:ручьи-[ручйи];

- несколько букв обозначают один звук (сч,жч,зч= [щ];дс,тьс,тс= [ц]):возчик- [вощик],детский- [д'эцк'ий].

В зависимости от характера слога, в котором гласные звуки находятся, а их шесть: [а, о, э, у, ы, и] - они делятся на ударные и безударные. Все гласные могут находиться в ударном и безударном положении, но безударный гласный о встречается лишь в отдельных заимствованных словах: радио - [рад'ио].

Согласные звуки (их 36) характеризуются по твердости/мягкости и звонкости/глухости.

30 согласных образуют пары по твердости/мягкости: [б -б',в -в',г-г',д-д',з-з',к-к', ,л-л',м-м',н-н',п-п',р-р',с-с',т-т',ф -ф',х -х'].

Всегда твердыми, или твердыми непарными, являются [ж,ш,ц], а всегда мягкими, или мягкими непарными, - [й,ч,щ].

Всегда звонкими, или звонкими непарными, являются [й,л,м,н,р], а всегда глухими, или глухими непарными, - [х,ц,ч,щ].

Следует учитывать и наличие фонетических процессов, т.е. влияния звуков друг на друга в потоке речи. Например, произношение предлога к в положении перед глухим и звонким (ктебе- [кт'эб'э],к дому- [гдому]), начальную и в изолированном употреблении и при наличии предлога (идеал- [ид'эал],в идеале- [выд'эал'э]).

В некоторых случаях допускается несколько вариантов произношения того или иного слова: мясной- [м'исной] и [м'эсной], (о)терпении- [т'эрп'эн'ии], [т'эрп'эн'ийэ], [т'ирп'эн'ии] и [т'ирп'энийэ],цепочка- [цэпочка] и [цыпочка].

Основные прикладные аспекты фонетических исследований в речевых технологиях - автоматическое распознавание речи, синтез речи, идентификация говорящего по характеристикам речевого сигнала.

Соседние файлы в папке inform