Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТИПЛ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
173.57 Кб
Скачать

Билет 2 вопрос 2 Использование лингвистической информации в системах распознавания речи.

Распознавание речи – это процесс преобразования акустического сигнала в некую абстрактную форму разговорного языкаОн состоит из этапа преобразования голоса в текст и из этапа автоматической интерпретации семантики (смысла) речи. Распознаванием голоса часто называется также идентификация говорящего по голосу. Такие системы используются, например, в системах безопасности.

Основанием дальнейшей классификации систем речевой обработки сигналов могут являться, например, вид и сложность решаемых задач. Так если при синтезе речи необходимо воспроизводить ограниченное число фраз, их достаточно просто записать и реализовать механизм включения их воспроизведения в нужный момент. Если же число фраз велико или вообще неограниченно, такие методы не приносят результат;

Системы распознавания по сложности обычно делят на следующие группы:

  • Системы автоматического распознавания изолированных слов. То есть система должна распознавать пословно произносимые человеком команды;

  • Системы автоматического распознавания слитной речи. То есть система должна уметь выделять слова в естественном частично-слитном потоке человеческой речи;

  • Системы понимания речи. То есть системы, которые наделены элементами интеллекта, что позволяет, во-первых, на основе смыслового анализа более правильно выделять слова в потоке речи, а во-вторых, сохранять информацию в некой базе знаний, откуда она может быть легко извлечена для решения определенных интеллектуальных задач.

Так же системы распознавания речи могут быть классифицированы по:

  • Размеру словаря. Под словарем понимается набор хранимых в системе единиц речи;

  • Качеству распознавания ( процент ошибки распознавания – не более 5%) ;

  • Способу обработки входного сообщения;

  • Степени зависимости от диктора.

Размер словаря системы распознавания голоса влияет на степень сложности, требования к процедурам обработки и точность системы. Одним системам для работы необходимо всего несколько слов (например, диктофонные системы). Если единицей словаря является слово, то по объему словаря системы делятся на:

  • Системы с очень большим словарем – десятки тысяч слов;

  • Системы с большим словарем – тысячи слов;

  • Системы со средним словарем – сотни слов;

  • Системы с маленьким словарем – до сотни слов.

Качество распознавания на современном уровне, кроме низкого процента ошибки распознавания и надлежащего размера словаря предполагает независимость распознавания от диктора и способность обрабатывать непрерывную речь, то есть возможность пользователям говорить естественно и непрерывно, не делая пауз между словами.

Распознавание речи, зависимое от диктора, подразумевает, что пользователь должен сначала научить систему распознавания своему голосу и только после этого система сможет функционировать. Независимое от диктора распознавание речи означает, что система способна распознавать любую речь, независимо от того, кто говорит. Голосозависимые системы предназначены для одного конкретного пользователя. Такие системы обычно проще разрабатывать, они дешевле и работают более точно, хотя и менее гибки, чем независимые от диктора программы. Соответственно голосонезависимые программы способны работать с широким кругом пользователей и обладают более высокой гибкостью, хотя и значительно более высокой ценой и несколько худшим качеством распознавания.

Распознавание речи происходит так: при помощи микрофона и оцифровывающего устройства ( как звуковая карта компьютера) и машинной обработки речевой сигнал фиксируется. Затем цифровой сигнал разбивается на неделимые интервалы, каковыми могут быть фонемы, слоги, слова. На основе контекста, шаблонов речи, некоторых акустических признаков слова объединяются в логические единицы – фразы и предложения. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны конкретной программе.

Распознавание речи – процесс преобразования речевого сигнала в текстовый поток.

В наше время диалог является обычным делом. Существуют целые системы, в которых все построено на беседе человека с машиной. Ты ей задаешь вопросы, а она тебе отвечает, и всё это в порядке вещей. Успешное построение систем речевого ввода-вывода зависит от многих условий, к числу которых могут быть отнесены следующие:

  • Вид речи;

  • Тип произнесения и стиль произношения;

  • Число пользователей;

  • Спектр входного сигнала;

  • Настройка системы (на весь словарь или на часть словаря);

  • Объем словаря;

  • Синтаксические ограничения (типовые фразы, искусственный язык);

  • Характер построения речи (диалог, монолог);

  • Надежность распознавания;

  • Время распознавания (реальный или нереальный масштаб времени);

  • Размер памяти, в которой нужно обращаться в единицу времени;

  • Организация системы (наличие обратной связи, параллельной обработки);

  • Характер шума помещения;

  • Степень тренировки пользователей.

Известно, что информация, необходимая для правильной интерпретации высказывания, не содержится полностью и однозначно во входном акустическом сигнале, а синтаксические (грамматические), семантические (смысловые) и прагматические (ситуативно-обусловленные) ограничения в языке используются для того, чтобы компенсировать ошибки и устранить двусмысленность, возникающую при акустической реализации высказывания. Этот факт подтверждается данными восприятия речи человеком, поэтому в некоторых системах предпринимается попытка смоделировать основные особенности деятельности человека в процессе слушания-говорения.

Можно сказать, что имеющиеся или находящиеся пока еще в стадии разработки системы «человек-машина» основаны на методах распознавания со значительными ограничениями: это ограниченный и специализированный словарь, раздельное произнесение слов, один диктор и т.д. Подобная ситуация объясняется сложностью проблемы автоматического распознавания, а тем более понимания смысла речевого сообщения в виде слитно произнесенного текста. Набор разнообразных характеристик естественной речи в значительной степени усложняет ее обработку. Изменения в речи получающиеся из-за использования микрофона (в зависимости от типа, дистанции, направленности) , а так же окружения ( шум, колебания) делают задачу еще более сложной.

Для реализации систем «человек-машина» в наши дни используют два подхода: ГЛОБАЛЬНЫЙ (осуществляется общее распознавание изолированного слова или связного текста, но с сокращенным словарем и произнесенного одним диктором) и АНАЛИТИЧЕСКИЙ (позволяет приступить к проблеме распознавания слитной речи, произнесенной большим числом дикторов). Он осуществляется в два этапа: в первую очередь распознаются звуки, затем обрабатывается информация «высшего» уровня (лексики используемых слов, структур, произносимых фраз).

Процесс распознавания речи начинается с анализа речевого сигнала, предварительно преобразованного в электрический сигнал с помощью микрофона. Который, в свою очередь, преобразовывается в дискретный, т.е. в последовательность чисел с изменением амплитуды сигнала с соответствующими интервалами с помощью вычислительных машин. Чаще, однако, предпочитают работать со спектральным представлением сигнала с более продолжительными временными интервалами.

В системах общего распознавания необходима фаза обучения, во время который пользователь произносит список слов с нужной лексикой. Для каждого произнесенного слова осуществляется акустический анализ и его результат вводится в запоминающее устройство ЭВМ.

Во время фазы распознавания при произнесении слова пользователем акустический образ распознаваемого слова сравнивается со словами-эталонами. Слово, наиболее схожее с произнесенным, распознается и

воспроизводится. В наиболее простых и наиболее часто используемых системах один и тот же человек участвует в обучении и распознавании, т.е. речь идет о монодикторских системах.

Но ситуация не так проста, как может показаться на первый взгляд. Даже когда один и тот же человек произносит слово два раза подряд, наблюдаются существенные отличия в произнесенном. Для решения этой проблемы используется последовательность вычислений, определяющая оптимальный способ приведения в соответствие двух сравниваемых слов и устранения расхождения между их акустическими образами. Этот тип алгоритма относится к динамическому программированию.

Важное место в исследованиях занимает разработка общих методов распознавания слов, произнесенных без пауз. Трудности при решении проблемы, возникают, с одной стороны, в результате коартикуляции звуков в потоке речи, и с другой – из-за сегментации звукового потока на отдельные слова. Преодолеть эти сложности помогает алгоритм динамического программирования. С помощью систем подобного рода распознают ключевые слова внутри фразы, не ограничиваясь словарем эталонов.

Билет9 вопрос 1 ПРИКЛАДНАЯ ЛИНГВИСТИКА, деятельность по приложению научных знаний об устройстве и функционировании языка в нелингвистических научных дисциплинах и в различных сферах практической деятельности человека, а также теоретическое осмысление такой деятельности.

Понимания термина «прикладная лингвистика».

Наряду с таким широким пониманием существует и ряд более узких, причем сильно различающихся в разных национальных традициях. На Западе аналоги данного термина (англ. applied linguistics, нем. angewandte Linguistik) используются прежде всего для обозначения теории и практики преподавания иностранных языков, включая методику, особенности описания грамматики для учебных целей и т.п. В СССР термин «прикладная лингвистика» получил широкое распространение в 1950-х годах в связи с появлением первых компьютерных систем автоматической обработки текстовой информации (машинного перевода, автоматического реферирования и др.); именно поэтому в русскоязычной литературе и поныне вместо термина «прикладная лингвистика» в том же значении часто используются термины «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика», «инженерная лингвистика», что не вполне удачно, поскольку каждая из перечисленных дисциплин имеет свой предмет и методы работы в рамках прикладной лингвистики (далее ПЛ) как более широкого направления.