Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИиАИРО.ПР1.Z0411.Карелина

.docx
Скачиваний:
0
Добавлен:
16.05.2025
Размер:
26.37 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

Кафедра 41

ОТЧЕТ

ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

к. т. н., доцент

А. В. Яковлев

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

Практическая работа №1

Анализ информационных ресурсов общества (русскоязычный сегмент) с использованием менеджера библиографий на тему Распознавание речи

по курсу: Информатизация и анализ информационных ресурсов общества

СТУДЕНТ(КА) ГР. №

Z0411

22.05.24

М. В. Карелина

номер группы

подпись, дата

инициалы, фамилия

Номер студенческого билета: 2020/3477

Санкт-Петербург, 2024

M. V. Karelina*

student,

* St. Petersburg state University of aerospace instrumentation

AUTOMATIC SPEECH RECOGNITION SYSTEMS

Abstract

The methods of automatic speech recognition are described, and a comparison of modern popular commercial speech recognition systems is made.

Keywords: speech recognition, speech technologies, commercial speech recognition systems, deep learning.

М. В. Карелина*

Студент

*Санкт-Петербургский государственный университет аэрокосмического приборостроения

АВТОМАТИЧЕСКИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Описаны методы автоматического распознавания речи, произведено сравнение современных популярных коммерческих систем распознавания речи.

Ключевые слова: распознавание речи, ИИ, системы распознавания речи, глубокое обучение.

Введение

Речь является основным способом общения между людьми. По мере того, как во всех сферах деятельности активно внедряются вычислительные технологии для повышения эффективности и упрощения работы, становится очевидной необходимость речевого взаимодействия с компьютерами. Системы распознавания речи позволяют пользователям взаимодействовать с компьютерами на естественном для них языке с помощью голосовых команд. Существует множество областей применения, где речевой интерфейс является более удобным и актуальным, чем другие способы ввода данных. Развитие технологий распознавания речи открывает новые возможности для создания удобных и понятных пользовательских интерфейсов, основанных на голосовом вводе.

Системы распознавания речи и их особенности

Распознавание речи уже достаточно давно сопровождает нас в различных сферах жизни: уже сложно представить себе жизнь, к примеру, без голосового поиска в смартфоне. Однако, до недавнего времени распознавание речи было далеко не всегда точным и порой могло только насмешить, потому что программа неверно распознавала ваши слова[1].

Распознавание речи – процесс преобразования речевого сигнала в цифровую информацию [1].

Имеется два подхода при распознавании речи. Первый из них основывается на онлайн распознавание голоса. Большие компании: Google, Amazon, Samsung, Apple, Яндекс развивают рассматриваемый подход, в надежде выпустить свой продукт раньше конкурентов и завоевать рынок. Они используют в своих технологиях нейронную сеть. Ее суть заключается в передаче полученной пользователем фразы на сервер, дальнейшей ее обработкой и отсылкой ответа пользователю. Недостаток этого подхода — наличие постоянного Интернет-соединения. Другие же компании, которые не имеют тех финансовых возможностей, используют подход попроще, а именно запись ключевых фраз и дальнейшее сравнение с ней проговариваемых пользователем запросов. Основным минусом такого подхода является трудоемкость всех операций с добавлением запросов в базу. Система голосового распознавания также требует и систему голосового вывода, ввиду того что, возвращаемый ответ от системы следует куда-то выводить. Благодаря созданию ответных симплов для пользователя, система работает в разы быстрее и стабильнее [2].

Основные области применения систем распознавания речи:

  1. Автоматизированный пользовательский интерфейс;

  2. Управление мобильными устройствами;

  3. Управление мобильными устройствами;

  4. Интерфейсы разграничения доступа [3].

Системы распознавания речи оценивают по качеству распознавания и по скорости распознавания. Тестирование выполняется по речевым записям, которые не использовались 16 для обучения системы. Качество работы систем распознавания речи оценивается путем сравнения последовательности распознанных слов с тем, что действительно было произнесено, при этом выделяют три типа ошибок: замена одного слова другим, удаление слова, вставка слова. Таким образом, относительное количество (коэффициент) неверно распознанных слов (англ. word error rate; WER) определяется следующим образом:

,

где D, I, и S — количество неверно удаленных, вставленных и замененных слов соответственно, N — общее число слов в распознаваемом сообщении [4].

Также для оценки качества распознавания речи используется показатель процента корректно распознанных слов (WCR — Word Correctly Recognized), он не учитывает ошибочные вставки слов, сделанные системой:

, ,

где H — количество правильно распознанных слов, а N — количество произнесенных диктором слов [5].

Распознавание речи в реальном времени основано на сложных алгоритмах машинного обучения, которые анализируют звуковой сигнал на разных уровнях: от отдельных звуков до слов и фраз. Существуют разные подходы к распознаванию речи, такие как скрытые марковские модели, нейронные сети или комбинации этих методов. Для улучшения качества распознавания речи необходимо учитывать разные факторы, такие как шум, акцент, скорость или контекст говорящего [6].

Алгоритм скрытых марковских сетей является одним из наиболее точных распознавателей. Но такой алгоритм имеет недостатки в виде низкой шумозащищенности и низкого распознавания дефектной речи. Нейросетевой же алгоритм несмотря на свои показатели точности, уступающие вышеописанному алгоритму, обладает высокими показателями шумозащищенности и высокими показателями распознавания дефектной речи [7].

Нейронные сети сегодня — это набирающие популярность технологии, в том числе их популярность растет и в области распознавания речи. Существуют различные виды нейронных сетей: рекуррентные, сверхточные, сети прямого распространения и другие. Общая структура распознавания для всех видов сетей выглядит следующим образом:

1. запись речи,

2. подготовка речи,

3. выделение особенностей,

4. классификация,

5. распознавание.

API, которые предоставляют компании Google и Яндекс основаны именно на нейронных сетях. Качество распознавания Yandex SpeechKit и Google Speech API находится на высоком уровне, однако это касается только коротких аудиозаписей. Это обусловлено тем, что нейронные сети не способны моделировать временные зависимости [8].

При проведении анализа коммерческих систем распознавания речи с закрытым исходным кодом, было выяснено, что наиболее оптимальной системой распознавания для русскоговорящих является технология SpeechKit API от компании Yandex. Сервис Yandex SpeechKit ориентирован на русский язык, а взаимодействие со SpeechKit происходит через HTTP API, что исключает затраты на развертывание и поддержку собственной инфраструктуры [9].

Что касается алгоритмов распознавания речи, как Yandex Speech.Kit и Google Speech Recognition, то при высоком отношении сигнал/шум более приоритетным является использование технологии компании Google, однако с понижением отношения сигнал/шум более точное распознавание речи удается у технологии YandexSpeech.Kit. Тем не менее, данные методы не выдерживают конкуренции с алгоритмами распознавания речи, ориентированными на работу с предварительным обучением [10].

Заключение

На данный момент представлено множество систем распознавания речи, среди которых Google Speech Recognition, Yandex SpeechKit и другие. Для оценки эффективности таких систем используется метрика WER (Word Error Rate - частота ошибок в распознавании слов). По результатам экспериментов, на текущий момент лучшие показатели демонстрирует Google Speech Recognition.

В настоящее время технология распознавания речи стремительно развивается. Современные системы уже способны не только распознавать речь, но и определять эмоциональную окраску голоса.

Таким образом, несмотря на существующие трудности, связанные с влиянием внешних факторов, отрасль распознавания речи активно совершенствуется, принося все более впечатляющие результаты благодаря внедрению новейших разработок в области искусственного интеллекта.

Список использованной литературы

1. Комарова А.В. Применение машинного обучения в распознавании речи // сборник статей Международной научно-практической конференции. 2017. Уфа: Общество с ограниченной ответственностью «ОМЕГА САЙНС», 2017. С. 77–78.

2. Амирасланов Э.Г., Сараджишвили С.Э., Леонтьева Т.В. Улучшенный метод распознавания речи для разработки системы голосового управления // Современная наука: актуальные проблемы теории и практики. 2023. № 4–2. С. 42–45.

3. Шмигирилова Е.О. Распознавание речи // Сборник материалов студенческой научно-практической конференции. Брянск, 2022. С. 582–583.

4. Кипяткова И.С. Методы и модели автоматического распознавания речи. Учебное пособие. Санкт-Петербург: Редакционно-издательский центр ГУАП, 2021. 116 с.

5. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, 2016. 138 с.

6. Баляба Я.В., Рычка О.В. Разработка приложения для распознавания речи // Информатика и кибернетика. 2023. № 1. С. 5–11.

7. Порошин К.С., Матросов С.В. Об актуальности исследований в области объединенных алгоритмов распознавания речи // Наука и образование в глобальных процессах. 2018. № 1. С. 49–51.

8. Лобкина А.Т. Применение алгоритмов распознавания речи в прикладных задачах // Modern science. 2019. № 11–4. С. 250–252.

9. Гаврилович Н.В., Сейтвелиева С.Н. Анализ коммерческих систем распознавания речи с открытым Api // Таврический научный обозреватель. 2016. № 6. С. 201–205.

10. Салимов Ш.Р., Волков Н.А., Иванов А.В. Применение систем распознавания речи для выделения полезного сигнала в зашумленной речи при низком отношении сигнал/шум // Динамика систем, механизмов и машин. 2021. Т. 9, № 4. С. 75–80.