Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИиАИРО.ПР2.Z0411.Карелина

.docx
Скачиваний:
0
Добавлен:
16.05.2025
Размер:
36.02 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

Кафедра 41

ОТЧЕТ

ЗАЩИЩЕН С ОЦЕНКОЙ

ПРЕПОДАВАТЕЛЬ

к. т. н., доцент

А. В. Яковлев

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

Практическая работа №2

Анализ информационных ресурсов общества (англоязычный сегмент) с использованием менеджера библиографий на тему распознавание речи и применение в медицине искусственного интеллекта

по курсу: Информатизация и анализ информационных ресурсов общества

СТУДЕНТ(КА) ГР. №

Z0411

22.05.24

М. В. Карелина

номер группы

подпись, дата

инициалы, фамилия

Номер студенческого билета: 2020/3477

Санкт-Петербург, 2024

M. V. Karelina*

student,

* St. Petersburg state University of aerospace instrumentation

AUTOMATIC SPEECH RECOGNITION SYSTEMS

Abstract

The methods of automatic speech recognition are described, and a comparison of modern popular commercial speech recognition systems is made.

Keywords: speech recognition, speech technologies, commercial speech recognition systems, deep learning.

М. В. Карелина*

Студент

*Санкт-Петербургский государственный университет аэрокосмического приборостроения

АВТОМАТИЧЕСКИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Описаны методы автоматического распознавания речи, произведено сравнение современных популярных коммерческих систем распознавания речи.

Ключевые слова: распознавание речи, ИИ, системы распознавания речи, глубокое обучение.

Введение

Речь является основным способом общения между людьми. По мере того, как во всех сферах деятельности активно внедряются вычислительные технологии для повышения эффективности и упрощения работы, становится очевидной необходимость речевого взаимодействия с компьютерами. Системы распознавания речи позволяют пользователям взаимодействовать с компьютерами на естественном для них языке с помощью голосовых команд. Существует множество областей применения, где речевой интерфейс является более удобным и актуальным, чем другие способы ввода данных. Развитие технологий распознавания речи открывает новые возможности для создания удобных и понятных пользовательских интерфейсов, основанных на голосовом вводе.

Системы распознавания речи и их особенности

Распознавание речи уже достаточно давно сопровождает нас в различных сферах жизни: уже сложно представить себе жизнь, к примеру, без голосового поиска в смартфоне. Однако, до недавнего времени распознавание речи было далеко не всегда точным и порой могло только насмешить, потому что программа неверно распознавала ваши слова. [1]

Распознавание речи – процесс преобразования речевого сигнала в цифровую информацию [1].

Имеется два подхода при распознавании речи. Первый из них основывается на онлайн распознавание голоса. Большие компании: Google, Amazon, Samsung, Apple, Яндекс развивают рассматриваемый подход, в надежде выпустить свой продукт раньше конкурентов и завоевать рынок. Они используют в своих технологиях нейронную сеть. Ее суть заключается в передаче полученной пользователем фразы на сервер, дальнейшей ее обработкой и отсылкой ответа пользователю. Недостаток этого подхода — наличие постоянного Интернет-соединения. Другие же компании, которые не имеют тех финансовых возможностей, используют подход попроще, а именно запись ключевых фраз и дальнейшее сравнение с ней проговариваемых пользователем запросов. Основным минусом такого подхода является трудоемкость всех операций с добавлением запросов в базу. Система голосового распознавания также требует и систему голосового вывода, ввиду того что, возвращаемый ответ от системы следует куда-то выводить. Благодаря созданию ответных симплов для пользователя, система работает в разы быстрее и стабильнее [2].

Основные области применения систем распознавания речи:

  1. Автоматизированный пользовательский интерфейс;

  2. Управление мобильными устройствами;

  3. Управление мобильными устройствами;

  4. Интерфейсы разграничения доступа [3].

Системы распознавания речи оценивают по качеству распознавания и по скорости распознавания. Тестирование выполняется по речевым записям, которые не использовались 16 для обучения системы. Качество работы систем распознавания речи оценивается путем сравнения последовательности распознанных слов с тем, что действительно было произнесено, при этом выделяют три типа ошибок: замена одного слова другим, удаление слова, вставка слова. Таким образом, относительное количество (коэффициент) неверно распознанных слов (англ. word error rate; WER) определяется следующим образом:

,

где D, I, и S — количество неверно удаленных, вставленных и замененных слов соответственно, N — общее число слов в распознаваемом сообщении [4].

Также для оценки качества распознавания речи используется показатель процента корректно распознанных слов (WCR — Word Correctly Recognized), он не учитывает ошибочные вставки слов, сделанные системой:

, ,

где H — количество правильно распознанных слов, а N — количество произнесенных диктором слов [5].

Распознавание речи в реальном времени основано на сложных алгоритмах машинного обучения, которые анализируют звуковой сигнал на разных уровнях: от отдельных звуков до слов и фраз. Существуют разные подходы к распознаванию речи, такие как скрытые марковские модели, нейронные сети или комбинации этих методов. Для улучшения качества распознавания речи необходимо учитывать разные факторы, такие как шум, акцент, скорость или контекст говорящего [6].

Алгоритм скрытых марковских сетей является одним из наиболее точных распознавателей. Но такой алгоритм имеет недостатки в виде низкой шумозащищенности и низкого распознавания дефектной речи. Нейросетевой же алгоритм несмотря на свои показатели точности, уступающие вышеописанному алгоритму, обладает высокими показателями шумозащищенности и высокими показателями распознавания дефектной речи [7].

Нейронные сети сегодня — это набирающие популярность технологии, в том числе их популярность растет и в области распознавания речи. Существуют различные виды нейронных сетей: рекуррентные, сверхточные, сети прямого распространения и другие. Общая структура распознавания для всех видов сетей выглядит следующим образом:

1. запись речи,

2. подготовка речи,

3. выделение особенностей,

4. классификация,

5. распознавание.

API, которые предоставляют компании Google и Яндекс основаны именно на нейронных сетях. Качество распознавания Yandex SpeechKit и Google Speech API находится на высоком уровне, однако это касается только коротких аудиозаписей. Это обусловлено тем, что нейронные сети не способны моделировать временные зависимости [8].

При проведении анализа коммерческих систем распознавания речи с закрытым исходным кодом, было выяснено, что наиболее оптимальной системой распознавания для русскоговорящих является технология SpeechKit API от компании Yandex. Сервис Yandex SpeechKit ориентирован на русский язык, а взаимодействие со SpeechKit происходит через HTTP API, что исключает затраты на развертывание и поддержку собственной инфраструктуры [9].

Что касается алгоритмов распознавания речи, как Yandex Speech.Kit и Google Speech Recognition, то при высоком отношении сигнал/шум более приоритетным является использование технологии компании Google, однако с понижением отношения сигнал/шум более точное распознавание речи удается у технологии YandexSpeech.Kit. Тем не менее, данные методы не выдерживают конкуренции с алгоритмами распознавания речи, ориентированными на работу с предварительным обучением [10].

При сравнении Naver Clova и Google STT на примере детских рассказов, результаты показали, что Naver Clova был значительно ниже, чем Google STT, по частоте ошибок транскрипции. Но частота ошибок транскрипции в двух детских группах существенно не отличалась. Кроме того, частота ошибок Naver Clova была выше при замене, удалении и вставке соответственно. С другой стороны, частота ошибок Google STT была выше при удалении, замене и вставке соответственно [11].

Внедрение ИИ в медицину затрагивает все ее сферы, поэтому спектр обсуждаемых проблем может быть бесконечным. Главная среда для работы ИИ – это большие данные. Большие данные в медицине разделили на шесть областей: геномика; протеомика; клинические исследования; данные по потокам пациентов и лекарств (электронные медицинские карты, учет лекарственных средств); данные о побочных эффектах лекарств (spontaneous adverse drug reports, ADRs); социальные сети; данные с мобильных приложений (m-Health) [12].

Техническим средствoм, работающим с вариациями распознавания речи, уделяется особое внимание как на Западе, так и на постсоветском пространстве. Голосовой ввод (ГВ) используют в трех различных направлениях:

• для облегчения ведения мед. документации;

• голосовое управление (использование команд);

• интерактивное взаимодействие с пациентом.

В Казахстане были произведены испытания системы распознавания речи Trasformer, которая показала хорошие результаты (коэффициент ошибок 3.7%) [13].

В настоящее время системы распознавания речи широко используются в медицине.

Например, системы распознавания речи были использованы для обработки речи слушателями с симуляцией возрастной тугоухости (ARHL) и при исследовании возможности воспроизведения наблюдаемой производительности с помощью системы автоматического распознавания речи. Целью этого исследования была разработка системы, которая поможет аудиологам или производителям слуховых аппаратов в тонкой настройке слуховых аппаратов [14].

Системы распознавания речи и автоматически сгенерированные с помощью ни системы также были использованы в исследовании их полезности для людей с нарушениями слуха, памяти и возрастными изменениями. Согласно исследованию, даже системы с низкой точностью способствовали улучшению понимания речи. Это исследование может помочь дальнейшему развитию и оценке вспомогательной системы прослушивания, которая отображает автоматически распознаваемую речь, чтобы облегчить понимание речи людям с нарушениями слуха [15].

В другом случае, такие системы были использованы для исследования возможности идентификации людей с депрессией. Данные включали 3919 записей речи на английском языке, собранных через смартфоны у 265 участников с историей депрессии. Участники, упоминающие темы риска депрессии, демонстрировали более высокую вариабельность сна, более позднее начало сна и меньшее количество ежедневных шагов, а также использовали меньше слов, больше негативной лексики и меньше слов, связанных с отдыхом, в своих речевых записях [16].

В другом исследовании была проведена оценка долгосрочных объективных и субъективных показателей голоса, речи, артикуляции и качества жизни у пациентов с раком головы и шеи, получающих химиолучевую терапию на поздних стадиях заболевания. Проблемы с голосом и речью в повседневной жизни присутствовали у 68% и 77% пациентов соответственно. У пациентов, получавших IMRT (интенсивно-модулированную радиотерапию), наблюдалось значительно меньшее ухудшение по сравнению с теми, кто получал обычную лучевую терапию [17].

Также проводилось исследование, в котором 264 участвующих респондентов продемонстрировали положительное отношение и принятие систем распознавания речи и искусственного интеллекта (ИИ) в будущем; 179 (67,8%) для видеозаписей и 190 (72,0%) для записей речи. Модель многовариантной логистической регрессии показала, что с принятием систем распознавания речи в практике неотложной медицинской помощи было связано несколькими факторами: вера в улучшение медицинской помощи с помощью технологии анализа сигналов, надежность применения ИИ в неотложной медицине и безопасностью личной информации [18].

Заключение

На данный момент представлено множество систем распознавания речи, среди которых Google Speech Recognition, Yandex SpeechKit и другие. Для оценки эффективности таких систем используется метрика WER (Word Error Rate - частота ошибок в распознавании слов). По результатам экспериментов, на текущий момент лучшие показатели демонстрирует Google Speech Recognition.

В настоящее время технология распознавания речи стремительно развивается. Современные системы уже способны не только распознавать речь, но и определять эмоциональную окраску голоса.

Таким образом, несмотря на существующие трудности, связанные с влиянием внешних факторов, отрасль распознавания речи активно совершенствуется, принося все более впечатляющие результаты благодаря внедрению новейших разработок в области искусственного интеллекта.

Список использованной литературы

1. Комарова А.В. Применение машинного обучения в распознавании речи // сборник статей Международной научно-практической конференции. 2017. Уфа: Общество с ограниченной ответственностью «ОМЕГА САЙНС», 2017. С. 77–78.

2. Амирасланов Э.Г., Сараджишвили С.Э., Леонтьева Т.В. Улучшенный метод распознавания речи для разработки системы голосового управления // Современная наука: актуальные проблемы теории и практики. 2023. № 4–2. С. 42–45.

3. Шмигирилова Е.О. Распознавание речи // Сборник материалов студенческой научно-практической конференции. Брянск, 2022. С. 582–583.

4. Кипяткова И.С. Методы и модели автоматического распознавания речи. Учебное пособие. Санкт-Петербург: Редакционно-издательский центр ГУАП, 2021. 116 с.

5. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, 2016. 138 с.

6. Баляба Я.В., Рычка О.В. Разработка приложения для распознавания речи // Информатика и кибернетика. 2023. № 1. С. 5–11.

7. Порошин К.С., Матросов С.В. Об актуальности исследований в области объединенных алгоритмов распознавания речи // Наука и образование в глобальных процессах. 2018. № 1. С. 49–51.

8. Лобкина А.Т. Применение алгоритмов распознавания речи в прикладных задачах // Modern science. 2019. № 11–4. С. 250–252.

9. Гаврилович Н.В., Сейтвелиева С.Н. Анализ коммерческих систем распознавания речи с открытым Api // Таврический научный обозреватель. 2016. № 6. С. 201–205.

10. Салимов Ш.Р., Волков Н.А., Иванов А.В. Применение систем распознавания речи для выделения полезного сигнала в зашумленной речи при низком отношении сигнал/шум // Динамика систем, механизмов и машин. 2021. Т. 9, № 4. С. 75–80.

11. Yang H.J., Oh E.B., Kim Ju.M. Comparison of Automatic Speech Recognition System for School-aged Children’s Narratives: Naver Clova Speech and Google Speech-to-Text // Communication sciences and disorders. 2023. Т. 28, № 1. С. 30–38.

12. Колесничеснко О.Ю. Современный передовой уровень искусственного интеллекта для умной медицины // Ремедиум. 2019. № 4. С. 36–43.

13. Шабунин А.В. Внедрение искусственного интелекта в речи (голосового ввода) в условиях выыокопотокового эндоскопического центра // Эксперементальная и клиническая гастроэнтерология. 2023. № 5. С. 8–10.

14. Fontan L. и др. Automatic speech recognition predicts speech intelligibility and comprehension for listeners with simulated age-related hearing loss // Journal of speech, language, and hearing research. United States: American Speech-Language-Hearing Association, 2017. Т. 60, № 9. С. 2394–2405.

15. Zekveld A.A. и др. The influence of age, hearing, and working memory on the speech comprehension benefit derived from an automatic speech recognition system // Ear & Hearing. Hagerstown, MD: Ovid Technologies Wolters Kluwer Health, 2009. Т. 30, № 2. С. 262–272.

16. Zhang Y. и др. Identifying depression-related topics in smartphone-collected free-response speech recordings using an automatic speech recognition system and a deep learning topic model // Journal of affective disorders. Netherlands: Elsevier B.V, 2024. Т. 355. С. 40–49.

17. Kraaijenga S.A.C. и др. Assessment of voice, speech, and related quality of life in advanced head and neck cancer patients 10-years+ after chemoradiotherapy // Oral oncology. England: Elsevier Ltd, 2016. Т. 55. С. 24–30.

18. Kim KI.H. How do people think about the implementation of speech and video recognition technology in emergency medical practice? 2022. Т. 17, № 9. С. e0275280.