Добавил:

SleepyOwl703 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет аэрокосмического приборостроения

Предмет:

Организация научных исследований

Файл:

ОНИ.ПР2.4117.Иванова.doc

Скачиваний:

Добавлен:

29.04.2025

Размер:

189.44 Кб

Скачать

☆

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

2 Анализ используемых для решения задачи алгоритмов

Современные исследования показывают, что для дистанционной диагностики усталости человека по аудиоданным применяются различные методы, основанные на анализе акустических характеристик речи. Для решения подобных задач используются специализированные программные средства, позволяющие выделять ключевые параметры речи и применять алгоритмы машинного обучения для выявления закономерностей, связанных с утомлением.

Одним из наиболее популярных инструментов является openSmile – программный фреймворк, предназначенный для автоматического анализа речевых сигналов. Он предоставляет возможность выделения низкоуровневых дескрипторов, таких как частота основного тона, интенсивность и спектральные характеристики, которые затем используются для построения моделей классификации состояния утомления. В ходе исследований аудиозаписи, полученные до и после выполнения кардиореспираторного теста, обрабатывались с использованием нейронных сетей, анализирующих интегральные спектральные характеристики. Результаты показали, что спектральный анализ акустических параметров речи позволяет определить достоверные изменения при физической нагрузке, что дает основание использовать речевые характеристики в качестве индикаторов утомления [5].

Использование глубоких нейронных сетей, реализованных в библиотеках TensorFlow и Keras, совместно с инструментами обработки аудиоданных, такими как Librosa, представляет собой эффективный подход к анализу речевых сигналов. В данном методе аудиофайлы преобразуются в спектрограммы с помощью преобразования Фурье, мел-спектрограмм и мел-кепстральных коэффициентов (MFCC). Полученные данные служат основой для обучения нейросетевых моделей, предназначенных для классификации состояния утомления. В процессе исследований аудиоданные преобразовывались в изображения (мел-спектрограммы), которые затем подавались на вход нейросетевой модели в среде TensorFlow. На выходе формировался CSV-файл с сгенерированными признаками для последующей оценки [6].

Другим распространённым инструментом является Praat – программная среда для акустического анализа речи. В отличие от openSmile, Praat ориентирован на ручной и полуавтоматический анализ речевых данных, позволяя детально исследовать просодические характеристики речи (изменения темпа, пауз, интонации). Этот инструмент применяется в исследованиях, где важно оценить влияние усталости на разборчивость и плавность речи. Исследования показали, что цепстральные и спектральные акустические показатели, извлеченные из прочитанных предложений с помощью Praat, демонстрируют значительную корреляцию с воспринимаемой голосовой усталостью, особенно в условиях продолжительной фонации [7].

Для поставленной задачи определения утомления можно использовать Kaldi – фреймворк для автоматического распознавания речи. Kaldi позволяет извлекать фонетические и акустические признаки из речи. Его основные преимущества – высокая гибкость, модульная структура и возможность обучения моделей на больших объёмах данных. Он предоставляет гибкие средства для извлечения эмбеддингов речи. В ходе исследований было продемонстрировано, что голосовое утомление можно предсказать на основе x-векторов и эмбеддингов ECAPA-TDNN, извлеченных с помощью набора инструментов Kaldi, что обеспечивает надежные результаты в дифференциации утомленной и неутомленной речи [8].

Таблица 1 – Сравнение инструментов обработки речи человека с выявлением дескрипторов речи для оценки утомленности человека

Сравниваемые инструменты	Сравниваемые показатели
Сравниваемые инструменты	Основные возможности	Дескрипторы речи	Автоматизация	Вычислительная сложность
openSmile	Автоматический анализ речи, извлечение дескрипторов	Низкоуровневые и высокоуровневые признаки (интенсивность, спектр, MFCC)	Высокая	Средняя
Praat	Ручной анализ речевого сигнала	Просодические характеристики (темп, паузы, интонация	Низкая	Низкая
Kaldi	Распознавание речи, выделение фонетических признаков	Акустические модели, фонетические характеристики	Средняя	Высокая
TensorFlow/Keras + Librosa	Глубинное обучение для анализа речи	MFCC, спектрограммы, частотный анализ	Высокая	Высокая

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Соседние файлы в предмете Организация научных исследований

#
29.04.20253.2 Mб5ОНИ.ПР1.4117.Иванова.doc
#
29.04.2025189.44 Кб5ОНИ.ПР2.4117.Иванова.doc
#
29.04.20252.52 Mб3ОНИ.ПР3.4117.Иванова.doc