Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОНИ.ПР2.4117.Иванова.doc
Скачиваний:
5
Добавлен:
29.04.2025
Размер:
189.44 Кб
Скачать

2 Анализ используемых для решения задачи алгоритмов

Современные исследования показывают, что для дистанционной диагностики усталости человека по аудиоданным применяются различные методы, основанные на анализе акустических характеристик речи. Для решения подобных задач используются специализированные программные средства, позволяющие выделять ключевые параметры речи и применять алгоритмы машинного обучения для выявления закономерностей, связанных с утомлением.

Одним из наиболее популярных инструментов является openSmile – программный фреймворк, предназначенный для автоматического анализа речевых сигналов. Он предоставляет возможность выделения низкоуровневых дескрипторов, таких как частота основного тона, интенсивность и спектральные характеристики, которые затем используются для построения моделей классификации состояния утомления.​ В ходе исследований аудиозаписи, полученные до и после выполнения кардиореспираторного теста, обрабатывались с использованием нейронных сетей, анализирующих интегральные спектральные характеристики. Результаты показали, что спектральный анализ акустических параметров речи позволяет определить достоверные изменения при физической нагрузке, что дает основание использовать речевые характеристики в качестве индикаторов утомления [5].

Использование глубоких нейронных сетей, реализованных в библиотеках TensorFlow и Keras, совместно с инструментами обработки аудиоданных, такими как Librosa, представляет собой эффективный подход к анализу речевых сигналов. В данном методе аудиофайлы преобразуются в спектрограммы с помощью преобразования Фурье, мел-спектрограмм и мел-кепстральных коэффициентов (MFCC). Полученные данные служат основой для обучения нейросетевых моделей, предназначенных для классификации состояния утомления.​ В процессе исследований аудиоданные преобразовывались в изображения (мел-спектрограммы), которые затем подавались на вход нейросетевой модели в среде TensorFlow. На выходе формировался CSV-файл с сгенерированными признаками для последующей оценки [6].​

Другим распространённым инструментом является Praat – программная среда для акустического анализа речи. В отличие от openSmile, Praat ориентирован на ручной и полуавтоматический анализ речевых данных, позволяя детально исследовать просодические характеристики речи (изменения темпа, пауз, интонации). Этот инструмент применяется в исследованиях, где важно оценить влияние усталости на разборчивость и плавность речи. Исследования показали, что цепстральные и спектральные акустические показатели, извлеченные из прочитанных предложений с помощью Praat, демонстрируют значительную корреляцию с воспринимаемой голосовой усталостью, особенно в условиях продолжительной фонации [7].​

Для поставленной задачи определения утомления можно использовать Kaldi – фреймворк для автоматического распознавания речи. Kaldi позволяет извлекать фонетические и акустические признаки из речи. Его основные преимущества – высокая гибкость, модульная структура и возможность обучения моделей на больших объёмах данных. Он предоставляет гибкие средства для извлечения эмбеддингов речи. В ходе исследований было продемонстрировано, что голосовое утомление можно предсказать на основе x-векторов и эмбеддингов ECAPA-TDNN, извлеченных с помощью набора инструментов Kaldi, что обеспечивает надежные результаты в дифференциации утомленной и неутомленной речи [8].

Таблица 1 – Сравнение инструментов обработки речи человека с выявлением дескрипторов речи для оценки утомленности человека

Сравниваемые инструменты

Сравниваемые показатели

Основные возможности

Дескрипторы речи

Автоматизация

Вычислительная сложность

openSmile

Автоматический анализ речи, извлечение дескрипторов

Низкоуровневые и высокоуровневые признаки (интенсивность, спектр, MFCC)

Высокая

Средняя

Praat

Ручной анализ речевого сигнала

Просодические характеристики (темп, паузы, интонация

Низкая

Низкая

Kaldi

Распознавание речи, выделение фонетических признаков

Акустические модели, фонетические характеристики

Средняя

Высокая

TensorFlow/Keras + Librosa

Глубинное обучение для анализа речи

MFCC, спектрограммы, частотный анализ

Высокая

Высокая