Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОНИ.ПР2.4117.Иванова.doc
Скачиваний:
3
Добавлен:
29.04.2025
Размер:
189.44 Кб
Скачать

3 Предложения по реализации поставленной задачи

Для разработки программного обеспечения, предназначенного для дистанционной диагностики утомляемости человека на основе анализа его речи, решается задача интеграции различных этапов обработки аудиоданных, извлечения значимых признаков и их классификации с использованием методов машинного обучения. Все эти этапы выполняются в единой системе, что позволяет оперативно и эффективно оценивать состояние пользователя (Рисунок 2).

Сначала происходит сбор аудиоданных, представляющих собой записи речи человека в разных состояниях, включая как нормальное состояние, так и состояния утомления. Эти данные могут быть получены как в контролируемых условиях, так и в реальной профессиональной деятельности, где длительные рабочие смены и высокая нагрузка являются типичными. Аудиофайлы, как правило, имеют продолжительность от 5 до 10 минут и записываются в стандартных форматах, таких как WAV. Для обеспечения высокого качества аудиофайлов применяются методы очистки от шума и нормализация громкости, что минимизирует влияние внешних факторов и улучшает точность дальнейшего анализа.

На следующем этапе из аудиофайлов извлекаются низкоуровневые акустические дескрипторы, которые характеризуют ключевые особенности речи. Для этого используется инструмент openSmile, который позволяет извлекать более 600 различных признаков. Известно, что можно извлечь 16 признаков deltaMFCC (dMFCC), которые являются дискретными производными по времени от мел-частотных кепстральных коэффициентов (MFCC)[9]. Можно использовать многомерный перечень усталости (MFI) для оценки различных измерений усталости [3]. Среди наиболее информативных признаков, применяемых для анализа утомляемости, можно выделить мел-кепстральные коэффициенты (MFCC), которые представляют собой спектральные характеристики речи и отражают изменения в её тембре, интенсивности, ритме и частоте. Важными признаками являются также интенсивность речи, частота основного тона (F0) и вариации в темпе речи. Эти параметры изменяются в зависимости от уровня утомления человека и используются для классификации состояний.

После извлечения признаков для классификации состояния человека используется рекуррентная нейронная сеть (англ. - RNN), а точнее, модель на основе LSTM-сетей (англ. - Long Short-Term Memory). Архитектура модели включает несколько слоёв LSTM, которые позволяют эффективно анализировать временные зависимости, характерные для последовательности аудиофайлов. Выявлено 13 наиболее значимых речевых параметров аудиозаписей, имевших статистически значимые различия относительно исходных значений, полученных перед модельной нагрузкой [10].

Архитектура модели включает два слоя LSTM, первый из которых состоит из 128 нейронов с активацией ReLU, что позволяет выделить важные характеристики речи. Второй слой, состоящий из 64 нейронов, уточняет полученные данные, помогая модели лучше распознавать зависимости в речи человека. Далее следуют полносвязанный слой с 32 нейронами и выходной слой с одним нейроном, который выполняет бинарную классификацию — «утомлён» или «не утомлён» — на основе выходных данных LSTM-сетей. Для обучения модели используются такие параметры, как размер пакета (англ. - batch size) равный 32 и количество эпох (epochs) 50. Оптимизация модели осуществляется с использованием алгоритма Adam, который позволяет эффективно обновлять веса сети.

Для повышения точности модели применяются методы кросс-валидации, где данные делятся на обучающую и тестовую выборки в соотношении 80/20. В процессе обучения важно выполнить настройку гиперпараметров модели, для чего могут быть использованы методы, такие как GridSearch или RandomSearch, что позволяет выбрать оптимальные параметры и минимизировать риск переобучения.

На достижение корректно работающей модели понадобиться длительное тестирование разных архитектур, в поисках наилучших результатов обучения. После того как модель обучена, она интегрируется в систему, способную анализировать аудиофайлы в реальном времени. Для этого используется подход с применением библиотеки TensorFlow Lite, которая позволяет развертывать модели на мобильных устройствах и встраивать их в реальное рабочее окружение. Программа принимает аудиофайлы, извлекает из них признаки с помощью openSmile и передаёт их в обученную модель для классификации. Это позволяет оперативно диагностировать утомляемость пользователя на основе анализа его речи, без необходимости в большом объеме вычислительных ресурсов.

Тестирование и оптимизация системы проводится на новых данных, не использованных при обучении модели, что позволяет убедиться в её стабильной работе и точности в реальных условиях.

Рисунок 2 – Схема потока обработки данных и реализации модели