
- •Анализ интсрументов для разработки прототипа по дистанционной диагностики утомления человека на основе аудиоданных
- •1 Примеры решения аналогичных задач
- •2 Анализ используемых для решения задачи алгоритмов
- •3 Предложения по реализации поставленной задачи
- •4 Оценка рисков, которые могут помешать решению задачи
- •Библиографический список
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
(ГУАП)
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
к.т.н., доцент |
|
|
|
А.В. Яковлев |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 2 |
Подготовка и оформление научно-технической документации |
по курсу: ОРГАНИЗАЦИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ |
РАБОТУ ВЫПОЛНИЛ(А)
СТУДЕНТ(КА) ГР. № |
4117 |
|
|
|
А.В. Иванова |
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург 2025
A.V. Ivanova*
student
* St. Petersburg state University of aerospace instrumentation
ANALYSIS OF iNSTRUMENTS FOR DEVELOPING A PROTOTYPE FOR REMOTE DIAGNOSTICS OF HUMAN FATIGUE BASED ON AUDIO DATA
Abstract
A preliminary version of the solution to the problem “Analysis of instruments for developing a prototype for remote diagnostics of human fatigue based on audio data” is described in the research work “Remote diagnostics of human fatigue based on audio data”.
During preparation of the article 51 sources were found, which are placed in the group “SUAI4117” in the collection “Иванова” in the subdirectory “ОНИ2”.
Keywords: human fatigue diagnostics, audio data analysis, human body condition, openSmile, speech registration, speech signal indicators, operator activity, speech characteristics, low-level descriptors.
А.В. Иванова*
студент
*Санкт-Петербургский государственный университет аэрокосмического приборостроения
Анализ интсрументов для разработки прототипа по дистанционной диагностики утомления человека на основе аудиоданных
Аннотация
Описан предварительный вариант решения задачи «Анализ инструментов для разработки прототипа ПО дистанционной диагностики утомления человека на основе аудиоданных» при выполнении НИР «Дистанционная диагностика утомления человека на основе аудиоданных».
При подготовке статьи был найден 51 источник, которые размещены в группе «SUAI4117» в коллекции «Иванова» в подкаталоге «ОНИ2».
Ключевые слова: диагностика утомления человека, анализ аудиоданных, состояние организма человека, openSmile, регистрация речи, показатели речевого сигнала, операторская деятельность, характеристики речи, низкоуровневые дескрипторы.
Введение
Современные технологии дистанционного мониторинга состояния человека находят широкое применение в различных сферах, включая медицину, операторскую деятельность и системы безопасности. Одним из важных аспектов мониторинга является диагностика утомления, поскольку повышенная утомляемость может негативно сказываться на когнитивных функциях, работоспособности и общей безопасности.
Когнитивная усталость — это распространённое, но недостаточно изученное явление, связанное с нервно-психической нестабильностью и стрессовыми состояниями [1]. Она существенно снижает концентрацию внимания, скорость реакции и способность к принятию решений, что особенно критично в условиях повышенной ответственности. Когнитивная усталость на рабочем месте является одной из ключевых причин производственных аварий, дорожно-транспортных происшествий и авиационных катастроф, а также повышает риск ошибок в сложных технологических процессах, особенно при длительных сменах продолжительностью более 12 часов [1]. Усталость — это естественное явление, которое является своего рода саморегуляцией и защитой человеческого организма[2]. Выявление состояний усталости имеет положительное значение для всех профессий в настоящее время.
В рамках научно-исследовательской работы (НИР) «Дистанционная диагностика утомления человека на основе аудиоданных» рассматривается возможность оценки уровня утомления по характеристикам речевого сигнала. Развитие данной области требует выбора подходящих инструментов и технологий, позволяющих эффективно анализировать аудиоданные, выделять ключевые речевые параметры и определять их зависимость от уровня усталости.
Основной задачей данной работы является анализ существующих инструментов, которые могут быть использованы для разработки прототипа системы диагностики утомления. В ходе исследования будут рассмотрены примеры аналогичных решений, проведён анализ применяемых в них алгоритмов, а также предложены наиболее подходящие подходы для реализации поставленной задачи.
1 Примеры решения аналогичных задач
Анализ существующих решений показывает, что для оценки когнитивной усталости по речевому сигналу применяются разнообразные подходы, включающие как традиционные методы обработки аудиоданных, так и более современные технологии, такие как глубокое обучение. Все эти методы направлены на выделение и обработку речевых характеристик, которые могут сигнализировать об изменениях в состоянии человека, связанных с усталостью.
Сложность человеческой речи выходит за рамки сложной двигательной координации [3]. Одним из наиболее эффективных методов является использование глубоких нейросетей для классификации усталости на основе аудиосигналов . Этот подход включает выделение низкоуровневых акустических дескрипторов, таких как интенсивность речи, частота основного тона (F0), а также мел-кепстральных коэффициентов (MFCC), которые характеризуют спектральные особенности речи. Основным средством для получения этих показателей из исходного речевого сигнала является библиотека openSmile [4]. Эти признаки затем обрабатываются с помощью методов машинного обучения, включая нейросетевые модели, которые способны с высокой точностью классифицировать состояния утомления. В таких моделях используются данные для обучения, что позволяет повысить точность диагностики, однако метод требует значительных вычислительных ресурсов и обширных выборок данных для корректной работы. Применение глубоких нейросетей требует времени на подготовку и обучение моделей, что может быть ограничивающим фактором для оперативных систем диагностики.
Ключевыми компонентами при использовании этого подхода являются низкоуровневые акустические дескрипторы, которые могут быть извлечены из аудиофайлов с помощью специализированных инструментов, таких как openSmile. Этот инструмент позволяет автоматически извлекать признаки, такие как интенсивность звука, темп речи, а также более сложные спектральные характеристики, которые могут свидетельствовать об изменениях в состоянии организма. Преимущество такого подхода заключается в его гибкости и возможности для быстрой интеграции с различными алгоритмами анализа и классификации.
Помимо методов глубокого обучения, активно используются и традиционные методы анализа речи, такие как спектральный анализ, временной анализ и обработка низкоуровневых дескрипторов, таких как частотные характеристики и амплитудные показатели. Эти методы позволяют эффективно извлекать информацию о изменениях в речи и оценивать динамику речевых признаков в течение времени. Программные инструменты, такие как Praat и Audacity, предлагают пользователю удобные средства для предобработки и анализа аудиофайлов, включая фильтрацию шума, нормализацию громкости и извлечение характеристик. Эти методы в значительной степени зависят от качества исходных данных и требуют высокой точности при интерпретации результатов. Тем не менее, такие инструменты легко интегрируются в системы с ограниченными вычислительными ресурсами, что делает их удобными для использования в реальных условиях с минимальными затратами на обработку.
Использование комплексных подходов, которые включают в себя не только анализ речи, но и компьютерное зрение, также демонстрирует свою эффективность. В таких системах помимо изменений в голосе исследуются визуальные признаки усталости, такие как изменения в выражении лица и движениях тела. Сочетание аудиоданных с видеоданными позволяет улучшить точность диагностики, поскольку комбинированный анализ может учитывать более широкий спектр факторов, влияющих на состояние человека. Однако такой подход требует гораздо больше вычислительных мощностей и наличия видеоданных, что делает его менее практичным в условиях, где доступность видеокамер или вычислительных ресурсов ограничена.
Методики, ориентированные на темп речи, интонацию и количество оговорок, обычно требуют меньших вычислительных ресурсов и являются более простыми в реализации. Однако точность таких методов ограничена, так как изменения в этих характеристиках могут зависеть от множества внешних факторов, таких как стресс, эмоциональное состояние или технические параметры записи. В таких случаях важно учитывать контекст записи и дополнительные переменные, которые могут повлиять на результат.
Алгоритмы распознавания речи, анализирующие голосовой сигнал на основе заранее обученных моделей, демонстрируют высокую точность в выявлении признаков усталости. Эти методы могут эффективно анализировать аудиофайлы и автоматически выявлять изменения в речи, но требуют значительных вычислительных ресурсов и времени на обучение моделей.