Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОНИ.ПР3.4117.Иванова.doc
Скачиваний:
2
Добавлен:
29.04.2025
Размер:
2.52 Mб
Скачать
    1. Карта связей авторов и ее анализ

С помощью главной панели интерфейса программы VOSviewer была построена карта на основе ранее подготовленного текстового файла, оформленного в формате PubMed. Для этого последовательно были выполнены следующие шаги: “Map create”, “create a map based on bibliographic data”, “read data from bibliographic database file”. Затем был выбран текстовый файл Pubmed с источниками, а в качестве извлекаемых полей указано “Authors”. В настройках было задано условие отображения связанных людей, в результате в карту были включены 9 авторов.

На Рисунках 10-12 представлена карта связей между этими авторами, в разных визуализациях. Видно, что все они могут быть объединены в один крупный кластер, поскольку их исследования посвящены сходной тематике, связанной с анализом речи человека. Если рассматривать визуализацию плотности распределения элементов, то можно говорить о примерном равную вкладе всех авторов в общую тему анализа утомляемости человека на основе аудиоданных.

Рисунок 10 – Карта связей авторов, для источников собранных с PubMed

Рисунок 11 – Карта связей авторов, для источников собранных с PubMed, визуализация наложения

Рисунок 12 – Карта связей авторов, для источников собранных с PubMed, визуализация наложения

4 Анализ отличий между картами связей на английском и русском языках

Карта, основанная на данных PubMed, демонстрирует более обширную и разветвлённую структуру. В ней наблюдается значительное количество пересечений между техническими и медицинскими терминами, что отражает широкий охват междисциплинарных публикаций. Термины, связанные с речью, утомляемостью и машинным обучением, присутствуют, но не всегда находятся в центре — чаще они растворяются среди более общих понятий, таких как "humans", "female", "algorithms", "machine learning", "neural networks". Такая карта характерна для систематического поиска, по ключевым словам, и включает широкий спектр тем, в том числе сопутствующие, не всегда непосредственно касающиеся специфики распознавания утомления по речи.

В противоположность этому, карта, построенная на основе источников, вручную отобранных в Zotero, выглядит более чёткой и сфокусированной. Визуально она обладает меньшей плотностью, но при этом более ясной структурой. Основные кластеры организованы вокруг ключевых тем, прямо связанных с задачей исследования: "речь", "речевой сигнал", "утомление", "машинное обучение", "нейронные сети", "MFCC". Это подчёркивает точность и релевантность подобранной литературы, а также отражает строгое соответствие публикаций конкретной исследовательской задаче — определению утомлённости человека по его речи. Кроме того, интересным элементом карты из Zotero является языковое разделение: терминология на русском и английском языке чётко разграничена, что говорит о двуязычном составе коллекции.

5 Предложение решения поставленной в нир задачи на основе проведенного анализа

Для решения задачи дистанционной диагностики утомления человека на основе аудиоданных предлагается комплексный подход, включающий автоматизированный сбор и предобработку речевых сигналов, извлечение значимых акустических признаков с использованием инструмента openSmile, а также последующую классификацию состояний утомления при помощи рекуррентных нейронных сетей, основанных на архитектуре LSTM.

В качестве речевых дескрипторов используются такие параметры, как мел-кепстральные коэффициенты (MFCC), частота основного тона (F0), интенсивность речи и вариации темпа, которые являются чувствительными маркерами когнитивного утомления. Выбор библиотеки openSmile обусловлен её высокой автоматизацией, гибкостью и поддержкой извлечения как низко-, так и высокоуровневых признаков, критически важных для построения точных моделей диагностики.

Для повышения качества классификации применяется LSTM-модель, способная учитывать временные зависимости в речевых данных, что особенно актуально при анализе динамики усталости во времени. Архитектура модели включает два последовательно связанных LSTM-слоя, полносвязный слой и выходной бинарный классификатор. Обучение проводится на размеченных аудиоданных с использованием оптимизатора Adam и методов кросс-валидации для подбора параметрови повышения обобщающей способности модели.

Реализация решения ориентирована на использование в условиях ограниченных вычислительных ресурсов, включая возможность интеграции обученной модели в мобильные и встроенные системы через TensorFlow Lite. Это обеспечивает возможность оперативной диагностики в реальном времени без необходимости подключения к облачным вычислительным средам. Предусмотрена также система очистки аудиосигнала от шумов и нормализации громкости, что повышает устойчивость системы к вариативности условий записи.

Заключение

Анализ различий между англоязычными (PubMed) и русскоязычными источниками показал, что подходы к формированию базы данных существенно различаются. Англоязычные материалы отличались широтой охвата, но меньшей тематической релевантностью, тогда как русскоязычные источники, отобранные вручную, были более точны, но ограничены по охвату. Эти различия подчеркивают необходимость комплексного подхода, сочетающего международный опыт и локальные особенности, что особенно важно для разработки надежных методов дистанционной диагностики утомления по аудиоданным. Учет языковых и культурных факторов становится ключевым для повышения точности анализа и создания более универсальных диагностических моделей.