
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
(ГУАП)
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
к.т.н., доцент |
|
|
|
А.В. Яковлев |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 2
|
Использование системного подхода и математических методов в формализации решения прикладных задач в области информационных процессов и систем (с использованием менеджера библиографий) |
по курсу: ИНФОРМАТИЗАЦИЯ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ ОБЩЕСТВА |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
|
|
|
|
|
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург, 2025 г.
A.V. Yakovlev*
Candidate of Technical Sciences, Associate Professor
student
* St. Petersburg state University of aerospace instrumentation
APPLICATION OF DEEP LEARNING ALGORITHMS FOR VIDEO DATA ANALYSIS IN EMOTION AND OBJECT RECOGNITION SYSTEMS
Abstract
The article provides an overview of modern approaches to video data analysis using neural network architectures, focusing on recognition of human emotions and objects in video. The stages of data preprocessing that improve recognition accuracy are considered. The features of various neural network architectures are described, including convolutional neural networks, the You-Only-Look-Once method, and object detection API platforms. An overview of popular datasets for model training is presented. Special attention is paid to the problem of model overfitting and methods for solving it. The application of these technologies in various fields such as security systems, autonomous vehicles, and robotics is discussed.
Keywords: neural network architectures, emotion recognition, object recognition, video data analysis, convolutional neural networks, deep learning, datasets, YOLO, overfitting.
УДК 004.032.26
А.В. Яковлев*
кандидат технических наук, доцент
студент
* Санкт-Петербургский государственный университет аэрокосмического приборостроения
ПРИМЕНЕНИЕ АЛГОРИТМОВ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА ВИДЕОДАННЫХ В СИСТЕМАХ РАСПОЗНАВАНИЯ ЭМОЦИЙ И ОБЪЕКТОВ
Аннотация
В статье проводится обзор современных подходов к анализу видеоданных с использованием нейросетевых архитектур, фокусируясь на распознавании эмоций человека и объектов на видео. Рассматриваются этапы предобработки данных, улучшающие точность распознавания. Описываются особенности различных архитектур нейронных сетей, включая сверточные нейронные сети (англ. Convolutional Neural Networks, CNN), метод "Посмотрел лишь однажды" (англ. You-Only-Look-Once, YOLO) и платформы программного интерфейса приложений (англ. Application Programming Interface, API) обнаружения объектов. Представлен обзор популярных наборов данных для обучения моделей. Отдельное внимание уделено проблеме переобучения моделей и методам её решения. Обсуждается применение этих технологий в различных областях, таких как системы безопасности, автономные транспортные средства и робототехника.
Ключевые слова: нейросетевые архитектуры, распознавание эмоций, распознавание объектов, анализ видеоданных, сверточные нейронные сети, глубокое обучение, наборы данных, YOLO, переобучение.
Введение
В современном мире технологии играют всё более значимую роль во многих аспектах нашей жизни. Одним из активно развивающихся направлений является анализ видеоданных с применением методов искусственного интеллекта (англ. Artificial Intelligence, AI). Особое место занимают задачи распознавания эмоций человека и объектов на видео.
Распознавание эмоций человека позволяет определить его психологическое состояние и сделать прогноз его поведения. Эта технология находит применение в различных областях, от оценки реакции потребителей на рекламу до использования в системах безопасности и человеко-машинного взаимодействия [1].
Параллельно развивается направление распознавания объектов на видео. До появления глубокого обучения (англ. Deep Learning, DL) обнаружение объектов осуществлялось с использованием классических методов машинного обучения (англ. Machine Learning, ML), таких как логистическая регрессия (англ. Logistic Regression), методы опорных векторов (англ. Support Vector Machine, SVM) и др. Использование методов глубокого обучения для этих задач сдерживалось двумя факторами: нехваткой больших объемов размеченных данных и недостаточной вычислительной мощностью [2]. Ситуация изменилась в 2009 году, когда был представлен набор данных ImageNet, содержащий миллионы изображений, распределенных по различным категориям.
В данной работе мы рассмотрим современные подходы к анализу видеоданных, сосредоточившись на распознавании эмоций человека и объектов на видео. Мы обсудим этапы предобработки данных, различные архитектуры нейронных сетей, применяемые для этих задач, а также проблемы и перспективы развития данного направления.