Скачиваний:
1
Добавлен:
04.05.2025
Размер:
153.6 Кб
Скачать

Классические методы машинного обучения

Во многих работах используются классические методы машинного обучения. Например, метод опорных векторов (англ. Support Vector Machine, SVM) применяется для классификации эмоций человека после выделения глаз и рта и извлечения их особенностей с помощью фильтра Габора [5]. Также используется улучшенный алгоритм случайного леса (англ. Random Forest) с выбором признаков для классификации основных эмоций человека [6].

Кроме того, для задач распознавания эмоций применяются вероятностные модели, такие как наивный байесовский классификатор (англ. Naive Bayes Classifier) и скрытые марковские модели (англ. Hidden Markov Models, HMM). Наивный байесовский классификатор основан на теореме Байеса и предполагает независимость признаков. Несмотря на это упрощенное предположение, он показывает хорошие результаты в задачах классификации эмоций, особенно при ограниченном наборе обучающих данных [10].

Методы k-ближайших соседей (англ. k-Nearest Neighbors, k-NN) и деревьев решений (англ. Decision Trees) также находят применение в задачах распознавания эмоций и объектов. Метод k-NN относит объект к тому классу, к которому принадлежит большинство из k его ближайших соседей в пространстве признаков. Деревья решений используют структуру дерева для принятия решений на основе значений признаков, что делает их интерпретируемыми и понятными для человека [4].

Для повышения эффективности классических методов часто применяются ансамблевые подходы, такие как бустинг (англ. Boosting) и бэггинг (англ. Bagging). Они позволяют объединить результаты работы нескольких базовых алгоритмов для получения более точного и стабильного прогноза [11].

Методы глубокого обучения

Методы глубокого обучения широко применяются для решения задач распознавания эмоций и объектов, особенно распространены сверточные нейронные сети (англ. Convolutional Neural Networks, CNN). Сеть сама извлекает признаки и классифицирует изображения. Существуют различные архитектуры сверточных нейронных сетей для решения этих задач: классическая и билинейная [5].

В некоторых исследованиях представлены новые системы распознавания выражений лица. Из полученного входного изображения выделяется область интереса в виде лица. Для извлечения более характерных и дискриминантных признаков предлагаются архитектуры сверточных нейронных сетей на основе глубокого обучения, которые выполняют задачи обучения признаков для классификации типов выражений [1].

Некоторые исследователи решают проблему отсутствия способности к обобщению у систем распознавания эмоций, когда система, обученная на одном корпусе, даёт резкое ухудшение результатов на другом корпусе. Для этого предлагаются модели, обученные на нескольких корпусах, отличных по входным данным. Например, модель, сочетающая сверточную нейронную сеть и долгую краткосрочную память (англ. Convolutional Neural Network - Long Short-Term Memory, CNN-LSTM), достигает высоких результатов (точность 66,4% на наборе данных AffectNet), что превосходит результаты предыдущих исследований [15].

You-Only-Look-Once (YOLO)

"Посмотрел лишь однажды" (англ. You-Only-Look-Once, YOLO) – это независимая система обнаружения видеообъектов, способная работать в режиме реального времени с очень высокой частотой кадров – до 45 кадров в секунду в общедоступной версии, с заявленной полезной частотой до 155 кадров в секунду. YOLO был разработан в 2015 году. В текущей версии YOLO использует полностью сверточную нейронную сеть (англ. Fully Convolutional Neural Network, FCNN) для одновременного прогнозирования нескольких ограничивающих рамок, вместо многократного перебора изображения для сбора серии прогнозов, как в случае с большинством методов в TensorFlow и других популярных фреймворках. Этот подход обеспечивает максимальную скорость, хотя может существовать компромисс между точностью и задержкой, в зависимости от характера и масштаба используемой модели, а также качества локальных аппаратных ресурсов [15].