
- •A method for applying an ensemble of neural network models and lexical methods to sentiment analysis of russian-language texts
- •Методика применения ансамбля нейросетевых моделей и словарных методов для решения задачи анализа тональности русскоязычных текстов
- •1 Примеры программных средств, автоматизирующих решение задачи классификации текста
- •2 Методика применения архитектуры трансформер для решения задач классификации текста
- •2.1 Обзор архитектуры трансформер и принципов её работы
- •2.2 Подготовка данных для классификации с использованием трансформеров
- •2.3 Выбор и настройка предобученной модели
- •2.4 Оценка и интерпретация результатов
- •2.5 Практические рекомендации по реализации и оптимизации
- •3 Методика применения ансамбля нейросетевых моделей для анализа тональности русскоязычных текстов
- •3.1 Практические рекомендации по внедрению
- •Приложение
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
(ГУАП)
КАФЕДРА № 41
ОТЧЕТ ЗАЩИЩЕН С ОЦЕНКОЙ
ПРЕПОДАВАТЕЛЬ
к.т.н., доцент |
|
|
|
А.В. Яковлев |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ПРАКТИЧЕСКОЙ РАБОТЕ № 3
|
ИСПОЛЬЗОВАНИЕ СИСТЕМНОГО ПОДХОДА И МАТЕМАТИЧЕСКИХ МЕТОДОВ В ФОРМАЛИЗАЦИИ РЕШЕНИЯ ПРИКЛАДНЫХ ЗАДАЧ В ОБЛАСТИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ И СИСТЕМ (С ИСПОЛЬЗОВАНИЕМ МЕНЕДЖЕРА БИБЛИОГРАФИЙ) |
по курсу: ИНФОРМАТИЗАЦИЯ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ ОБЩЕСТВА |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
|
|
|
|
|
|
|
|
подпись, дата |
|
инициалы, фамилия |
Санкт-Петербург, 2025 г.
student
* St. Petersburg state University of aerospace instrumentation
A method for applying an ensemble of neural network models and lexical methods to sentiment analysis of russian-language texts
Abstract
The paper presents an ensemble methodology for sentiment analysis of Russian texts, combining transformers and lexical methods. The ensemble of four components (RuBERT, RuBERTa, EmotionBERT, and lexicon analyzer) through a voting system provides 94.2% accuracy while maintaining interpretability and resistance to Russian language features.
Keywords: sentiment analysis, Russian language, ensemble methods, neural networks, transformers, BERT, lexical dictionaries, interpretability, voting system.
студент
*Санкт-Петербургский государственный университет аэрокосмического приборостроения
Методика применения ансамбля нейросетевых моделей и словарных методов для решения задачи анализа тональности русскоязычных текстов
Аннотация
Представлена методика ансамблевого анализа тональности русскоязычных текстов, объединяющая трансформеры и словарные методы. Ансамбль из четырех компонентов (RuBERT, RuBERTa, EmotionBERT и словарный анализатор) через систему голосования обеспечивает точность 94,2%, сохраняя интерпретируемость и устойчивость к особенностям русского языка.
Ключевые слова: анализ тональности, русский язык, ансамблевые методы, нейронные сети, трансформеры, BERT, лексические словари, интерпретируемость, система голосования.
Введение
Классификация текста является одной из ключевых задач обработки естественного языка (NLP), важность которой постоянно возрастает в связи с экспоненциальным ростом объемов текстовых данных. От автоматического анализа отзывов и мониторинга социальных медиа до модерации контента и интеллектуального извлечения информации - точная классификация текста становится необходимым компонентом множества современных информационных систем.
Революционный прорыв в этой области произошел с появлением архитектуры трансформер (Transformer), предложенной в работе "Attention is All You Need" (Vaswani et al., 2017). Основанная на механизме внимания (Attention Mechanism), эта архитектура преодолела ограничения рекуррентных нейронных сетей, позволив моделям эффективно улавливать контекстуальные зависимости на произвольных расстояниях в тексте. Дальнейшее развитие этого подхода привело к созданию предобученных языковых моделей, таких как BERT, RoBERTa и их вариаций, которые демонстрируют непревзойденные результаты в различных задачах NLP.
Однако, несмотря на высокую точность, глубокие нейросетевые модели обладают рядом недостатков: они требуют значительных вычислительных ресурсов, сложны в интерпретации и зачастую функционируют как "черные ящики", что ограничивает их применение в областях, где требуется прозрачность принятия решений. В то же время, традиционные подходы к анализу текста, основанные на лингвистических правилах и словарях, хотя и уступают в точности современным нейросетевым методам, обладают важными преимуществами: они интерпретируемы, требуют меньше вычислительных ресурсов и позволяют явно учитывать экспертные знания о предметной области.
В данной работе представлена методика применения гибридного подхода, объединяющего преимущества предобученной языковой модели RuBERT, адаптированной для русского языка, со словарными методами анализа текста. Такой подход позволяет достичь высокой точности классификации при сохранении интерпретируемости результатов, что особенно важно для анализа тональности русскоязычных текстов в практических приложениях. В работе детально рассматриваются компоненты предлагаемого подхода, реализация модели и оценка ее эффективности на примере задачи определения эмоциональной окраски текстов.