2.3. Рекуррентные нейронные сети (Recurrent Neural Networks, rnn)

Описание: Архитектура для обработки последовательных данных, где важен порядок элементов. Имеют обратные связи, позволяющие передавать информацию от предыдущих шагов к текущим. Обладают "памятью".

Структура:

Проблемы классических RNN:

Затухание/взрыв градиента (vanishing/exploding gradient) — сложно обучать на длинных последовательностях.
Плохая память на дальние зависимости.

Улучшенные варианты RNN:

LSTM (Long Short-Term Memory) — ячейки с механизмом вентилей (входной, забывающий, выходной), позволяют сохранять информацию на долгое время.
GRU (Gated Recurrent Unit) — упрощённая версия LSTM.

Применение:

Обработка естественного языка (NLP): языковое моделирование (предсказание следующего слова), машинный перевод, генерация текста, анализ тональности.
Анализ временных рядов: прогнозирование курса акций, погоды, спроса.
Распознавание речи.
Генерация музыки.

Пример: Машинный перевод: сеть читает предложение на английском, слово за словом, запоминает контекст, затем генерирует перевод на французском.

2.4. Трансформеры (Transformers)

Описание: Современная архитектура, которая вытеснила RNN в NLP и других областях. Основана на механизме внимания (attention) и не использует рекуррентные связи, что позволяет эффективно распараллеливать вычисления.

Ключевые компоненты:

Механизм самовнимания (self-attention): позволяет модели оценивать важность всех элементов последовательности при обработке каждого элемента. Каждый элемент "смотрит" на все остальные.
Многоголовое внимание (multi-head attention): несколько параллельных механизмов внимания, фокусирующихся на разных аспектах.
Позиционные кодировки (positional encoding): добавляют информацию о порядке элементов (так как сеть не рекуррентная).

Структура:

Известные архитектуры на основе трансформеров:

BERT (Bidirectional Encoder Representations from Transformers) — для понимания языка (кодировщик).
GPT (Generative Pre-trained Transformer) — для генерации текста (декодировщик).
T5 (Text-to-Text Transfer Transformer) — всё как текст.
Vision Transformer (ViT) — адаптация для изображений.

Применение:

Обработка естественного языка (NLP): машинный перевод, ответы на вопросы, суммаризация текста, анализ тональности, генерация текста (ChatGPT).
Компьютерное зрение: классификация изображений, обнаружение объектов (ViT, DETR).
Обработка звука и музыки.
Мультимодальные задачи (объединение текста и изображений).

Пример: GPT-3/ChatGPT: огромная сеть-трансформер, обученная на гигантском количестве текстов, способная генерировать связные ответы, писать код, сочинять истории.

2.5. Автокодировщики (Autoencoders)

Описание: Архитектура для обучения представлений без учителя. Состоит из двух частей:

Кодировщик (encoder) — сжимает входные данные в скрытое представление (латентный код) меньшей размерности.
Декодировщик (decoder) — восстанавливает исходные данные из скрытого представления.

Структура:

Цель обучения: минимизировать разницу между входом и выходом (реконструкцией).

Применение:

Уменьшение размерности (как нелинейный PCA).
Шумоподавление (denoising autoencoder — учится восстанавливать чистый сигнал из зашумлённого).
Обнаружение аномалий: если аномалия плохо восстанавливается, её можно выявить.
Генерация данных (вариационные автокодировщики, VAE).

<<< < Предыдущая 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136137 / 145137 138 139 140 141 142 143 144 145 > Следующая >>>