Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГАК-2026.docx
Скачиваний:
1
Добавлен:
16.06.2026
Размер:
2.66 Mб
Скачать

2.3. Генерация видео (Video Generation)

Наиболее сложная задача, так как требует учёта временной динамики. Модели учатся создавать короткие видеоролики по текстовому описанию или из одного изображения.

Примеры моделей:

  • Sora (OpenAI) — генерирует видео до минуты по текстовому описанию.

  • Runway Gen-2, Gen-3.

  • Pika Labs.

  • Stable Video Diffusion (Stability AI).

  • Make-A-Video (Meta).

Возможности:

  • Создание коротких видео по тексту.

  • Анимация статичных изображений.

  • Заполнение промежуточных кадров (video interpolation).

  • Стилизация видео.

Пример: Sora создаёт видео "кит, летящий над облаками" с реалистичной физикой.

2.4. Генерация музыки и звука (Audio Generation)

Модели, создающие музыкальные композиции, звуковые эффекты или синтезирующие речь.

Примеры моделей:

  • MusicLM (Google) — генерация музыки по текстовому описанию.

  • Suno AI — генерация песен с вокалом.

  • Jukebox (OpenAI).

  • Stable Audio (Stability AI).

  • ElevenLabs — синтез речи, клонирование голосов.

Возможности:

  • Создание инструментальной музыки в заданном жанре и настроении.

  • Генерация песен с текстом.

  • Создание звуковых эффектов для игр и видео.

  • Озвучка текста голосами, похожими на реальных людей.

Пример: Suno генерирует песню в стиле "поп-рок" с текстом про программиста.

2.5. Генерация 3d-моделей (3d Generation)

Модели, создающие трёхмерные объекты по текстовому описанию или изображению.

Примеры моделей:

  • Point-E, Shap-E (OpenAI).

  • DreamFusion (Google).

  • Magic3D (NVIDIA).

  • Luma AI (генерация 3D из видео).

Возможности:

  • Создание 3D-моделей для игр, VR/AR, дизайна.

  • Текстурное наполнение.

  • Создание 3D-сцен по описанию.

Пример: Создание 3D-модели старинного кресла по текстовому описанию и нескольким фотографиям.

2.6. Генерация кода (Code Generation)

Специализированные модели, генерирующие программный код на различных языках программирования.

Примеры моделей:

  • GitHub Copilot (на базе OpenAI Codex).

  • CodeLlama (Meta).

  • CodeGeeX.

  • Amazon CodeWhisperer.

Возможности:

  • Автодополнение кода в IDE.

  • Написание функций по описанию.

  • Перевод кода с одного языка на другой.

  • Объяснение кода.

  • Написание тестов.

Пример: Разработчик пишет комментарий // функция, которая сортирует массив по убыванию, Copilot генерирует код на Python или JavaScript.

2.7. Генерация мультимодального контента (Multimodal Generation)

Модели, способные работать с несколькими типами данных одновременно (текст + изображения + звук). Они могут, например, сгенерировать текст, описывающий изображение, или создать изображение по тексту с учётом аудио-контекста.

Примеры моделей:

  • GPT-4 (с Vision) — может анализировать изображения и генерировать текст.

  • Gemini (Google) — изначально мультимодальная.

  • Claude 3 (Anthropic) — также мультимодальна.

  • Flamingo (DeepMind).

Возможности:

  • Описание содержимого изображения.

  • Ответы на вопросы по изображению.

  • Генерация изображения с учётом текстового и аудио-контекста.

  • Создание контента, сочетающего текст и изображения.

3. Классификация по архитектурам и методам

3.1. Трансформеры (Transformers)

Основа большинства современных языковых моделей (GPT, Gemini). Используют механизм внимания для обработки последовательностей. Для генерации текста применяется авторегрессивный подход (предсказание следующего токена).

3.2. Диффузионные модели (Diffusion Models)

Основа современных генераторов изображений и видео (Stable Diffusion, DALL-E 2, Sora). Процесс:

  1. Прямой процесс: к изображению постепенно добавляется шум, пока оно не превратится в чистый шум.

  2. Обратный процесс: модель учится восстанавливать изображение из шума, шаг за шагом убирая шум. Управляется текстовым описанием (через механизм cross-attention).

3.3. Генеративно-состязательные сети (GAN)

Состоят из генератора и дискриминатора. Использовались для генерации изображений до прихода диффузионных моделей. Сейчас уступают им в качестве и разнообразии, но всё ещё применяются для некоторых задач (например, стилизация).

3.4. Вариационные автокодировщики (VAE)

Генерируют новые данные, варьируя скрытое представление. Используются как компонент в других моделях или для генерации с контролируемыми параметрами.

3.5. Рекуррентные нейронные сети (RNN/LSTM)

Исторически использовались для генерации текста, но вытеснены трансформерами. Всё ещё могут применяться для генерации музыки или небольших последовательностей.

4. Сравнительная таблица видов генеративного ИИ

Тип контента

Основные модели

Основные архитектуры

Примеры применения

Текст

GPT-4, Gemini, Claude, YandexGPT

Трансформеры (авторегрессионные)

Чат-боты, написание статей, перевод, код

Изображения

DALL-E 3, Midjourney, Stable Diffusion

Диффузионные модели, GAN

Дизайн, арт, иллюстрации, реклама

Видео

Sora, Runway, Pika

Диффузионные модели + временные слои

Создание коротких роликов, анимация

Музыка/звук

MusicLM, Suno, ElevenLabs

Трансформеры, диффузионные (аудио)

Создание музыки, озвучка, звуковые эффекты

3D-модели

Point-E, DreamFusion, Luma AI

Диффузионные, нейронные поля (NeRF)

Игры, VR/AR, промышленный дизайн

Код

GitHub Copilot, CodeLlama

Трансформеры (специализированные)

Помощь программистам, автодополнение

Мультимодальные

GPT-4V, Gemini

Трансформеры с интеграцией модальностей

Описание изображений, ответы по картинкам