Добавил:

getman tg: @petmanchenko Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича

Предмет:

Интеллектуальные системы и технологии

Файл:

ПР №1 Ознакомление с нейросетями AI Midjourney и ruDALL-e

.pdf

Скачиваний:

Добавлен:

02.02.2025

Размер:

1.06 Mб

Скачать

☆

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА» (СПбГУТ)

Практическая работа №1

«Ознакомление с нейросетями AI Midjourney и ruDALL-e» по дисциплине

«Интеллектуальные системы и технологии»

Выполнил: ст. гр. ИСТ-931 Гетманченко П.А.

Проверил: ассистент Капитоненко В.В.

Санкт-Петербург

2023

Цель работы: ознакомиться с нейросетями под названием AI

Midjourney и ruDALL-e.

Ход работы

На рисунке 1 изображена главная страница данной нейросети в Discord:

Рисунок 1 – главная страница

Результат запроса “New York winter” показан на рисунке 2:

Рисунок 2 – результат запроса “New York winter”

Запрос другого участника “create a landing page for delivery wesite”

показан на рисунке 3:

Рисунок 3 – результат другого участника по запросу “create a landing page for delivery wesite”

Примечательно, что нейросеть способна понимать суть слова,

написанного с ошибкой. Человек вместо “website” написал “wesait”, а она поняла.

Параметры для команды "/imagine" в нейросети Миджорни.

Чтобы начать генерировать картинки нужно ввести prompt: (ваш запрос) в

командную строку. Для этого даётся боту команда "/imagine" (без кавычек) и

всплывающая команда. А запрос вводится сразу после нее.

Функции для выбора алгоритма:

--version <1 или 2 или 4> или --v <1 или 2 или 4> По дефолту настройки в боте стоят на V3, если вы хотите использовать предыдущие версии бота,

используйте эти команды. Наш запрос: girl with peaches, sitting at the table, short black hair, pink shirt, peaches on the table, painting by serov (девочка с персиками, сидит за столом, короткие черные волосы, розовая рубашка,

персики на столе, картина Серова). По порядку V1, V2, V3, V4.

--beta Использует новый экспериментальный алгоритм. Эта модель выполняется значительно дольше и выдает только 2 картинки (1 для неквадратных разрешений). Не работает с параметрами --hd, --stylize и --q 5. --uplight Это ''легкий" апскейлер (улучшатель). Возвращает к изображения до выбора кнопок U. Идеально подходит для лица и гладких поверхностей.

Справа налево все тот же запрос: --uplight, по умолчанию --v4, --beta.

--hd Использует другой, более старый алгоритм, который потенциально лучше подходит для больших изображений, но с менее последовательной композицией. Лучше всего подходит для абстрактных и пейзажных генераций. Так же генерирует изображения с более высоким разрешением без необходимости масштабирования. Несовместимо с версией 4.

--tile Для запросов на создание паттернов или бесшовных текстур (это означает, что изображения повторяются и вы используете их в качестве плиток). Несовместимо с версией 4. Картинку нужно склеивать самостоятельно.

--creative Выдает 2 картинки в своем стиле на выбор (1 для неквадратных изображений). Стиль этот на любителя, часто хорош по композиции. Несовместимо с версией 4.

--niji - Любой запрос в стиле аниме.

Функции параметров изображения:

--aspect или --ar Генерирует изображения с желаемым соотношением сторон. Попробуйте, например, --ar 16:9, чтобы получить соотношение сторон 16:9 (~448x256).

--w <число> и --h <число> Устанавливает ширину и высоту изображения соответственно. --ar лучше поддерживается и должен использоваться вместо него. Значения, используемые параметрами --h и --w,

должны находиться в диапазоне от 256 до 2034, при этом следует помнить,

что максимальное разрешение составляет около 3 мегапикселей. Эти значения работают лучше, если они кратны 64 (или 128 для --hd).

Базовые функции:

--seed Устанавливает "начальное значение", которое иногда может помочь сделать результат более предсказуемым, стабильными и воспроизводимым при повторной попытке создать подобное изображение.

Используем положительное целое число (любое целое число от 0 до

4294967295). Если он не используется, вместо него будет выбрано случайное начальное число. Вы можете отреагировать на сообщение с результатом,

чтобы узнать, какое начальное значение было использовано.

--sameseed Делает так, чтобы "начальное значение" было одинаковым для всех вариаций изображений генерируемых под запрос. Если оно не задано, каждое изображение из вариаций будет использовать другой «срез»

"начального значения" , обеспечивая большее разнообразие.

--no Негативный запрос (пример: --no hair). Эквивалентно использованию расширенного веса текста ::-0,5.

--iw Устанавливает вес запроса-изображения относительно веса текста.

Значение по умолчанию --iw 0,25.

--stylize <число> или --s <число> Аргумент stylize устанавливает,

насколько сильной будет «стилизация» ваших изображений, чем выше вы установите его, тем более самобытным оно будет. Значение по умолчанию —

2500.

--quality <число> или --q <число> Сколько времени вы хотите потратить на качество рендеринга. Значение по умолчанию — 1. Более высокие значения стоят больше, а более низкие — меньше.

--chaos <число> Насколько более разнообразными, случайными и разными будут результаты. Должно быть между 0-100. Более высокие значения будут создавать более интересные и необычные генерации, в обмен на менее предсказуемые композиции.

--fast Более быстрая скорость генерации изображения, меньшая согласованность, меньшая стоимость. Вы также можете использовать --q 0.5

и --q 0.25 для аналогичного результата.

--stop Остановить генерацию на более раннем проценте. Должно быть в

пределах 10-100. В настоящее время это не работает с апскейлами.
--video Сохраняет видео прогресса, которое отправляется вам в	-

триггерном DM (вы должны отреагировать конвертом, чтобы получить ссылку на видео). В настоящее время это не работает с апскейлами.

Функции значений стилизации:

--stylize меняет то, насколько креативным и художественным вы хотите видеть ваш результат в понимании Миджорни. А точнее чем больше значение, тем больше своего стиля нейросеть добавит в ваш результат. Его также можно использовать с сокращением промпта --s, за которым может следовать любое целое число от 625 до 60000. Для V4 lj jn 0 lj 1000. Вот несколько примеров значений:

--stylize 625 Если вы в практически хотите отключить его, и быть менее креативным.

--stylize 1250 Подойдет, когда вы хотите, чтобы он был «менее стандартным», но все же «красивым» (это рекомендуется для опытных пользователей).

--stylize 2500 Значение по умолчанию, поэтому вам не нужно его указывать.

--stylize 20000 Если вы хотите, чтобы креатив преобладал, и начал создавать отталкиваясь от вашего текста, но не сходил с ума.

--stylize 60000 Вовсе тяжкие - кто знает, что произойдет. Результат может выглядеть совсем не так, как ваш запрос.

Функция веса текста (для продвинутых пользователей):

Вы можете добавить к любой части запроса суффикс ::0.5, чтобы присвоить этой части вес 0,5. Если вес не указан, по умолчанию он равен 1.

Подсказки с отрицательным общим весом не допускаются. Команда "--no"

эквивалентна использованию веса текста "-0,5".

Функция запроса на основе изображения:

Добавьте один или несколько URL-адресов изображений в свою строку запроса после команды "/imagine", и он будет использовать эти изображения в качестве визуального вдохновения. Вы можете смешивать слова с изображениями или просто использовать только изображения.

--iw <значение>

Регулирует вес URL-адресов изображения по сравнению с текстом. По умолчанию они равны 0,25. Экспериментируйте и смотрите, как вам нравится. Например, --iw 1 делает URL-адрес вашего изображения таким же важным для генерации, как и текст запроса с весом по умолчанию. Похоже на весы текста.

На официальном сайте Миджорни есть список запрещенных тем. В

общем, разработчики очень переживают за контент изображений, которые генерит бот, ведь в дискорде очень много детей.

Если злоупотреблять NSWF темами, можно получить бан. Смотрите внимательно, что вы пишите.

С помощью ruDALL-E Emojich можно генерировать новые эмодзи.

Результат показан на рисунке 4:

Рисунок 4 – запрос “любовь до гроба”

Модель Kandinsky 2.0 использует метод обратной диффузии и за считанные минуты создаёт красочные изображения на различные темы по текстовому запросу на русском и других языках. Можно даже комбинировать разные языки в рамках одного запроса. Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение». Результат показан на рисунках 5-6:

Рисунок 5 – выбор стиля

Рисунок 6 – запрос “аппокалписис эйфории”

Русская text-to-image модель, генерирующая изображения по тексту.

Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии. Результат показан на рисунке 7:

Рисунок 7 – запрос “мир шизофреника”

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире. Результат показан на рисунке 8:

Рисунок 8 – запрос “что-то красивое и не очень”

Вывод: произошло ознакомление с нейросетями под названием AI

Midjourney и ruDALL-e. Больше всего подойдёт художникам и дизайнерам.

Соседние файлы в предмете Интеллектуальные системы и технологии

#
02.02.20251.06 Mб2ПР №1 Ознакомление с нейросетями AI Midjourney и ruDALL-e.pdf
#
02.02.20252.32 Mб8ПР №2 Исследование функционала чат-бота ChatGPT.pdf