
ПР №1 Ознакомление с нейросетями AI Midjourney и ruDALL-e
.pdf
ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА» (СПбГУТ)
Практическая работа №1
«Ознакомление с нейросетями AI Midjourney и ruDALL-e» по дисциплине
«Интеллектуальные системы и технологии»
Выполнил: ст. гр. ИСТ-931 Гетманченко П.А.
Проверил: ассистент Капитоненко В.В.
Санкт-Петербург
2023

Цель работы: ознакомиться с нейросетями под названием AI
Midjourney и ruDALL-e.
Ход работы
На рисунке 1 изображена главная страница данной нейросети в Discord:
Рисунок 1 – главная страница
Результат запроса “New York winter” показан на рисунке 2:
Рисунок 2 – результат запроса “New York winter”
2

Запрос другого участника “create a landing page for delivery wesite”
показан на рисунке 3:
Рисунок 3 – результат другого участника по запросу “create a landing page for delivery wesite”
Примечательно, что нейросеть способна понимать суть слова,
написанного с ошибкой. Человек вместо “website” написал “wesait”, а она поняла.
Параметры для команды "/imagine" в нейросети Миджорни.
Чтобы начать генерировать картинки нужно ввести prompt: (ваш запрос) в
командную строку. Для этого даётся боту команда "/imagine" (без кавычек) и
всплывающая команда. А запрос вводится сразу после нее.
Функции для выбора алгоритма:
--version <1 или 2 или 4> или --v <1 или 2 или 4> По дефолту настройки в боте стоят на V3, если вы хотите использовать предыдущие версии бота,
используйте эти команды. Наш запрос: girl with peaches, sitting at the table, short black hair, pink shirt, peaches on the table, painting by serov (девочка с персиками, сидит за столом, короткие черные волосы, розовая рубашка,
персики на столе, картина Серова). По порядку V1, V2, V3, V4.
3
--beta Использует новый экспериментальный алгоритм. Эта модель выполняется значительно дольше и выдает только 2 картинки (1 для неквадратных разрешений). Не работает с параметрами --hd, --stylize и --q 5. --uplight Это ''легкий" апскейлер (улучшатель). Возвращает к изображения до выбора кнопок U. Идеально подходит для лица и гладких поверхностей.
Справа налево все тот же запрос: --uplight, по умолчанию --v4, --beta.
--hd Использует другой, более старый алгоритм, который потенциально лучше подходит для больших изображений, но с менее последовательной композицией. Лучше всего подходит для абстрактных и пейзажных генераций. Так же генерирует изображения с более высоким разрешением без необходимости масштабирования. Несовместимо с версией 4.
--tile Для запросов на создание паттернов или бесшовных текстур (это означает, что изображения повторяются и вы используете их в качестве плиток). Несовместимо с версией 4. Картинку нужно склеивать самостоятельно.
--creative Выдает 2 картинки в своем стиле на выбор (1 для неквадратных изображений). Стиль этот на любителя, часто хорош по композиции. Несовместимо с версией 4.
--niji - Любой запрос в стиле аниме.
Функции параметров изображения:
--aspect или --ar Генерирует изображения с желаемым соотношением сторон. Попробуйте, например, --ar 16:9, чтобы получить соотношение сторон 16:9 (~448x256).
--w <число> и --h <число> Устанавливает ширину и высоту изображения соответственно. --ar лучше поддерживается и должен использоваться вместо него. Значения, используемые параметрами --h и --w,
должны находиться в диапазоне от 256 до 2034, при этом следует помнить,
что максимальное разрешение составляет около 3 мегапикселей. Эти значения работают лучше, если они кратны 64 (или 128 для --hd).
4
Базовые функции:
--seed Устанавливает "начальное значение", которое иногда может помочь сделать результат более предсказуемым, стабильными и воспроизводимым при повторной попытке создать подобное изображение.
Используем положительное целое число (любое целое число от 0 до
4294967295). Если он не используется, вместо него будет выбрано случайное начальное число. Вы можете отреагировать на сообщение с результатом,
чтобы узнать, какое начальное значение было использовано.
--sameseed Делает так, чтобы "начальное значение" было одинаковым для всех вариаций изображений генерируемых под запрос. Если оно не задано, каждое изображение из вариаций будет использовать другой «срез»
"начального значения" , обеспечивая большее разнообразие.
--no Негативный запрос (пример: --no hair). Эквивалентно использованию расширенного веса текста ::-0,5.
--iw Устанавливает вес запроса-изображения относительно веса текста.
Значение по умолчанию --iw 0,25.
--stylize <число> или --s <число> Аргумент stylize устанавливает,
насколько сильной будет «стилизация» ваших изображений, чем выше вы установите его, тем более самобытным оно будет. Значение по умолчанию —
2500.
--quality <число> или --q <число> Сколько времени вы хотите потратить на качество рендеринга. Значение по умолчанию — 1. Более высокие значения стоят больше, а более низкие — меньше.
--chaos <число> Насколько более разнообразными, случайными и разными будут результаты. Должно быть между 0-100. Более высокие значения будут создавать более интересные и необычные генерации, в обмен на менее предсказуемые композиции.
--fast Более быстрая скорость генерации изображения, меньшая согласованность, меньшая стоимость. Вы также можете использовать --q 0.5
и --q 0.25 для аналогичного результата.
5
--stop Остановить генерацию на более раннем проценте. Должно быть в
пределах 10-100. В настоящее время это не работает с апскейлами. |
|
--video Сохраняет видео прогресса, которое отправляется вам в |
- |
триггерном DM (вы должны отреагировать конвертом, чтобы получить ссылку на видео). В настоящее время это не работает с апскейлами.
Функции значений стилизации:
--stylize меняет то, насколько креативным и художественным вы хотите видеть ваш результат в понимании Миджорни. А точнее чем больше значение, тем больше своего стиля нейросеть добавит в ваш результат. Его также можно использовать с сокращением промпта --s, за которым может следовать любое целое число от 625 до 60000. Для V4 lj jn 0 lj 1000. Вот несколько примеров значений:
--stylize 625 Если вы в практически хотите отключить его, и быть менее креативным.
--stylize 1250 Подойдет, когда вы хотите, чтобы он был «менее стандартным», но все же «красивым» (это рекомендуется для опытных пользователей).
--stylize 2500 Значение по умолчанию, поэтому вам не нужно его указывать.
--stylize 20000 Если вы хотите, чтобы креатив преобладал, и начал создавать отталкиваясь от вашего текста, но не сходил с ума.
--stylize 60000 Вовсе тяжкие - кто знает, что произойдет. Результат может выглядеть совсем не так, как ваш запрос.
Функция веса текста (для продвинутых пользователей):
Вы можете добавить к любой части запроса суффикс ::0.5, чтобы присвоить этой части вес 0,5. Если вес не указан, по умолчанию он равен 1.
Подсказки с отрицательным общим весом не допускаются. Команда "--no"
эквивалентна использованию веса текста "-0,5".
6

Функция запроса на основе изображения:
Добавьте один или несколько URL-адресов изображений в свою строку запроса после команды "/imagine", и он будет использовать эти изображения в качестве визуального вдохновения. Вы можете смешивать слова с изображениями или просто использовать только изображения.
--iw <значение>
Регулирует вес URL-адресов изображения по сравнению с текстом. По умолчанию они равны 0,25. Экспериментируйте и смотрите, как вам нравится. Например, --iw 1 делает URL-адрес вашего изображения таким же важным для генерации, как и текст запроса с весом по умолчанию. Похоже на весы текста.
На официальном сайте Миджорни есть список запрещенных тем. В
общем, разработчики очень переживают за контент изображений, которые генерит бот, ведь в дискорде очень много детей.
Если злоупотреблять NSWF темами, можно получить бан. Смотрите внимательно, что вы пишите.
С помощью ruDALL-E Emojich можно генерировать новые эмодзи.
Результат показан на рисунке 4:
Рисунок 4 – запрос “любовь до гроба”
7

Модель Kandinsky 2.0 использует метод обратной диффузии и за считанные минуты создаёт красочные изображения на различные темы по текстовому запросу на русском и других языках. Можно даже комбинировать разные языки в рамках одного запроса. Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение». Результат показан на рисунках 5-6:
Рисунок 5 – выбор стиля
8

Рисунок 6 – запрос “аппокалписис эйфории”
Русская text-to-image модель, генерирующая изображения по тексту.
Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии. Результат показан на рисунке 7:
Рисунок 7 – запрос “мир шизофреника”
9

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире. Результат показан на рисунке 8:
Рисунок 8 – запрос “что-то красивое и не очень”
Вывод: произошло ознакомление с нейросетями под названием AI
Midjourney и ruDALL-e. Больше всего подойдёт художникам и дизайнерам.
10