KANDINSKY – нейросеть, которая умеет генерировать реалистичные картинки в высоком разрешении.
Сайт: Fusionbrain.ai
Возможности: Генерация изображений, создание видеороликов с нуля
Стоимость: Бесплатно
Обзор KANDINSKY
Kandinsky – нейросеть от «Сбера», названная в честь русского художника и основателя абстракционизма Василия Кандинского. Относится к диффузионным нейросетям: это глубокие генеративные модели, которые поэтапно обрабатывают картинки и выдают самый фотореалистичный результат по текстовым запросам. По тому же принципу работают Stable Diffusion, Midjourney и Dalle-2.
Релиз «Кандинского» случился в июне 2022 года, после чего нейросеть несколько раз обновлялась. Сейчас доступна последняя версия – Kandinsky 3.0. Она обучена на 1,5 млрд связок «текст-картинка», а число параметров для распознавания увеличили в 2,5 раза: с 4,6 до 11,9 млрд.
Благодаря такому апгрейду нейросеть Kandinsky:
- лучше понимает промпты, в том числе отрицательные;
- генерирует ещё более реалистичные и детализированные изображения;
- увеличила разрешение картинок до 1024х1024 px (раньше было 768 px);
- лучше редактирует и дорисовывает изображения;
- умеет рисовать стикеры для Telegram.
Главное отличие Kandinsky от аналогов – он уверенно работает с изображениями на русском языке, отлично разбирается в отечественной культуре и истории. Знает, как выглядит Красная площадь, кто такой Чебурашка и легко нарисует Бабу Ягу. Та же Midjourney может просто не понять, чего от неё хотят. А ещё нейросеть полностью бесплатная и работает без ограничений.
Возможности
Kandinsky хорошо рисует людей, текстуры, пейзажи, в том числе абстрактные и фантастические. Внутри целый набор разных инструментов, которые позволяют комплексно работать с визуалом.
Например, нейросеть умеет:
- Рисовать по промтам. Стандартная функция text-to-image, которая есть у всех нейросетей-художников. В отличие от крупных аналогов, Kandinsky выдаёт не 4 изображения на выбор, а одно, но его можно дорабатывать или генерировать заново.
- Комбинировать. Причём в двух режимах: image + image или image + text. Можно смешать две разных картинки или загрузить одно изображение, а недостающие характеристики описать текстом.
- Стирать и дорисовывать. Инструмент «ластик» позволяет стирать объекты на изображениях и рисовать вместо них что-то другое. По запросу можно убрать с фотографии человека или предмет и дорисовать фон в том же стиле.
- Переносить стили и позы. Kandinsky может перенести позу одного персонажа на другого или на новое сгенерированное изображение. Или очертания предмета. Так можно заменить одного человека на портрете другим, сохранив при этом общую композицию.
- Генерировать видео. Нейросеть умеет создавать 8-секундные видеоролики с разрешением 512х512 пикселей и частотой 30 кадров в секунду. Kandinsky генерирует по текстовому запросу сотни картинок, которые переходят друг в друга, за счёт чего и генерируется видео.
Дополнительно для каждого изображения в нейросети можно выбрать стиль, в котором оно будет оформлено. Их тут 23, от киберпанка и фэнтэзи до разных русских художников. Если не хотите их использовать можно просто оставить «без стиля». Практика показывает, что изображения без конкретики получаются интереснее.
Где можно работать с «Кандинским»
Основной сайт для работы с изображениями в Kandinsky 3.0 – FusionBrain.ai. Тут удобный редактор и самый полный набор инструментов для работы с запросами и картинками. Если не подходит или не нравится, есть три альтернативных варианта:
- сайт ruDALL-E: тут доступна модель Kandinsky 3.0, но генерировать изображения можно только по текстовым запросам;
- в виртуальном ассистенте «Салют» от Сбера: если сказать ему «Включи художника», запустится Kandinsky.
Как пользоваться KANDINSKY
Для того, чтобы вы лучше поняли, как можно использовать нейросеть, предлагаем вместе пройти весь путь, от регистрации до генерации картинок и видео.
Как зарегистрироваться на сайте: пошаговая инструкция
Чтобы генерировать изображения в Kandinsky, не придётся ничего скачивать – достаточно просто зарегистрироваться. Для этого:
- Переходим на официальный сайт Fusion Brain по ссылке в шапке статьи. На главной странице нейросети жмём зелёную кнопку «Начать» или «Открыть редактор».
- Заполняем форму регистрации. Понадобится е-мейл, пароль, повторить пароль и галочкой согласиться с условиями политики конфиденциальности Kandinsky. Затем нажимаем «Зарегистрироваться».
- На указанную почту придёт письмо для подтверждения аккаунта. Прямо внутри письма нажимаем «Подтвердить почту». Если не получили письмо в течение 10 минут, проверьте папку «Спам».
- После этого откроется страничка, где нам предлагают ознакомиться с правилами использования нейросети. Они стандартные: сгенерированные изображения не должны нарушать законодательство, этические нормы или использоваться для незаконных действий.
Чтобы продолжить работу с нейросетью, нажимаем «Да, согласен» и автоматически переходим к генерации изображений в Kandinsky.
Как работать с изображениями в Kandinsky 3.0
Генерировать картинки проще всего в телеграм-боте Kandinsky. Достаточно просто перейти по ссылке, запустить бота, выбрать генерацию по тексту и ввести запрос.
У сайта возможностей гораздо больше, поэтому разобраться будет сложнее. На примерах покажем, как пользоваться Kandinsky, как генерировать качественные картинки в веб-версии и работать с разными визуальными инструментами.
Генерируем картинки по промту
Итак, перед нами открывается редактор с набором инструментов. Выглядит он таким образом:
На верхней панели находится ластик, кнопки для отмены действия, загрузки и скачивания изображений. По центру – рамка, внутри которой создаётся картинка. Рамку можно перемещать и дублировать: например, чтобы дорисовать фон или создать несколько объектов, а потом объединить функцией outpainting. Под рамкой есть сноска с тремя вкладками: промпт, негативный промпт и стиль.
Чтобы генерировать изображение в Kandinsky, описываем его в поле «промпт», выбираем стилистику в соседней вкладке и нажимаем зелёную кнопку справа. Например, пишем:
«Девушка из будущего, кружевное платье и доспехи, в открытом космосе, фантастические цветы, на фоне планет, кинематографический свет, гиперреалистичность, 4K».
Вот такой результат по нашему запросу получился у Kandinsky:
В соседней с промтом вкладке можно поиграться со стилями. Вот та же девушка в пиксель арт:
А это – киберпанк:
Кроме стилистики, можно поменять соотношение сторон над картинкой. Когда результат будет полностью устраивать, нажимаем «Скачать» на верхней панели инструментов.
Дорисовываем фон и детали
Теперь попробуем расширить изображение. Для этого зажимаем зелёную рамку левой кнопкой мыши и перетаскиваем в то место, где хотите дорисовать фон. Чтобы новая картинка была продолжением старой, рамка должна немного на неё заходить:
Пишем промт для нового фрагмента: «Дорисуй космический корабль на фоне планет, кинематографический свет, гиперреалистичность, 4K».
Вот такой результат получается по запросу:
Похожий фон можно дорисовать и с другой стороны.
Поле редактора в Kandinsky ничем не ограничено, поэтому генерировать и дорисовывать разные фрагменты изображения по новым запросам можно бесконечно.
А теперь попробуем стереть цветы в левой части готового изображения и нарисовать вместо них летающих драконов. Для этого берём ластик в верхней панели и закрашиваем то, что нужно убрать. Радиус ластика можно настраивать.
Слева от ластика нажимаем «Генерация». Появится рамка и поле для промпта, где нужно объяснить нейросети, что именно она должна дорисовать на изображении. Пишем:
«Дорисуй двух летающих космических драконов крупным планом, гиперреализм, 4К».
С задачей Kandinsky справился, картинка получилась вполне гармоничной.
Обрабатываем изображения
Ещё одна полезная функция Kandinsky – обработка готовых изображений по запросам. Вы можете загрузить своё фото, попросить нейросеть что-то поменять или даже добавить другого человека. Попробуем так и сделать: возьмём фотографию пары с фотостока и попросим нейросеть нарисовать вместо мужчины рядом с девушкой Илона Маска.
Для этого в редакторе нажимаем «Вставить изображение» и загружаем картинку. Под ней появляется поле для промта, где нужно прописать изменения.
Илон Маск получился неидеальный, но сходство с оригиналом определённо есть:
По тому же принципу можно менять обстановку, одежду, цвет волос, или просто стиль – с реализма на аниме, с пиксель арт на студийное фото или наоборот.
Миксуем изображения
В веб-версии нейросети объединять картинки нельзя, поэтому протестируем эту функцию в Телеграм-боте. Для примера мы сгенерировали в веб-версии Kandinsky два изображения – девушку в заснеженном лесу и город будущего в киберпанке.
После этого запустили Телеграм-бот, выбрали функцию «Смешивание» и отправили оба файла в чат. Вот такой результат получился:
Нейросеть предлагает выбрать процент соотношения прежних изображений в новом – взять 70% от одного и 30% от второго или объединить их взять поровну от обеих картинок. То же самое можно делать и текстом: загрузить фото и описать второе изображение текстом.
Как создавать анимацию и видео в нейросети
Инструмент Kandinsky Video работает в два этапа: на первом нейросеть формирует основные кадры для сюжета по запросу, на втором – промежуточные. Благодаря им, объекты на изображениях плавно движутся и переходят друг в друга.
Чтобы перейти к созданию видеоролика, выбираем в меню пункт «Видео». Открывается редактор с подробными настройками. Выбираем, что именно хотим получить, анимацию или видео – от этого будут зависеть дальнейшие настройки.
Если это анимация, для каждой сцены следует подробно прописать запрос и выбрать направление камеры. Сцен можно добавлять неограниченное количество. Когда всё готово, нажимаем «Создать анимацию».
Вот такую анимацию мы получили по нашему запросу:
https://disk.yandex.ru/i/h-6Hz-NIaxImRQ
Если нужно генерировать видео, выбирать направление камеры и описывать сцены нельзя – просто выбрать размер, прописать один подробный промпт и нажать «Создать видео».
Пример видеоролика от Kandinsky:
https://disk.yandex.ru/i/y0aczWipcJa1YA
Чтобы экспортировать видеоролик, нужно нажать кнопку «Скачать» и сохранить его на компьютер. Скачиваются файлы в формате mp4.
По словам самих разработчиков нейросети, генерация видео пока работает неидеально и ещё будет дорабатываться. Несмотря на это, если хорошо проработать промпт, можно получить неплохой короткий ролик.
Как писать промты для KANDINSKY
Kandinsky любит точность. Чем конкретнее сформулируете промпт, тем более качественным и предсказуемым получится изображение от нейросети. Стандартный запрос, по которому нейросеть почти всегда будет генерировать адекватные картинки, состоит из 4 частей:
- Объект. Пишем, кого или что хотим нарисовать: девушка, мужчина, кот, яблоко, башня, дракон, летающий корабль и т.д. Если нужно несколько объектов, укажите в запросе точное число.
- Описание. Подробно описываем объект: как выглядит, что делает, какой характер, цвет, поза. Например, стоит, лежит, добрый, грустный, в красном костюме и т.д.
- Место. Описываем локацию, в которой находится объект: горы, море, офис, подземелье, жерло вулкана и т.д.
- Надстройки. Тут стоит конкретизировать запрос для будущего изображения – указать параметры освещения (сумрак, кинематографическое или студийное освещение и т.д.).
Много деталей добавлять не надо, но при этом вводной информации должно быть достаточно, чтобы нейросеть не начала фантазировать. В итоге формула идеального промпта для Kandinsky выглядит так:
«Основной объект + его описание + локация + надстройки + эффекты»
Останется только выбрать стилистику, и промпт для генерации изображений готов. Если хотите получить картинку, максимально близкую к фотографии, добавляйте в конце запроса «гиперреализм, сверхдетализация, фотореалистичный стиль, 4K». Для большей предсказуемости пропишите негативные промпты – то, чего не должно быть на изображении (6 пальцев, красный цвет и т.д.).
Примеры изображений от KANDINSKY 3.0 и примеры промтов
Делимся остальными результатами наших экспериментов с изображениями в нейросети Kandinsky 3.0.
«40-летний мужчина с бородой, голубые глаза, в плаще, крупный план, детализация, кинематографический свет», студийное фото:
«Девушка в длинном красном платье, стоит на обрыве, море, волны, закат, кинематографический свет, детализация, гиперреализм», стиль Айвазовский:
«Девочка с большими глазами и длинными волосами, рядом с елкой, открывает новогодний подарок, 4к», аниме:
«Единорог бежит на фоне Москва сити, огни, скорость, ночь, гиперреализм, детализация», киберпанк:
«Букет пионов стоит на окне, утро, мягкие оттенки», цифровая живопись:
«Природный пейзаж, озеро, горы, зелень, гиперреализм, детализация», цифровая живопись:
«Викторианский город, металл, здания, ретрофутуризм, железная дорога, кинематографическое освещение, город в стиле стимпанк», без стиля:
Краткие итоги
Kandinsky 3.0 – мощная нейросеть, которая умеет генерировать изображения, почти неотличимые от реальных фотографий. В редакторе много инструментов для работы с визуалом и обширная библиотека стилей. Правда, Kandinsky не всегда корректно понимает промпты с первого раза, поэтому их следует чётко формулировать. Благо, нейросеть полностью бесплатная, и тестировать разные промты можно без ограничений.
А вы уже пробовали генерировать картинки в Kandinsky 3.0? Можете поделиться своим впечатлением и результатами генерации, оставив свой отзыв о данной нейросети.