Загрузка

Сбер представил новую модель генерации изображений по тексту

Новая версия Kandinsky 4.1 Image теперь создаёт ещё более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей.

Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям: удалить лишние объекты или текст с картинки, сменить цвет волос или возраст человека на изображении, отреставрировать и раскрасить старое фото, заменить фон, сменить лето на зиму. Причём MALVINA старается сохранять геометрию исходного изображения: изменения затрагивают только релевантные части картинки. Таким образом, даже при внесении серьёзных изменений в сцену будут сохранены черты лица людей или вид объектов, не затрагиваемых в процессе редактирования.

В основе новой версии модели генерации изображений Kandinsky лежит обновлённая архитектура, которая позволяет использовать лучшие практики в области обучения больших трансформерных моделей. Технология обеспечивает возможность эффективного масштабирования, что по факту означает улучшение общего качества и скорости работы флагманской модели.

Отбором данных для обучения модели занималась команда, состоящая более чем из 100 специалистов —фотографов, художников, дизайнеров, которые не только имеют профессиональное художественное образование, но и успешно прошли тесты на углублённое понимание эстетических и визуальных аспектов фотографии.

Еще Kandinsky 4.1 Image точнее следует сложным текстовым инструкциям — например, понимает «пространственные» запросы типа «справа/слева» и «выше/ниже». «Если попросить модель нарисовать «мужчину в белой кепке и полосатом пиджаке, сидящего на зелёном стуле справа от высокой берёзы, в стиле Ван Гога. Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других. Кроме того, пользователь может создавать изображения в произвольных художественных стилях. Также модель стала лучше работает с русским культурным кодом: она точнее генерирует матрёшек, богатырей, самовары, знает героев русских народных сказок, может изобразить различные блюда национальной кухни и создавать изображения в духе русской народной росписи, например гжели и хохломы», — нейросеть учтёт все детали», - поясняют специалисты.

Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открывает любому пользователю возможность редактировать любые изображения простыми командами. За пару кликов на картинке можно изменить фон («сделай горы вместо неба»), цвет («сделай дракона зелёным») или внешность («добавь очки», «перекрась волосы в рыжий»). Кроме того, можно убирать и добавлять объекты («замени черешню на конфеты») и корректировать дефекты («удали царапины»).

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка пояснил: «Новый редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет легко менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий».

Нейросеть была обучена на огромном массиве данных. На этапе предварительного обучения исследователи обработали более 10 млн примеров, а для этапа дообучения (SFT-фаза) применили свыше 1,5 млн разнообразных изображений — как реальных фотографий с ручной обработкой, так и синтетических данных, сгенерированных специальными моделями.

Протестировать обновлённые нейросети Сбера можно в телеграм-ботах GigaChat и Kandinsky, а также в VK-боте Kandinsky.


Реклама. ПАО «Сбербанк России». ИНН: 7707083893


Подписаться в Telegram