Сбербанк представил новую версию нейросети Kandinsky 3.0, которая еще лучше понимает текстовые запросы и за несколько секунд создает реалистичные изображения, в том числе на тему культуры России, говорится в сообщении банка.
"Сбер создал новую версию генеративной модели для творчества - Kandinsky 3.0. Новая версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Нейросеть теперь умеет создавать еще более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Модель работает с запросами из широкого списка тем и способна реализовать любой полет фантазии", - отмечается в сообщении.
Усовершенствованная версия генеративной модели для творчества была презентована в рамках конференции по искусственному интеллекту и машинному обучению AI Journey, которая проходит с 22 по 24 ноября.
"Это удобная, функциональная и бесплатная нейросеть Сбера для творчества. Мы постоянно работаем над ее усовершенствованием. Новая версия модели еще лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества", - отметил первый заместитель председателя правления Сбербанка Александр Ведяхин.
Особенности обновленной версии
Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи. Кроме того, у новой модели усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting).
Kandinsky 3.0 создает изображения с высоким разрешением - 1024 х 1024 пикселей, при этом может синтезировать картинки с выбранным соотношением сторон. Для обучения нейросети разработчики использовали обновленный датасет в размере 1,5 млрд пар "текст - изображение", содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций. Также пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации.
Kandinsky 3.0 понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.