По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.
Параметры обучения и модели:
12 млрд параметров
Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
YTTM токенизатор текстов со словарем 16384 токенов
Специализированные маски attention для визуальных последовательностей
Поддержка переранжирования результатов моделью ruCLIP
Поддержка повышения разрешения выполняется одним из двух способов RealESRGAN или диффузионный суперрез
Разработчик - СБЕР
Комментариев нет:
Отправить комментарий