пятница, 10 июня 2022 г.

Нейросеть создаёт рисунки и фотографии по тексту

https://rudalle.ru/

 По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире. 

Параметры обучения и модели:

    12 млрд параметров

    Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов

    YTTM токенизатор текстов со словарем 16384 токенов

    Специализированные маски attention для визуальных последовательностей

    Поддержка переранжирования результатов моделью ruCLIP

    Поддержка повышения разрешения выполняется одним из двух способов RealESRGAN или диффузионный суперрез

Разработчик - СБЕР

Комментариев нет:

Отправить комментарий