Permlib : Нейросеть создаёт рисунки и фотографии по тексту

пятница, 10 июня 2022 г.

Нейросеть создаёт рисунки и фотографии по тексту

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.

Параметры обучения и модели:

12 млрд параметров

Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов

YTTM токенизатор текстов со словарем 16384 токенов

Специализированные маски attention для визуальных последовательностей

Поддержка переранжирования результатов моделью ruCLIP

Поддержка повышения разрешения выполняется одним из двух способов RealESRGAN или диффузионный суперрез

Разработчик - СБЕР

Permlib

пятница, 10 июня 2022 г.

Нейросеть создаёт рисунки и фотографии по тексту

Комментариев нет:

Отправить комментарий

пятница, 10 июня 2022 г.

Нейросеть создаёт рисунки и фотографии по тексту

Комментариев нет:

Отправить комментарий

пятница, 10 июня 2022 г.