четверг, 11 апреля 2024 г.

Нейросеть Riffusion делает музыку из текстового описания

 https://riff.desivocal.com/

По какой именно причине пойдут мурашки, зависит от музыканта: кому-то созданный нейросетью звук будет резать слух, кто-то испугается за свое будущее, а кто-то поймет, как сильно расширит его возможности новая нейросеть. В любом случае, равнодушным она вас не оставит.

Никого уже не удивишь нейросетями, которые создают целые поэмы по одной фразе или генерируют картины, побеждающие в конкурсах, по текстовому описанию. Музыка должна была стать следующей мишенью разработчиков нейросетей, и, наконец, у нас есть качественное ПО, способное не просто миксовать различные треки, но и создавать целые композиции по одному текстовому описанию.

Нейросеть называется Riffusion (название отчасти объясняется именем нейросети Stable Diffusion, на основе которой создана программа, и музыкальным термином «рифф»). Принцип ее работы основан на обработке сонограмм — двумерных изображений, показывающих зависимость мощности сигнала от времени. По сути, это тот графический вид, в котором мы привыкли воспринимать музыку:

Два разработчика — Сет Форсгрен и Хайк Мартирос — воспользовались тем фактом, что сонограмма является изображением, и обучили Stable Diffusion на примерах сонограмм, связав каждую из них в «мозгах» нейросети с описаниями звуков или музыкальных жанров, которые они представляют. В результате нейросеть научилась сопоставлять музыкальные жанры с видом сонограммы и смогла генерировать собственные подобные изображения по текстовому описанию.

Изображения, созданные Riffusion, можно конвертируются в звуковую дорожку при помощи библиотеки PyTorch от TorchAudio на Python.

Тест нейросети Riffusion

Интерфейс нейросети Riffusion очень прост: надо лишь ввести в специальной строке описание нужной вам мелодии на английском, после чего нажать Enter, а затем — кнопку воспроизведения в правом верхнем углу. Затем можно поделиться созданным рифом.

Вот что выдала нам нейросеть по запросу «black metal in 8-bit style». Не очень-то похоже на ритмы блэк-метала, но зато вторую часть запроса нейросеть поняла верно.

Тогда мы попросили нейросеть сгенерировать российский гимн в стиле рок. Видимо, нейросеть не знает российский гимн, поэтому композиция вышла странной.

Зато, например, «lo-fi бит для праздников» получился очень даже неплохим. А вот с запросами вроде «kpop boys/girls band» нейросеть справляется не очень — слова практически не слышны, хотя отдаленно стиль кажется похожим на популярные группы.

В общем, если вы хотите быстро создать музыку без авторских прав и не маяться с долгим поиском подходящей композиции, эта нейросеть вполне сможет сгенерировать небольшой инструментал.

Никита Шевцев
https://texterra.ru/

Комментариев нет:

Отправить комментарий