Искусственный интеллект «запел» неслыханными звуками
В демонстрационном видео Fugatto создаёт композиции по нестандартным запросам, например: «Сымитируй вой саксофона, затем лай, а после этого добавь электронную музыку с лаем собак». Среди других возможностей, которые показала Nvidia, — создание уникальных звуковых эффектов по описанию, таких как «глубокие, грохочущие басовые импульсы, дополненные прерывистыми, высокими цифровыми щебетаниями, напоминающими пробуждение гигантской разумной машины».
Кроме того, Fugatto способен изменять звук голоса, трансформируя акцент или тон, делая его, например, спокойным или сердитым. Инструмент также поддерживает редактирование музыки: он может выделять вокал, добавлять новые инструменты или изменять звучание, например, заменяя фортепиано оперным вокалом.
В сопроводительной документации Nvidia приводит список наборов данных, использованных для обучения Fugatto, включая библиотеку звуковых эффектов BBC. Хотя на рынке уже есть другие ИИ-инструменты для работы с аудио, такие как Stability AI, OpenAI, Google DeepMind, ElevenLabs и Adobe, Fugatto выделяется своей способностью создавать звуки, которые не существовали ранее.
Стоит отметить, что некоторые стартапы, разрабатывающие музыкальные ИИ, сталкиваются с исками за нарушение авторских прав, а недавние расследования показывают, что такие компании, как Nvidia, обучали свои модели на субтитрах тысяч YouTube-видео. Для разработки Fugatto исследователям пришлось собрать массивный набор данных с миллионами аудиосэмплов и разработать инструкции, которые расширили функциональность модели, сделав её более точной и универсальной.
Пока неизвестно, станет ли Fugatto доступным для широкой аудитории и когда это произойдёт.
Источник: The Verge