El vicepresidente de investigación aplicada de deep learning de Nvidia, Bryan Catanzaro, señala que esta tecnología marca un nuevo capítulo en la evolución del sonido sintético, similar a la revolución que causó en su momento la llegada de los sintetizadores a la música.
El líder mundial en la fabricación de chips, Nvidia, busca transformar las industrias musical, cinematográfica, videojuegos y entretenimiento de la mano de la inteligencia artificial, mediante un innovador modelo de IA generativa enfocado en la creación y edición de audio llamado Fugatto, el cual posee la capacidad de modificar voces, generar sonidos completamente nuevos y transformar cualquier mezcla de música y efectos a partir de simples indicaciones en texto.
¿Qué es Fugatto y cómo funciona la nueva solución de IA de Nvidia?
Fugatto, cuyo nombre completo es un acrónimo de Foundational Generative Audio Transformer Opus 1, es descrito por Nvidia como una “navaja suiza de soluciones de IA para la creación de audio” que combina técnicas avanzadas de aprendizaje profundo con una arquitectura avanzada de redes neuronales.
Gracias a lo anterior, la nueva herramienta de IA permite a los usuarios crear música desde cero a partir de un mensaje de texto, transformar instrumentos musicales en voces humanas o sonidos completamente diferentes, cambiar acentos, emociones y estilos en grabaciones de voz existentes, así como generar efectos de audio dinámicos.
Fugatto fue desarrollado por un equipo internacional de investigadores de inteligencia artificial de la compañía, quienes lo entrenaron a partir de un vasto conjunto de datos de audio de código abierto y posteriormente lo afinaron utilizando sistemas Nvidia DGX con GPU H100 Tensor Core, aprovechando 2.5 mil millones de parámetros. El gigante de los semiconductores se jacta de que la diversidad cultural del equipo de desarrolladores contribuyó a fortalecer las capacidades multilingües y los diferentes acentos del modelo.
Una característica distintiva de Fugatto es el hecho de que su sistema es impulsado por una técnica denominada ComposableART, lo que le permite comprender y aplicar múltiples instrucciones que no están relacionadas entre sí para crear una obra. Por ejemplo, puede generar un monólogo en español con un acento francés y un tono emocional de tristeza, lo que les brinda a los usuarios un control artístico sin precedentes sobre el resultado final.
Según Bryan Catanzaro, vicepresidente de investigación aplicada de deep learning en Nvidia, la llegada de esta tecnología marca un nuevo capítulo en la evolución del sonido sintético, similar a la revolución que causaron en su momento los sintetizadores en la música.
El impacto potencial de Fugatto
Nvidia presume que “el potencial de Fugatto es tan amplio como las industrias que puede llegar a impactar”. Mediante un comunicado la compañía compartió las distintas formas en que los profesionales pueden aprovechar su tecnología.
En el sector musical, los productores pueden utilizarlo para crear pistas para canciones, experimentar con remixes en distintos estilos o mejorar la calidad de obras pregrabadas. El reconocido productor y compositor musical, Ido Zmishlany, calificó la herramienta como “increíble” por su capacidad para expandir las posibilidades creativas en el estudio.
Por su parte, los especialistas en publicidad pueden recurrir a Fugatto para personalizar audios de campañas de marketing con acentos regionales o emociones específicas.
Mientras tanto, los desarrolladores de videojuegos, pueden usarlo para modificar recursos sonoros según las acciones del jugador o incluso instalarlo en juegos para generar efectos completamente nuevos en tiempo real.
A pesar de su gran potencial, Nvidia ha tomado la decisión de no lanzar Fugatto abiertamente a todo público debido a preocupaciones sobre el uso indebido de su tecnología, como la generación de contenido auditivo engañoso o violaciones de derechos de autor, principalmente en industrias como la música y el entretenimiento, donde los derechos de propiedad intelectual son fundamentales.
Debido a lo anterior, la compañía más bien ofrecerá esta tecnología como un servicio privado para socios seleccionados, mientras continúan puliendo su herramienta para posteriormente poderla comercializar abiertamente, garantizando su uso adecuado.
Marcando la pauta en la industria
Cabe destacar que Nvidia no es el único gigante de la tecnología que está incursionando en el desarrollo de inteligencia artificial generativa para la creación y edición de audio.
Durante el 2024, tanto Google como Meta lanzaron modelos de IA similares a Fugatto, sin embargo, la capacidad que tiene la solución de Nvidia para transformar grabaciones existentes en sonidos y formatos completamente nuevos, así como su habilidad para generar secuencias lógicas de sonidos y su enfoque en el control artístico del usuario lo posicionan como una herramienta sin precedentes en la industria.
A medida que la tecnología de Fugatto se refine y la compañía continúe explorando las mejores prácticas para implementarla éticamente, seguramente en un futuro no muy lejano seremos testigos de una nueva revolución musical marcada fuertemente por la era de la inteligencia artificial.