La nueva herramienta permite a las personas convertir textos en piezas musicales utilizando inteligencia artificial.
Este fin de semana, Seth Forsgren y Hayk Martiros, dos apasionados de la música y la tecnología se subieron a la creciente ola de generadores impulsados por inteligencia artificial con Riffusion, un modelo de IA capaz de crear piezas musicales a partir de indicaciones de texto, haciendo una representación visual del sonido para convertirlo en una canción instrumental.
Las aplicaciones de difusión o generativas, sin duda han sido una de las tendencias tecnológicas que más ha dado de que hablar en el 2022, con la llegada al mercado de múltiples IA capaces de crear imágenes y videos a partir de texto como DALL-E, IMAGE y Stable Difusion entre otros. Forsdren y Martiros admiten que buscan aprovechar el boom de esta tendencia y es por eso que decidieron lanzar su nueva herramienta antes de terminar el año.
“Comenzamos el proyecto simplemente porque amamos la música y nos preguntábamos si sería posible crear la imagen de un sonograma con suficiente fidelidad para convertirla en audio usando tecnología de difusión”, comentó Forsgren. La difusión es la técnica de machine learning que impulsa las diversas aplicaciones para crear imágenes hechas por inteligencia artificial.
“La tecnología de difusión nos permitió hacer esto posible y en cada paso del camino nos ha impresionado cada vez con su gran capacidad, misma que nos ha permitido llevar este proyecto al siguiente nivel”, agregó el cocreador de Riffusion.
¿Cómo funciona Riffusion?
Para comprender cómo funciona este modelo de IA primero es importante saber que los sonogramas son representaciones visuales de audio que muestran la amplitud de diferentes frecuencias a lo largo del tiempo, también conocidas como ondas de sonido que hacen que el audio parezca una especie de monitor cardiaco. A fin de cuentas, un sonograma es un tipo de imagen, por lo que Stable Diffusion puede procesarlo.
Bajo esa premisa, Forsgren y Martiros entrenaron un modelo de difusión que personalizaron con cientos de sonogramas de distintos textos y vincularon las imágenes resultantes a las descripciones de sonidos o géneros musicales que representaban como “piano de jazz”, “guitarra de rock”, “Sax de blues” y muchos otros.
Al alimentar la herramienta con toda esta información, mediante su capacidad de machine learning, la IA aprendió cómo se ven representados visualmente ciertos sonidos y de qué forma mezclarlos. De esta forma los usuarios pueden escribir textos, que Riffusion convierte en sonogramas para posteriormente generar nueva música basándose en la imagen generada por el mismo programa.
Además de lo anterior, los usuarios pueden influir aún más en la creación de la IA si así lo desean, escribiendo indicaciones que describan el tipo de música o género que les gustaría producir, en un recuadro que aparece en pantalla.
Las personas comenzaron a probar el nuevo generador de música a partir del jueves 15 de diciembre, por medio de demostraciones sin costo en la página web de Riffusion. Aunque Martiros reveló, que por el momento es probable que algunos usuarios experimenten demoras en la creación de su contenido, debido a que el impacto de la aplicación rebasó sus expectativas, pero afirmó que ya se encuentran trabajando en solucionar esta situación.
Riffusion impulsa el desarrollo de nuevas herramientas de IA
El código de la IA está disponible a través del portal de la compañía, para que los desarrolladores puedan ejecutarlo, así como entrenar su propio generador con distintos elementos de texto y sonido.
“Hay muchas direcciones a las que podríamos ir desde aquí, y estamos emocionados de seguir aprendiendo en el camino. También ha sido fascinante ver a otras personas desarrollando sus propias ideas utilizando nuestro código” comentó Matriros y agregó “Una de las cosas sorprendentes de la comunidad de Stable Diffusion es la rapidez con la que las personas crean nuevas aplicaciones en direcciones que los autores originales ni siquiera se imaginaron, basándose en el mismo código”.
Rifussion no es la primera IA con la capacidad de generar música, existen aplicaciones en el mercado como Dance Diffusion, Soundraw y Jukebox dedicadas a cumplir la misma función. Sin embargo, el procedimiento de difusión que utiliza la nueva herramienta para crear una imagen a partir de un texto y convertirla en una pieza musical, es único en el mercado, marcando la pauta para las diversas aplicaciones generativas impulsadas por IA que veremos en el 2023.