Una IA logró generar una conversación ficticia entre el famoso podcastero estadounidense Joe Rogan y el cofundador de Apple Steve Jobs.
El cofundador de Apple, Steve Jobs, falleció hace más de una década, sin embargo, una compañía de síntesis de voz con sede en Dubái llamada Play.ht dedicada a la generación de voces con base en texto, lo devolvió a la vida por unos minutos por medio de una inteligencia artificial que generó una entrevista ficticia entre el genio detrás de Apple y Joe Rogan, quién actualmente conduce el podcast más escuchado en Spotify.
La entrevista tiene una duración de casi 20 minutos y es el primer episodio de una serie de podcasts llamada “Podcast.ai“, realizada por Play.ht. En la conversación, la versión ficticia de Steve Jobs habló acerca de la religión que profesaba, su experiencia con el LSD, la pelea que tuvo con Gizmodo por publicar los datos de un prototipo del iPhone 4 y su rivalidad con Microsoft.
¿Cómo logró la IA crear una conversación entre Steve Jobs y Joe Rogan?
Los episodios son creados a partir de las voces ultrarealistas que genera play.ht mediante su capacidad avanzada de síntesis de voz. Por otro lado, los diálogos se generan a través de modelos de lenguaje avanzados que son impulsados por inteligencia artificial y estudian cientos de textos y grabaciones del invitado o anfitrión del podcast para crear una conversación realista.
Para realizar la entrevista, la compañía reveló que su inteligencia artificial de síntesis de voz fue cargada y entrenada con la biografía de Steve Jobs, con el fin de crear las respuestas más apegadas a la realidad. Además, para generar su voz, utilizaron todas las grabaciones que pudieron encontrar de él en línea, de esta forma la IA identifica la tonalidad y los rasgos específicos de su voz para recrearla con precisión.
Por otro lado, para generar los diálogos de Joe Rogan fue mucho más sencillo, ya que existen millones de archivos de grabación con su voz en el internet. La IA de Play.ht fue alimentada con cientos de episodios de “The Joe Rogan Experience” y a través de su capacidad de machine learning, la tecnología tomó citas directas y detectó las frases y palabras más utilizadas por Rogan en su podcast para generar un dialogo realmente natural del conductor.
Las limitaciones de la inteligencia artificial de Podcast.ai
Si bien la entrevista es impresionante, se pueden escuchar numerosos problemas técnicos a lo largo del podcast. Por ejemplo, en varias ocasiones se pudo escuchar una voz de Jobs robotizada o con interferencias de audio. El cofundador de Podcast.ai Syed Hammad dijo que dichos problemas en el audio se relacionan con el material de origen y aclaró que “la voz de Jobs se creó con tan solo unos minutos de discursos en sus videos, probablemente durante la grabación que sacó esa información tenía mucho ruido, de ahí las fallas”, explicó Hammad.
Por otro lado, en la parte de la entrevista, donde Jobs ficticio profundiza en su crítica a Microsoft menciona o repite fragmentos que alguna vez dijo el cofundador de Apple mientras seguía vivo en el documental de Triumph of the Nerds, grabado en 1995. Sin embargo, aunque dicen lo mismo, se pueden identificar las diferencias entre la voz real de la grabación y la sintetizada.
Junto con el episodio, la compañía lanzó un pequeño comunicado, presentando su nueva serie. “Podcast.ai es generada completamente por la inteligencia artificial. Así que si eres un entusiasta del machine learning, quieres aprender de tus temas favoritos de una forma innovadora o incluso si sólo quieres escuchar voces del pasado revividas, este es el podcast para ti” mencionó Play.ht. Además, invitó a las personas a participar en un foro de discusión, para que sugieran temas e invitados que les gustaría escuchar en futuros episodios.
La entrevista ha generado mucho ruido en redes sociales durante las últimas horas, con opiniones divididas por parte de los usuarios. Por un lado, hay quienes se muestran emocionados de lo que esta nueva tecnología les permitirá hacer, pero también hay muchos que temen por los malos usos que pudieran dársele a esta tecnología, como falsificar declaraciones o usar la voz de artistas para fines de publicidad o incluso políticos.