Los generadores de imágenes y videos impulsados por inteligencia artificial están marcando tendencia en el mundo de la tecnología, ahora Google desarrolló su propio sistema para crear videos a partir de textos.
Una semana después de que Meta lanzó Make-A-Video, un generador de imágenes impulsado por inteligencia artificial capaz de crear videos a partir de textos, Google anunció el desarrollo de su propio sistema llamado de IA Imagen Video, capaz de generar clips con simples descripciones escritas. El gigante de la tecnología ha declarado que confía en que muy pronto su nuevo modelo de síntesis de video de propósito puede ayudar significativamente a las personas de la industria creativa a generar contenido de alta calidad.
A menos de un año del lanzamiento del primer generador de texto a imagen DALL-E de OpenAI, el progreso en el campo se ha acelerado rápidamente y los sistemas para la creación de imágenes y video impulsados por la inteligencia artificial se han convertido en tendencia. Para mantenerse a la vanguardia y competir en el creciente mercado de la generación multimedia con IA Google presentó una nueva herramienta con nuevas capacidades que pretende revolucionar la creación de contenido.
¿Cómo funciona Imagen Video de Google?
Imagen Video fue programado y entrenado con más de 14 millones de videos y 60 millones de imágenes, cada uno con su propia descripción en texto para aprender a correlacionar las palabras con lo que aparece en la imagen. Mediante a su capacidad avanzada de comprensión y el machine learning, la inteligencia artificial logró desarrollar un sistema de difusión que transforma textos en animaciones digitales con duración de 6 segundos.
El equipo de científicos de Google explicó el funcionamiento del nuevo generador de videos en un artículo. El sistema toma una descripción de texto, filtra la información y crea un video simple de 16 fotogramas a tres cuadros por segundo y con una resolución de 24× 48 píxeles. Después el sistema mejora la calidad y predice imágenes adicionales para agregarlas y producir un video final de 128 fotogramas y 24 cuadros por segundo, con una alta resolución de 1280×768 pixeles.
Según el trabajo de investigación de Google, Imagen Video incluye varias habilidades estilísticas notables en comparación a otros generadores de imágenes. Puede generar videos basados en el trabajo de pintores famosos para hacer clips con una estética similar a las pinturas de Vincent van Gogh, Dalí, Picasso o cualquier artista reconocido. También puede representar textos en una variedad de estilos de animación y generar objetos giratorios en 3D mientras preserva su estructura sin distorsión alguna.
Además de lo anterior, los científicos de Google afirman que Imagen Video demostró una capacidad avanzada comprensión de la profundidad de los espacios y el concepto de la tridimensionalidad, lo que le permitió crear videos como recorridos aéreos de drones que giran y capturan objetos desde diferentes ángulos sin distorsionarlos.
El principal desafío de Imagen Video
Pese a los avances de Imagen Video, los investigadores de Google encontraron que algunos de los datos utilizados para entrenar al sistema tenían contenido problemático, lo que podría resultar en que la inteligencia artificial produjera clips gráficamente violentos o sexualmente explícitos. Los ingenieros de Google ya se encuentran trabajando para solucionar estos problemas y la compañía afirma que no lanzará el modelo de Imagen Video o un código fuente de la IA hasta que esta cuestión sea resuelta.
Por otro lado, tomando en cuenta que la tecnología para la generación de videos con base en textos está progresando a un ritmo rápido es probable que no pase mucho tiempo antes de que Google resuelva estos problemas y abra su sistema de inteligencia artificial para uso público.