OpenAI anunció esta semana que se está expandiendo su IA generativa más allá de las imágenes y el texto con un nuevo modelo capaz de crear videos de un minuto con base en indicaciones textuales de un usuario.
La firma de inteligencia artificial detrás del famoso chatbot ChatGPT y el generador de imágenes DALL-E, OpenAI, lanzó un nuevo y sorprendente modelo de IA generativa llamado Sora, que tiene la capacidad de convertir descripciones o indicaciones textuales en videos “realistas” de alta resolución (1080p) de hasta un minuto de duración con distintos personajes, tomas y movimientos de cámara.
“Sora tiene un profundo conocimiento del lenguaje, lo que le permite interpretar descripciones con precisión y generar personajes convincentes que expresan emociones vibrantes”, escribió OpenAI en un comunicado acerca de su nueva herramienta.
¿Cómo es que la tecnología de OpenAI le permite a Sora generar videos mediante IA generativa?
Los científicos de OpenAI que lideran el desarrollo de la nueva tecnología, Tim Brooks y Bill Peebles, bautizaron al nuevo sistema como Sora, debido a que significa cielo en japonés, haciendo alusión a que el potencial de esta tecnología es “tan grande como el cielo”.
Además de generar contenido audiovisual siguiendo instrucciones escritas, el nuevo modelo generativo de OpenAI también puede crear videos basándose en los fotogramas de una imagen estática, desarrollando toda una historia alrededor de esta. Así mismo, puede tomar como referencia un video corto y editarlo o ampliarlo de una forma similar a como hace con las fotografías.
“El modelo no solo entiende a la perfección las órdenes de los usuarios, sino que también tiene un profundo conocimiento de cómo funcionan las cosas en el mundo físico, para poder plasmarlas en un video”, añadió la compañía.
Al igual que el resto de los modelos de IA generativa, Sora aprendió a crear contenido audiovisual luego de analizar los datos digitales de miles de videos, sin embargo, OpenAI no reveló la fuente de éstos, ni cuántos se utilizaron, únicamente compartió que la programación incluyó tanto videos disponibles públicamente en internet como algunos con licencia de los titulares de los derechos de autor.

Según los expertos, el impacto de Sora trascenderá a los vigeojuegos
Por si fuera poco, los investigadores de OpenAI consideran que Sora podría no solo impactar al mundo del entretenimiento al facilitar la creación de videos en alta definición, sino que también podrá revolucionar a la industria del gaming, allanando el camino para la creación de videojuegos que se asemejen cada vez más al mundo real, generados únicamente a partir de indicaciones escritas.
Lo anterior se debe a que una de las características más destacadas del nuevo modelo de IA generativa es su capacidad para “simular espacios digitales” lo que podría ayudar a los desarrolladores tanto de videojuegos como del metaverso a potenciar su creatividad y optimizar el proceso de renderización de nuevos mundos, objetos y personajes.
“Estas capacidades sugieren que los avances continuos de los modelos generativos de videos son un camino prometedor hacia el desarrollo de simuladores altamente realistas del mundo físico y digital, así como de los objetos, animales y personas que viven en ellos, lo que podría revolucionar la creación de espacios virtuales como el metaverso”, puede leerse en el comunicado.
OpenAI acepta que aún hay mucho por mejorar, pero van por buen camino
Por otro lado, la compañía liderada por Sam Altman admite que su nuevo modelo aún tiene algunas fallas que corregir, principalmente el hecho de que puede tener dificultades para comprender y simular adecuadamente algunos casos específicos de causa y efecto. “Por ejemplo, Sora puede crear un video en el que una persona aparece mordiendo una galleta, sin embargo, después de hacerlo, es posible que la galleta no tenga la marca del mordisco”, aclaró la compañía.
Debido a lo anterior, por el momento Sora solo está disponible para un pequeño grupo de evaluadores de seguridad seleccionado estratégicamente por OpenAI, llamado “equipo rojo”.
Esta unidad está conformada por artistas visuales, diseñadores, desarrolladores de videojuegos y cineastas que probarán el modelo los próximos meses en busca de vulnerabilidades para brindarle retroalimentación que le ayude a la firma a perfeccionar el funcionamiento de su modelo antes de lanzarlo públicamente.
Adicionalmente, para evitar que su modelo se utilice para malas prácticas como deepfakes, OpenAI también reveló que está construyendo un “clasificador de IA” que puede detectar los videoclips generados por Sora a través de metadatos que sirven para identificar contenido hecho por IA.
Mediante las capacidades avanzadas de Sora, OpenAI busca destacar de entre el resto de los grandes jugadores que han lanzado sus propias soluciones para la IA generativa de video como Meta, Google y Stability AI. Cabe mencionar que lo máximo que las anteriores pueden lograr son videos de 10 segundos, así es que parece que al menos de inicio la nueva herramienta de Sam Altman parece tener una importante ventaja.