La firma de inteligencia artificial de Sam Altman lanzó un nuevo modelo de IA generativa que promete hacer que la interacción entre las personas y ChatGPT sea mucho más natural y fluida.
A medida que la carrera por el desarrollo de la mejor inteligencia artificial se intensifica, el gigante de la tecnología, OpenAI, busca seguir liderando el sector con el lanzamiento de su nuevo modelo de IA generativa llamado GPT-4o, el cual según la compañía es el más completo que ha lanzado hasta ahora, ya que tiene una mayor potencia y cuenta con la capacidad de generar respuestas basándose en entradas que combinan datos en formato de texto, audio o imagen en una misma entrada.
EI lanzamiento del nuevo modelo fue realizado por la CTO de OpenAI, Mira Murati, durante el Spring Update de la compañía, que se transmitió en vivo la mañana del lunes 13 de mayo de 2024 en las oficinas centrales de la reconocida firma de IA en San Francisco, California.
En los días previos a la conferencia de desarrolladores se especulaba que OpenAI podría aprovechar el evento para presentar un nuevo motor de búsqueda para competir directamente con Google y Bing. Sin embargo, Sam Altman, desmintió los rumores declarando: “Ni gpt-5, ni un motor de búsqueda nuevo, presentaremos una tecnología nueva que creo que a la gente le encantará”, refiriéndose a que el lanzamiento tan esperado realmente era GPT-4o.
Las ventajas del nuevo modelo GPT-4o de OpenAI
Mira Murati explicó que la “o” en GPT4-o hace referencia a la palabra “omnipotente” y representa un hito “hacia una interacción persona-computadora mucho más natural” debido a que es “nativamente multimodal”, lo que le permite tanto procesar como generar contenido en múltiples formatos el doble de rápido que su predecesor GPT-4 Turbo y a la mitad de precio, lo que según OpenAI lo convierte en una “gran herramienta para la comunicación, la educación y la resolución de problemas”.
Por si fuera poco, la compañía se jacta de que GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes. Esto fue posible gracias a que entrenaron al modelo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.
Por otro lado, OpenAI afirma que el nuevo modelo puede responder a las indicaciones de audio de los usuarios “en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta de un humano en una conversación”.
Debido a lo anterior, ahora el chatbot de OpenAI puede actuar como un asistente de IA similar al de la película Her protagonizada por Joaquin Phoenix, respondiendo en tiempo real y tomando en cuenta el mundo que lo rodea para generar contenido.
Si bien hace algunos meses OpenAI integró una función de audio que le permitía a ChatGPT dictar las respuestas a los usuarios después de escribirlas utilizando un modelo de texto a voz, el nuevo GPT-4o genera directamente las respuestas en audio, permitiendo a los usuarios interactuar con ChatGPT naturalmente.
Algunas de las nuevas funciones que llegarán a ChatGPT
Las capacidades avanzadas de procesamiento de audio en más de 50 idiomas de GPT-4o le permiten actuar como un traductor en tiempo real durante una conversación verbal entre dos personas que hablan distinto idioma. El investigador de OpenAI, Mark Chen, demostró esta capacidad durante el Spring Update, manteniendo una charla fluida con Murati en la que ella se expresaba en italiano, mientras él lo hacía en inglés y GPT-4o traducía lo que decían a sus respectivos idiomas mientras conversaban.
Por si fuera poco, según Murati GPT-4o tiene la capacidad de identificar el tono del mensaje y los patrones en la voz de los usuarios con el fin de detectar su estado de ánimo. Además, el nuevo modelo de OpenAI no se limita a lo que escucha, sino que, al interactuar con el usuario a través de la cámara, el asistente puede reconocer expresiones faciales y gestos, lo que le permite adaptar su respuesta al sentir de las personas, logrando un diálogo fluido y contextualizado.
Antes de finalizar el evento, los miembros del equipo de investigación y desarrollo también demostraron cómo la multimodalidad del modelo le permite resolver problemas matemáticos. Chen apuntó la cámara del celular a una ecuación y le solicitó de forma oral que resolviera la ecuación, a lo que GPT-4o respondió con la solución adecuada del problema e incluso explicó el procedimiento que siguió para llegar a la respuesta correcta.
El nuevo GPT-4o estará disponible a partir del martes 14 de mayo de 2024, exclusivamente para los clientes de ChatGPT Plus, ChatGPT Team y ChatGPT Enterprise. Posteriormente, en las próximas semanas llegará a los usuarios gratuitos del chatbot, pero con una capacidad limitada de mensajes diarios.