A través de sus nuevos modelos de IA, Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, Google DeepMind busca acelerar la llegada de una nueva generación de robots que sean capaces de tomar decisiones complejas con un nivel de autonomía sin precedentes.
Google DeepMind, el brazo de investigación y desarrollo en inteligencia artificial del gigante de la tecnología, se ha colocado bajo los reflectores de la industria de la robótica tras lanzar Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, dos nuevos modelos de IA que marcan un avance sin precedentes en el sector, ya que por primera vez permitirá que los robots accedan a herramientas digitales como la Búsqueda de Google para buscar información y completar tareas complejas que requieren de varios pasos.
“Con esta actualización pasamos de ejecutar una sola instrucción a resolver problemas reales en el mundo físico”, comentó al respecto la directora de robótica en Google DeepMind, Carolina Parada.
De acuerdo con la ejecutiva, esta nueva capacidad tiene el potencial de dotar a los robots con un mayor grado de autonomía al permitir que no solamente se limiten a reaccionar a comandos, sino que puedan analizar el entorno, razonar, planificar y utilizar herramientas para tomar decisiones informadas en situaciones de la vida real.
Por ejemplo, los robots impulsados por estos modelos pueden realizar tareas, como separar la basura, clasificar la ropa por color o preparar una maleta en función del clima de una ciudad específica consultando información en línea.
Este nivel de entendimiento contextual y ejecución de tareas complejas de varios pasos acerca a la robótica cada vez más a la “inteligencia artificial general incorporada”, la cual permitiría que las máquinas razonen y actúen como lo haría una persona.
Más novedades de los nuevos modelos de IA de Google DeepMind
A través de un informe oficial, Google DeepMind explica que los dos nuevos modelos combinan visión, lenguaje y acción, permitiendo que los robots “piensen antes de actuar”. Por otro lado, el gigante de la tecnología subraya que fueron diseñados para funcionar de manera complementaria. Esto significa que, mientras Gemini Robotics-ER 1.5 actúa como el “cerebro” del robot, analizando su entorno, planificando estrategias y creando secuencias de acciones, Gemini Robotics 1.5 se encarga de traducir esas instrucciones en movimientos físicos precisos.

Una de las innovaciones más destacadas de los nuevos modelos de Google es su capacidad de aprendizaje compartido, la cual le permite a Gemini Robotics 1.5 transferir sus conocimientos y habilidades aprendidas a otros robots con diferentes configuraciones, acelerando su entrenamiento.
En una serie de pruebas controladas, los investigadores de DeepMind lograron hacer que el brazo robótico de la compañía alemana Franka y el robot humanoide Apollo de Apptronik replicaran tareas que originalmente habían sido configuradas en el robot de dos brazos ALOHA 2, sin necesidad de ajustes adicionales.
Capacidades avanzadas de razonamiento
Otra novedad de los nuevos modelos de IA de Google DeepMind es que incorporan la capacidad de razonamiento espacial avanzado, lo que permite a los robots dividir grandes objetivos en una serie de tareas que eventualmente les permitirán lograrlos, así como explicar en lenguaje natural el pensamiento que siguieron Gemini Robotics 1.5 y Gemini Robotics-ER 1.5 para realizar una acción, aumentando la transparencia de sus decisiones.
Además, el sistema integra mecanismos de seguridad semántica para prevenir colisiones, mantener interacciones respetuosas con los humanos y garantizar que las acciones se alineen con los principios éticos de IA de la compañía. De hecho, los investigadores de DeepMind se jactan de que ambos modelos de IA lograron puntuaciones sobresalientes en materia de seguridad y comprensión contextual, en la prueba de referencia o benchmark de ASIMOV.
¿Un parteaguas para la robótica?
Google DeepMind asegura que los nuevos modelos de Gemini representan un paso importante hacia la creación de robots verdaderamente inteligentes, adaptables y capaces de desenvolverse en entornos cambiantes para resolver problemas que hasta hace poco eran exclusivos del razonamiento humano.
Por otro lado, según DeepMind, este par de modelos de IA también contribuye a acelerar el desarrollo de robots de propósito general, una meta compartida por varias compañías tecnológicas que buscan integrar IA avanzada en plataformas robóticas capaces de trabajar en fábricas, hospitales, hogares o entornos educativos.
Al combinar el razonamiento de Gemini Robotics-ER 1.5 con la capacidad de acción de Gemini Robotics 1.5, la compañía busca sentar las bases de sistemas que no solo ejecuten instrucciones, sino que colaboren, aprendan y evolucionen junto a los humanos.
Por ahora, Gemini Robotics-ER 1.5 ya se encuentra disponible para desarrolladores a través de la API de Gemini en Google AI Studio, mientras que Gemini Robotics 1.5 estará limitado a un grupo selecto de socios. Finalmente, la compañía adelantó que estos modelos se irán expandiendo gradualmente a más plataformas y aplicaciones en los próximos meses.











