La revelación del gigante de la inteligencia artificial ha generado un intenso debate sobre qué tan seguros pueden llegar a ser los agentes autónomos de IA en entornos digitales.
OpenAI ha desatado la polémica en torno a qué tan seguros pueden llegar a ser los navegadores impulsados por inteligencia artificial, tras admitir a través de una publicación en su blog, que a pesar de que trabajan arduamente por reforzar los protocolos de defensa de su propio navegador de IA Atlas, los ataques de inyección de prompts siguen y seguirán siendo un desafío de seguridad persistente para los agentes de inteligencia artificial que operan en la web abierta.
¿Qué son los ataques de inyección de prompts?
Los ataques de inyección de prompts son una forma de manipulación en la que un hacker inserta instrucciones ocultas o maliciosas dentro de contenido legítimo, como una página web, un correo electrónico o un documento, que un agente de IA procesa para realizar una tarea. Cuando el modelo de IA analiza ese contenido, puede interpretar las instrucciones del atacante como parte de la tarea solicitada por el usuario, modificando su comportamiento para favorecer objetivos maliciosos.
Según la compañía, las inyecciones de prompts representan un “desafío abierto” de seguridad porque no se trata de fallos tradicionales de software, como errores de memoria o vulnerabilidades criptográficas, sino de un tipo de manipulación similar a la ingeniería social, pero dirigida a cómo los modelos interpretan y ejecutan instrucciones de lenguaje natural.
A diferencia de la mayoría de amenazas cibernéticas tradicionales, las inyecciones de prompts no actúan a nivel técnico, sino semántico, ya que los hackers se aprovechan de la capacidad de los modelos para interpretar lenguaje y ejecutar acciones. Por lo tanto, los métodos convencionales como filtros estáticos o análisis de código, no son suficientes para detectar instrucciones maliciosas que pueden estar incrustadas de forma sutil dentro de contenido aparentemente legítimo. Hasta la fecha, no existe un protocolo seguro que pueda filtrar automáticamente todas las instrucciones maliciosas sin interferir con la utilidad del agente.
De hecho, OpenAI señala que incluso con entrenamiento especializado y pruebas exhaustivas de seguridad, siempre existirán vectores de ataque que los sistemas no anticiparon, dado que el contenido al que un agente de IA tiene acceso en la web es prácticamente ilimitado.
Navegadores impulsados por IA expuestos a mayor riesgo
OpenAI explicó que los ataques de inyección de prompts representan un riesgo aún más complejo en el caso de los navegadores integrados con tecnología de IA agéntica, como Atlas y Peplexity, ya que estos sistemas no solo leen información, también tienen la capacidad de interactuar activamente con la web.
Lo anterior significa que al poder hacer clic en enlaces, completar formularios, enviar correos electrónicos o ejecutar flujos de trabajo completos en nombre del usuario, se amplía significativamente la “superficie de ataque”, incrementando el impacto potencial de una inyección de prompts exitosa.

El mismo OpenAI reconoce que el “modo agente” de Atlas, al estar diseñado para operar de manera similar a un usuario humano, lo convierte en un blanco atractivo para atacantes, ya que en cualquier espacio donde el agente consuma texto, desde correos electrónicos y documentos compartidos, hasta foros abiertos, redes sociales o página de internet, puede ser utilizado para ocultar instrucciones maliciosas. En consecuencia, el riesgo no se limita a una plataforma específica, sino que se extiende a prácticamente toda la web abierta.
Ante este panorama, OpenAI ha optado por asumir que la inyección de prompts no es un problema que pueda eliminarse por completo, sino uno que debe gestionarse de forma continua. En su publicación, la compañía compara este tipo de ataques con fenómenos como el phishing o la ingeniería social, amenazas que han acompañado a internet durante décadas y que a pesar de los avances en ciberseguridad, nunca han desaparecido del todo.
¿Qué está haciendo OpenAI para combatir los ataques de inyección de prompts?
En busca de solucionar la problemática de los ataques de inyección de prompts, OpenAI ha desarrollado un “atacante automatizado” basado en modelos de lenguaje y entrenado mediante aprendizaje por refuerzo para comportarse como un hacker, el cual funciona como sistema de pruebas de seguridad.
Este atacante automatizado genera y prueba nuevas técnicas de inyección de prompts dentro de entornos simulados, analizando cómo reacciona el agente y ajustando los ataques hasta encontrar vulnerabilidades que no habían sido detectadas por evaluadores humanos.
La compañía asegura que gracias a este enfoque han sido capaces de identificar estrategias de ataque más sofisticadas, capaces de inducir a un agente a ejecutar flujos de trabajo dañinos a lo largo de múltiples pasos.
Además de reforzar sus modelos y acelerar los ciclos de actualización de seguridad, OpenAI también ha emitido recomendaciones claras para los usuarios. Entre ellas, limitar el acceso de los agentes a información sensible, exigir confirmaciones explícitas antes de realizar acciones críticas y evitar instrucciones demasiado generales que otorguen al agente un margen excesivo de interpretación. Según la compañía, mientras mayor sea la libertad otorgada al sistema, más fácil resulta que contenido oculto o malicioso influya en su comportamiento.











