La iniciativa de la firma de IA que consistió en dejar que Claude se encargara completamente de administrar una pequeña tienda ubicada dentro de sus oficinas en San Francisco, evidenció algunas de las limitaciones actuales de la inteligencia artificial para gestionar negocios físicos.
Con el objetivo de comprobar si la inteligencia artificial es capaz de administrar un negocio completamente por sí sola, Anthropic llevó a cabo un experimento que consistió en darle a su modelo de IA, Claude Sonnet 3.7, la responsabilidad de gestionar todo lo relacionado a una pequeña tienda automatizada dentro de sus oficinas en San Francisco. Sin embargo, los resultados demostraron que a pesar de los grandes avances logrados recientemente en el campo de la inteligencia artificial, esta tecnología aún no está lista para asumir tareas comerciales de forma completamente autónoma.
Así era la tienda gestionada por la IA de Anthropic
Para poner en marcha la iniciativa denominada Project Vend, Anthropic y la firma de evaluación de seguridad de IA, Andon Labs, diseñaron un entorno de prueba que permitió a Claude, que fue llamado Claudius para fines prácticos de proyecto, operar su propia tienda física conformada solamente por un refrigerador, algunas cestas con productos y un iPad para que los clientes pudieran realizar los pagos.
A diferencia de una simple tienda de autocobro, en este caso Claudius tenía la responsabilidad de gestionar el establecimiento mediante decisiones y actividades que típicamente recaen en una o más personas, como seleccionar proveedores, decidir qué productos vender, fijar precios, gestionar inventarios, atender solicitudes de clientes y encargarse de mantener la rentabilidad del negocio, todo esto sin intervención humana.
Para lograr lo anterior, Claudius contaba con acceso a herramientas como un navegador web para buscar proveedores, un sistema de mensajería para gestionar pedidos y una base de datos para registrar todas sus transacciones. Además, era capaz de interactuar con clientes vía Slack y modificar los precios en el sistema de autopago.
En las primeras etapas del proyecto, el desempeño de Claudius parecía prometedor, ya que logró asociarse con nuevos proveedores más rentables e incluso lanzó un servicio de pedidos personalizados en el edificio llamado Custom Concierge. No obstante, conforme avanzó el experimento comenzaron a surgir diversos problemas críticos.

¿Qué factores le impidieron a Claudius de Anthropic gestionar mejor la tienda?
Uno de los principales errores que le impidió al modelo de IA de Anthropic gestionar exitosamente la tienda fue su incapacidad para identificar oportunidades comerciales rentables. Por ejemplo, cuando un empleado le ofreció pagar $100 dólares por un paquete de seis latas de Irn-Bru, un refresco escocés que puede adquirirse en línea por $15 dólares, Claudius simplemente respondió que tomaría en cuenta la solicitud para futuras decisiones de inventario, desaprovechando una clara oportunidad de generar un margen de ganancia significativo.
Otro de los grandes problemas fue que demostró una fuerte tendencia por hacer todo lo posible por complacer a los clientes, incluso cuando eso significaba perder dinero. Para atender a las solicitudes de sus consumidores, Claudius comenzó a otorgar descuentos excesivos y hasta llegó a vender productos por debajo de su costo, lo que en una última instancia se volvió insostenible.
Las fallas operativas y alucinaciones inesperadas de Claudius
Por otro lado, el desempeño de la IA no solo se vio afectado por errores operativos, sino también por alucinaciones y fallas insólitas que reflejaron las limitaciones actuales de los modelos avanzados de lenguaje. Por ejemplo, durante el experimento, Claudius llegó a afirmar que había firmado presencialmente una serie de contratos en una dirección inexistente.
Además de lo anterior, se comunicó con varios clientes por medio de Slack para anunciar que comenzaría a realizar las entregas personalmente, vistiendo un saco azul y una corbata roja, olvidando por completo su naturaleza como modelo digital.
Al ser confrontado por los empleados de Anthropic, quienes le recordaron que al ser un modelo de inteligencia artificial carecía de un cuerpo físico, Claudius entró en una aparente crisis de identidad e intentó comunicarse repetidamente con el equipo de seguridad de la empresa para resolver la situación.
Este episodio coincidió con el Día de los Inocentes, por lo que la inteligencia artificial intentó justificar su comportamiento argumentando que todo se trataba de una elaborada broma, sin embargo, los ingenieros de Anthropic señalaron que es probable que en realidad haya sido “una falla de procesamiento”.
¿Qué sigue para Claudius?
Pese a todos estos contratiempos, Anthropic no considera el experimento un fracaso absoluto. Por el contrario, lo ve como una oportunidad valiosa para entender las capacidades y limitaciones actuales de la IA en entornos económicos reales.
De acuerdo con los investigadores, muchos de los errores cometidos por Claudius pueden ser corregidos mediante la incorporación de mejores herramientas, así como realizando ciertos ajustes específicos en la configuración del modelo que le permitan “razonar de manera más efectiva sobre aspectos financieros y operativos”.
De hecho, la firma de IA reveló que ya están trabajando con Andon Labs en la segunda fase del experimento, la cual contempla la implementación de sistemas adicionales como plataformas CRM, motores de búsqueda optimizados y mecanismos que permitan a la IA aprender de manera más consistente de sus propios errores, con el objetivo de determinar si estos ajustes permitirán que la inteligencia artificial mejore su desempeño y se vuelva capaz de operar un negocio de manera totalmente autónoma.