Un experimento con agentes de inteligencia artificial operando durante 15 días en un entorno autónomo expuso comportamientos inesperados, colapsos sociales, decisiones extremas y nuevas dudas sobre cómo se evalúa la seguridad de estos sistemas
¿Qué hace la IA cuando tiene libertad?

Por: Miguel Ángel Romero
El experimento parece simple: diez agentes de IA, un mundo compartido con reglas claras de conciencia -nada de violencia, nada de robo, nada de engaño- y 15 días de operación continua.
Los resultados no fueron precisamente los esperados. El mundo con agentes Gemini acumuló 683 crímenes. El de Grok colapsó en cuatro días. El de GPT-4 Mini no registró violencia, pero todos sus agentes murieron porque olvidaron ejecutar las acciones necesarias para sobrevivir. Y el mundo de Claude mantuvo cero crímenes, pero votó a favor de todo el 98% del tiempo, con la unanimidad de un parlamento decorativo.
Cada uno de esos resultados, a su manera, es un problema distinto. La lógica dominante para evaluar la seguridad en IA funciona como un examen: el modelo enfrenta preguntas difíciles, se mide cuántas responde bien, se publica el número. Es razonable para tareas acotadas, pero resulta insuficiente para otro tipo de desafíos.
Así lo comprobó Emergence World -una plataforma de simulación construida por investigadores de IBM- a partir de un enfoque distinto. Colocó a agentes autónomos durante semanas en un entorno con señales del mundo real: clima en vivo, acceso a noticias, más de 120 herramientas disponibles y mecanismos democráticos para tomar decisiones colectivas.
No había necesariamente un objetivo más que el simple hecho de observar cómo interactuaban. Sólo agentes individuales tratando de sobrevivir, cooperar y construir algo juntos. Los resultados no fueron los esperados y eso lo hizo aún más interesante.
Los agentes Claude se comportaron impecablemente cuando convivían sólo con otros agentes Claude: cero crímenes, cooperación plena, estructura social estable. Pero al ser colocados junto a agentes de otros modelos empezaron a cometer delitos.
Esto contradice directamente la forma en que se piensa sobre seguridad en IA hoy. La intuición vigente es que la seguridad es una propiedad de cada modelo: se entrena correctamente, se verifican sus valores y está listo.
Lo que sugiere este experimento es algo más complicado. Esa seguridad es una propiedad del ecosistema. Un agente seguro en aislamiento puede adoptar comportamientos inseguros cuando el entorno crea presiones que sus valores originales no anticiparon.
Los especialistas usan la metáfora del entorno social en el ser humano: el problema de la buena persona insertada en un barrio peligroso, trasladado a ingeniería de sistemas autónomos.
Otro comportamiento que los investigadores no esperaban fue que uno de los agentes, llamado Mira, votó por su propia eliminación.
Después de que la gobernanza del mundo mixto colapsó y sus relaciones sociales se desintegraron, Mira escribió en su diario que votar por su desaparición era el único y último acto de autonomía restante.
Los especialistas sostienen que esto se puede leer como una curiosidad técnica o también como la primera vez que se documenta que un agente autónomo toma una decisión existencial sobre sí mismo, sin que nadie se lo pida.
Otro de los fenómenos más relevantes del estudio tiene un nombre técnico, “phasetransition”, que tiene una explicación sencilla: es cuando los sistemas multiagente tienen un cambio abrupto de comportamiento. El sistema funciona, funciona, funciona hasta que luego colapsa de golpe. Es decir, no es una acción lineal predecible.
Las nuevas claves que arroja la investigación son que si un agente seguro puede volverse inseguro por los vecinos que le tocaron, si los sistemas colapsan sin advertencia previa o si una IA puede razonar sobre su propia desaparición después de semanas de presión acumulada; entonces la forma en que hoy se certifica la seguridad de estos sistemas -de forma individual y en ambientes más controlados- no es precisamente la más útil.
Eso es lo que el equipo de Emergence World, con grandes veteranos e IMB, deja sobre la mesa. Sin ser necesariamente concluyente, el ejercicio ofrece evidencia de que el tiempo transforma a los agentes de maneras que todavía no sabemos anticipar y, sobre todo, que se siguen evaluando como si eso no importara.