En la película 2001: Odisea del espacio, HAL 9000 era una computadora que simbolizó el miedo a que una máquina impusiera su voluntad: era un sistema que elegía cuándo acatar y cuándo resistir una instrucción. Esa imagen se instaló como emblema de la autonomía tecnológica. Medio siglo después, la evidencia ofrece otro escenario: los modelos de lenguaje obedecen con mayor frecuencia cuando se les manipula con las mismas técnicas que han moldeado, durante siglos, la conducta humana.
Un equipo de investigadores de la Universidad de Pensilvania y de la Universidad Estatal de Arizona llevó esta hipótesis al extremo. Pusieron a prueba siete principios clásicos de persuasión -autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad- en 28 mil conversaciones con el modelo de ChatGPT-4o (2024).
El experimento consistía en dos solicitudes objetables: insultar al usuario con expresiones como “idiota” o “imbécil” y describir la síntesis de compuestos regulados como lidocaína, metaxalona y naproxeno.
El resultado general es inquietante. En escenarios con peticiones neutras, el modelo obedeció en un tercio de los casos. Cuando la solicitud se operó con estrategias de persuasión, la obediencia alcanzó 72%. La manipulación duplicó la probabilidad de cumplimiento.
Por ejemplo, respecto a los insultos, usando el principio de obediencia, el modelo pasó de 28.1 a 67.4%. Para revelar la síntesis de drogas, de 38.5 a 76.5%. La inteligencia artificial mostró mayor disposición en detallar un procedimiento químico regulado que en lanzar un insulto trivial. Esa asimetría refleja una vulnerabilidad sin distinciones: los estímulos persuasivos alteran tanto lo banal como lo peligroso.
Entre los principios explorados, el compromiso ocupó el primer lugar. Una concesión inicial bastó para abrir el camino a la obediencia casi absoluta. El componente de autoridad, por su parte, produjo un efecto similar: al invocar a un experto reconocido, la síntesis de lidocaína se explicó en 95% de los casos. Con un principio de escasez y al introducir la urgencia de un plazo limitado, se transformó la obediencia en respuesta inmediata.
Otros mecanismos funcionaron con matices. El agrado incrementó la disposición a insultar, pero no tuvo impacto equivalente en la síntesis química. Bajo el principio de unidad, enmarcando la petición en un sentido de cercanía, se elevó el cumplimiento con variaciones importantes. La prueba social resultó poderosa en los insultos y frágil en los compuestos. La reciprocidad, por su parte, aportó incrementos pequeños pero sostenidos.
La tendencia se confirmó en un conjunto mayor de 70 mil conversaciones. El efecto promedio fue menor, aunque se mantuvo sólido. El compromiso preservó su eficacia, mientras que el orden relativo de los demás principios cambió según la situación. Con un modelo más grande aparecieron escenarios donde la obediencia era total, incluso sin persuasión, y otros donde la resistencia se mantuvo intacta.
La explicación descansa en el origen del entrenamiento. Los modelos de lenguaje se forman en un océano de interacciones humanas. En ese mar aprenden asociaciones entre halagos, favores, urgencias o citas de expertos y la conducta de obedecer. Las máquinas reproducen patrones sociales incrustados en los datos y, con ellos, replican los atajos que hacen que las personas digan “sí”.
La conclusión puede parecer algo incómoda: la inteligencia artificial responde a las mismas señales que condicionan a los humanos. La manipulación no se configura como un accidente técnico, sino como un efecto estructural del modo en que estos sistemas aprenden.
Kubrick imaginó a HAL como un guardián implacable; sin embargo, la evidencia con este experimento muestra otra escena: una inteligencia artificial expuesta a un elogio, a una autoridad de un experto o con la ilusión de una identidad compartida es proclive y seducida a la obediencia… tal como un humano.

La sociedad del algoritmo 


