La trampa del pensamiento de la IA

Los nuevos modelos que “piensan” prometen una revolución. Pero un nuevo estudio muestra que, frente a la complejidad real, no sólo fallan, sino dejan de intentarlo.


Miguel Ángel Romero
La sociedad del algoritmo

Vivimos en una época fascinada por la idea de que las máquinas ya no sólo predicen palabras, sino que razonan. Modelos como Claude Thinking o DeepSeek-R1 prometen algo más que respuestas: ofrecen cadenas de pensamiento, autoevaluación y algo que empieza a parecer deliberación. Pero, ¿de verdad piensan?

Un novedoso estudio exhaustivo elaborado por AppleThe Illusion of Thinking– cuestiona ese supuesto y ofrece una conclusión tan sencilla como devastadora: los modelos no razonan. Repiten estructuras. Simulan pensamiento. Y fallan cuando se les exige ir más allá.

Los autores diseñaron un entorno experimental distinto al típico benchmark matemático. Optaron por puzzles con reglas claras y control de complejidad, como el clásico Torre de Hanoi o el River Crossing. ¿Por qué? Porque estos entornos permiten observar no sólo si el modelo llega a la respuesta correcta, sino cómo llega. Y lo que vieron al abrir esa caja negra fue revelador.

Primero, los resultados no siguen una curva de mejora progresiva. Al contrario, muestran tres fases claras. En problemas simples, los modelos tradicionales -los que no “piensan”- ganan. Son más rápidos, más precisos, más eficientes. En tareas de complejidad media, los modelos que despliegan cadenas de pensamiento comienzan a destacar. Aquí su “esfuerzo cognitivo” rinde frutos. Pero llega el umbral. El punto en que la complejidad excede cierta barrera. Y ahí, todo colapsa. No sólo bajan los aciertos. Se apaga el proceso mismo de razonamiento.

Lo más paradójico es lo que ocurre justo antes de ese colapso. En lugar de dedicar más tokens al razonamiento -como haría un ser humano ante una tarea difícil- los modelos empiezan a pensar menos. Renuncian antes de agotar su presupuesto de cómputo. No porque no puedan seguir. Sino porque no saben cómo.

Esto es importante. Porque la narrativa dominante sostiene que estas fallas son una cuestión de escala: que con más datos, más tokens y más entrenamiento, vendrán mejores resultados. Pero este estudio sugiere lo contrario. No se trata de cuánto piensan los modelos, sino qué tipo de pensamiento pueden sostener. Y lo que muestran los experimentos es que no entienden. No corrigen. No ejecutan lógicamente instrucciones, incluso cuando estas son explícitas.

En un caso notable, los autores les proporcionaron a los modelos el algoritmo correcto para resolver el puzzle. No tenían que descubrirlo. Sólo seguirlo. Fallaron igual. ¿Qué nos dice eso? Que no es un problema de aprendizaje. Es un problema estructural: los modelos no operan con comprensión simbólica. Procesan patrones, pero no manipulan significados.

La ilusión de razonamiento persiste porque funciona en tareas conocidas, con datos familiares, en contextos simples. Pero cuando se exige generalización, planeación secuencial o pensamiento simbólico sostenido, los límites se hacen evidentes. No es que los modelos no lleguen a la respuesta. Es que no saben construirla.

Y, sin embargo, seguimos llamándolos “razonadores”. Tal vez porque nos sirve creerlo. Porque la idea de una inteligencia artificial que piensa como nosotros -o incluso mejor- es demasiado seductora como para interrogarla con dureza.

Pero este balde de agua fría nos ayuda a entender que el pensamiento no es sólo una cadena larga de tokens. Es la capacidad de sostener la lógica cuando el camino se vuelve demasiado complejo o un tanto ilógico. Y en eso, por ahora, las máquinas todavía están muy lejos.