¿Qué tan inteligente es tu IA?

El IQ promedio de un humano está entre 90 y 110. OpenAI o3 obtuvo 135… no sorprende. ¿Pero cómo se mide su “inteligencia” y quiénes están a la vanguardia?


Miguel Ángel Romero
La sociedad del algoritmo

Cuando escuchamos que una IA ha obtenido un IQ de 135, lo intuitivo es imaginar una clase de supermente digital. Algo parecido a un genio que no duerme, que procesa información a velocidades inhumanas y que -de algún modo- está pensando. Pero eso es precisamente lo que necesitamos cuestionar. Porque no está nada claro que esas máquinas realmente estén pensando. Lo que está claro es que han aprendido a pasar pruebas de manera sistemática.

La prueba que colocó a OpenAI o3 en la cima fue diseñada por Mensa Noruega. A diferencia de otros test de inteligencia, no involucra lenguaje, conocimiento cultural ni matemática avanzada. Se basa en secuencias visuales: formas geométricas, patrones lógicos, analogías abstractas. Resolverla es como armar un rompecabezas con piezas que no has visto antes. Es una medida de habilidad pura para detectar relaciones, no de sabiduría enciclopédica.

OpenAI o3 obtuvo 135, muy por encima del promedio humano, que oscila entre 90 y 110. Le siguieron Claude‑4 Sonnet (127), Gemini 2.0 Flash (126) y otros modelos similares. Y aquí es donde el dato se vuelve interesante: todos los que lideran son modelos de texto. Sin visión. Sin imágenes. Sólo palabras.

Uno pensaría que agregar capacidades -ver, leer, hablar- haría al sistema más completo. Pero cuando los modelos incluyen visión, sus resultados se desploman. GPT‑4o con visión apenas alcanzó 63 puntos. Grok‑3 Think (Vision) llegó a 60. En términos humanos, esto estaría por debajo del umbral de inteligencia promedio.

¿Por qué sucede? La respuesta no está en la falta de poder de cómputo, sino en la dificultad de la tarea. Integrar lenguaje e imagen no es sumar dos canales. Es orquestar dos formas de representación radicalmente distintas. Es como pedirle a alguien que resuelva un sudoku mientras cocina para diez personas. El costo cognitivo de hacer ambas cosas a la vez todavía abruma a las arquitecturas actuales.

Pero incluso los mejores modelos lingüísticos enfrentan una crítica más profunda. Un estudio reciente, titulado “The Illusion of Thinking”, elaborado por Apple y referido ya con anterioridad en este espacio, sugiere que estos sistemas no razonan como creemos. Para probarlo, los investigadores diseñaron rompecabezas completamente nuevos, imposibles de resolver mediante simple estadística o memoria entrenada. ¿El resultado? En cuanto se elevaba la complejidad, la precisión caía a cero.

Esto plantea una idea incómoda: que la aparente inteligencia de estos modelos es, en gran parte, una ilusión. No están entendiendo el mundo. Están prediciendo qué viene después. Y cuando el patrón desaparece, se pierden.

Ahora bien, para quienes trabajan con IA en el mundo real, estos resultados no son sólo filosóficos. Son prácticos. Si tu aplicación se basa en texto -resúmenes, generación de ideas, clasificación de contenido-, modelos como o3 pueden ofrecer ventajas claras. Pero si la tarea incluye imágenes, interpretación visual o contextos más abiertos, los modelos actuales todavía tropiezan.

También emerge otra lección: la importancia de elegir el modelo correcto para el trabajo correcto, de combinar sistemas especializados en vez de esperar que uno solo lo haga todo, y de documentar cómo llegan a sus respuestas. Porque a medida que las IA se vuelven más persuasivas, también se vuelve más peligroso asumir que entienden lo que hacen.

Entonces, ¿qué nos dice el IQ de una IA? Que puede jugar bien a ciertos juegos. Que es buena en ciertas pruebas. Pero pensar -de verdad pensar- implica algo más que resolver acertijos. Implica tener una razón para resolverlos. Y en eso, por ahora, afortunadamente, seguimos solos.