La inteligencia artificial suele presentarse como una herramienta capaz de apoyar casi cualquier actividad humana. En medicina, esa promesa comienza a materializarse con mayor claridad. Una resonancia magnética cerebral concentra cientos de imágenes, cada una cargada de información clínica que requiere experiencia, contexto y criterio para interpretarse con precisión. Evaluar cómo responden los modelos de lenguaje más avanzados ante este desafío ofrece una ventana reveladora sobre el estado actual de la tecnología y sobre el tipo de decisiones sobre las que ya empieza a influir.
Un estudio reciente publicado en una revista especializada evaluó a tres modelos de inteligencia artificial –GPT-4o, Gemini y Grok– utilizando más de 35 mil cortes reales de resonancias cerebrales. Las imágenes correspondían tanto a pacientes sanos como a personas con diversas patologías neurológicas.
A cada modelo se le asignaron dos tareas fundamentales: identificar la presencia de alteraciones y reconocer la secuencia de resonancia utilizada. El diseño experimental prescindió de ajustes previos, entrenamiento específico o información clínica adicional. Los sistemas enfrentaron las imágenes bajo las mismas condiciones en las que hoy operan en entornos reales.
Los resultados muestran desempeños diferenciados. Gemini alcanzó el mejor rendimiento en la identificación de patología. Grok destacó por su sensibilidad al procesar las imágenes, aunque tendió a clasificar un número elevado de estudios como anormales. GPT-4o adoptó un enfoque más conservador y omitió respuestas en una proporción considerable de imágenes normales. Estas diferencias permiten observar cómo cada arquitectura gestiona la ambigüedad, distribuye el riesgo y responde frente a la incertidumbre clínica.
Para dimensionar el alcance de estos hallazgos conviene atender una métrica clave de utilidad médica: la certeza diagnóstica. Ninguno de los modelos superó el 60%. En términos prácticos, la capacidad para distinguir con consistencia entre estudios normales y patológicos permanece acotada.
En contraste, los sistemas diseñados y entrenados exclusivamente para resonancia magnética cerebral alcanzan precisiones cercanas al 98%. Esta brecha expresa algo más profundo que una diferencia técnica: revela dos formas distintas de construir inteligencia artificial y de asignarle funciones dentro del ecosistema sanitario.
Los modelos generalistas se entrenan con información heterogénea -lenguaje, imágenes, documentos y conversaciones-. Esa amplitud les permite explicar, sintetizar y conectar ideas con fluidez. Cuando analizan una resonancia, aplican una comprensión visual amplia basada en correlaciones generales.
Los modelos especializados siguen una lógica distinta. Su aprendizaje se concentra en una sola esfera de dominio y cada parámetro se ajusta para optimizar el desempeño clínico.
Este contraste conduce a una pregunta más amplia: ¿qué papel deben desempeñar los modelos de lenguaje en contextos de alto riesgo? La evidencia empírica apunta hacia una función definida: intermediación en salud.
Herramientas capaces de integrar datos, priorizar información relevante y traducir resultados técnicos en explicaciones comprensibles para médicos y pacientes. La responsabilidad clínica permanece asociada al criterio humano y a sistemas entrenados específicamente para tomar decisiones diagnósticas.
En ese sentido, el desarrollo y la regulación futura favorecen arquitecturas híbridas: modelos especializados que analizan la imagen y modelos de lenguaje que contextualizan los resultados, explican escenarios y facilitan la comunicación clínica. La potencia y utilidad emerge de la integración entre precisión técnica y capacidad explicativa, no de la sustitución de uno por otro.
La discusión de fondo gira en torno a la forma en que la inteligencia artificial observa imágenes médicas y cómo dicho proceso orienta decisiones reales. Cada modelo encarna una manera distinta de distribuir poder entre cálculo, prudencia y juicio humano.
Regular esta tecnología implica definir qué sistemas influyen en la vida de las personas, bajo qué condiciones y con qué mecanismos de rendición de cuentas. En medicina, la inteligencia artificial comienza a operar como una herramienta común. Su legitimidad dependerá de reglas claras, límites explícitos y una responsabilidad proporcional a su impacto. Veremos su evolución.

La sociedad del algoritmo 

