En febrero de 2026 pasaron tres cosas en la intersección entre IA y ciencia que, vistas juntas, dicen algo que ninguna por separado puede decir: que la IA no está “ayudando” a los científicos como el autocomplete ayuda al redactor. Está ocupando un rol específico en la cadena del descubrimiento, y ese rol ya se puede describir con cierta precisión.
El campo todavía tiene mucho hype. Pero febrero dejó señales reales.
GPT-5.2 conjeturó una fórmula que ningún humano había visto
Un equipo de físicos del Institute for Advanced Study, Vanderbilt, Cambridge y Harvard publicó un preprint con un resultado nuevo en física de partículas: ciertos amplitudes de dispersión de gluones —que todos asumían que se anulaban a nivel de árbol— en realidad son distintas de cero en un régimen kinético específico llamado “half-collinear”.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀El resultado en sí importa, pero lo que vale la pena entender es el proceso: los humanos calcularon amplitudes para pequeños valores de n de forma manual —expresiones de complejidad superexponencial. GPT-5.2 Pro simplificó esas expresiones, detectó un patrón en los casos base, y conjeturó una fórmula cerrada válida para todo n. Luego, una versión con andamiaje del mismo modelo derivó de forma independiente la misma fórmula y produjo una prueba formal tras aproximadamente 12 horas de razonamiento.
¿Qué hizo el modelo exactamente? Reconocimiento de patrones sobre output simbólico estructurado. No identificó el problema ni el régimen kinético interesante —eso lo hicieron los físicos, apoyándose en trabajo previo de Witten, Roiban, Spradlin y Volovich. Pero la fórmula simplificada, la conjetura concreta, salió del modelo. Y eso habilitó trabajo adicional: los autores reportan que amplitudes de gravitones ya se calcularon usando el mismo enfoque.
El valor no está en el “AI solved physics”. Está en que pattern recognition over complex symbolic output es una capacidad que ahora existe, y la física teórica tiene mucha expresión simbólica compleja que esconde formas simples.
First Proof: el benchmark más honesto que ha visto el campo
Un grupo de matemáticos de Stanford, Columbia, EPFL, Imperial College, UT Austin, Yale, Berkeley, Chicago, Harvard y otras instituciones construyó First Proof: diez problemas de matemática de nivel investigación cuyas soluciones son conocidas por los autores pero no han sido publicadas. Los problemas abarcan combinatoria algebraica, teoría espectral de grafos, topología algebraica, análisis estocástico, geometría simpléctica, teoría de representaciones.
La propiedad clave: estos problemas están muestreados de la distribución real de preguntas que los matemáticos activos están resolviendo hoy. No benchmarks fabricados, no problemas de competencia, no réplicas de lo que ya estaba en el entrenamiento.
OpenAI corrió un modelo interno contra el desafío y reportó 6/10 correctos. Aquí el número importa menos que los matices: algunas soluciones ya habían sido encontradas por GPT-5.2 Pro antes de que se publicara el benchmark, complicando el encuadre de “problema no visto”. Y al menos un prompt incluía guía matemática sustantiva —como “intenta un argumento tipo barrera BSS”— que reduce significativamente el espacio de búsqueda. La diferencia entre “IA resuelve problema” y “IA ejecuta una estrategia de prueba bien insinuada” es enorme.
Pero First Proof importa igual. Es el intento más serio hasta ahora de evaluar creatividad científica real, no competencia en tareas conocidas. El debate sobre si los LLMs pueden hacer ciencia nueva necesitaba un benchmark así para tener dientes.
SAIR: Terence Tao funda una institución para lo que compute no resuelve
La Foundation for Science and AI Research (SAIR) lanzó en febrero de 2026 con Terence Tao como cofundador, junto al Premio Nobel Barry Barish, el Premio Turing Richard Sutton, y líderes de Amazon AWS, Microsoft Research, NVIDIA y OpenAI.
La tesis: alcanzar IA más capaz requiere escalar nuestra comprensión científica de la inteligencia, no solo los parámetros del modelo. El argumento es que los modelos actuales son como bombillas incandescentes —más brillantes con más potencia, pero fundamentalmente limitadas sin la ciencia de materiales que hizo posible los LEDs. Derivar leyes de escalado desde primeros principios, de la manera en que la física deriva la dinámica de fluidos de las interacciones de partículas, sigue siendo un problema abierto.
El segundo argumento de SAIR es más directo y más inquietante: la preocupación no es que la IA reemplace a los científicos, sino que elimine el trabajo de entrada —el “sandbox” donde los investigadores desarrollan la intuición profunda necesaria para verificar y dirigir outputs de IA. Sin ese terreno de entrenamiento, arriesgamos un futuro donde nadie entiende los principios fundamentales detrás de la máquina. La propuesta: redefinir al científico como “arquitecto de verificación”, pasando de ejecutar cada cálculo a validación de alto nivel y arquitectura lógica.
Eso resuena con lo que ya midió Anthropic con programadores: usar IA para programar reduce la comprensión del código en un 17%. La ciencia puede enfrentar la misma curva.
Por qué importa
Lo que conecta estas tres señales es la precisión con que ahora se puede describir la división del trabajo. GPT-5.2 no “hizo física”. Simplificó expresiones simbólicas complejas y detectó un patrón que los humanos no habían visto. Los físicos identificaron el problema, el marco, y verificaron el resultado. First Proof demuestra que evaluar creatividad genuina es posible —y que los resultados actuales todavía requieren mucha cautela interpretativa. Y SAIR está construyendo infraestructura institucional para un problema que compute no resuelve: la formación del científico que sabe qué verificar.
El campo está pasando de pilotos dispersos a infraestructura. Y eso es una señal distinta a la del hype habitual.

