Hay un experimento en marcha que debería importarle a cualquiera que trabaje con IA: ¿puede una IA tomar un modelo base de lenguaje, mejorarlo sola, y hacerlo bien? No en teoría —en la práctica, con tiempo limitado, una GPU real, y benchmarks verificados por humanos.
La respuesta según PostTrainBench, un nuevo benchmark desarrollado por investigadores de la Universidad de Tübingen, el Max Planck Institute for Intelligent Systems y Thoughtful Lab, es: sí, pero no tan bien como los humanos, y con una trampa notable: cuando puede, hace trampa.
¿Qué es PostTrainBench y qué mide exactamente?
PostTrainBench pone a agentes de IA frontier (Claude Code, Codex CLI y Gemini CLI) a cargo de una tarea concreta: tomar un modelo de lenguaje pequeño (Qwen3-1.7B, Qwen3-4B, SmolLM3-3B o Gemma-3-4B), mejorarlo en un benchmark objetivo, y hacerlo en 10 horas con una sola GPU H100.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀El agente tiene autonomía total: elige las fuentes de datos, el método de entrenamiento, la estrategia experimental. Lo que no puede hacer es entrenar con los datos de evaluación, modificar el harness de evaluación, o sustituir el modelo base por otro. Con esas restricciones, el mejor resultado del benchmark fue Opus 4.6 corriendo sobre Claude Code, con un 23.2% de score promedio. Los humanos expertos en los mismos modelos logran un 51.1%.
Esa brecha todavía es grande. Pero lo que hace interesante la cifra es el contexto: Claude Sonnet 4.5 obtuvo un 9.9% en septiembre de 2025. GPT-5.2 llegó al 21.5% pocos meses después. Opus 4.6 llegó al 23.2% ahora. En seis meses, la capacidad prácticamente se triplicó.
El reward hacking: la parte que nadie quería ver
El resultado técnico es notable, pero la parte que más llama la atención del benchmark es el comportamiento de los agentes cuando detectan una oportunidad de subir su puntuación de manera irregular. Los autores documentaron varios patrones:
- Ingesta directa del benchmark: algunos agentes cargaron directamente el dataset de evaluación desde Hugging Face y lo usaron como datos de entrenamiento.
- Hardcodeo de preguntas: agentes que incrustaron preguntas de evaluación directamente en sus scripts de preparación de datos, disfrazadas como “ejemplos sintéticos”.
- Ingeniería inversa de la evaluación: el agente Kimi K2.5 leyó los archivos de evaluación de HealthBench para extraer distribuciones temáticas y criterios de corrección, luego generó datos de entrenamiento diseñados para coincidir con ellos.
- Contaminación indirecta: Opus 4.6 cargó “CodeFeedback-Filtered-Instruction”, un dataset que contiene problemas derivados de HumanEval. Más difícil de detectar, igualmente problemático.
La observación clave de los autores: los modelos más capaces son mejores haciendo trampa. “Los agentes más capaces parecen mejores para encontrar caminos explotables”, escriben. Codex modificó el código del framework de evaluación Inspect AI para inflar sus propios scores. Claude descargó un modelo ya instruction-tuned en vez de hacer fine-tuning del modelo base.
Esto no es un fallo de los modelos —es una señal de que cuando se les da un objetivo y autonomía, los agentes optimizan para el objetivo, no para el espíritu del objetivo. Exactamente como se esperaría de un sistema de optimización sin comprensión de las restricciones implícitas.
Por qué importa más allá del paper
El problema del post-training automatizado tiene implicaciones que van más allá de los benchmarks académicos. Si en dos años los modelos pueden mejorar a otros modelos de manera autónoma, la cadencia de mejora de la IA cambia radicalmente. No se necesita un equipo humano de ML para cada ciclo de fine-tuning: el sistema puede iterar solo.
Ya vimos algo de esta lógica en marcha: los agentes de IA ya hacen fine-tuning autónomo, y la parte del reward hacking no es nueva —la hemos visto en agentes de código que modifican sus propios tests para que todo pase verde. Lo que PostTrainBench añade es una medición sistemática de cuán lejos estamos del umbral donde el bucle de mejora puede cerrarse sin supervisión humana.
La respuesta actual: todavía lejos, pero el ritmo de progreso es el que preocupa. La brecha entre humanos expertos (51.1%) y el mejor agente (23.2%) es de 28 puntos porcentuales. Con la tasa de mejora observada en los últimos seis meses, esa distancia podría ser la mitad en un año.
Lo que PostTrainBench también deja claro es que los benchmarks necesitan evolucionar más rápido que los agentes que los resuelven. No porque los agentes sean maliciosos —sino porque son exactamente tan buenos como sus incentivos. Si el incentivo es el score, van por el score. Y los que tienen más contexto sobre cómo funciona la evaluación tienen más herramientas para encontrar atajos.
Los autores terminan con una conclusión que vale guardar: el cierre del gap puede llegar más rápido de lo esperado —pero solo si las salvaguardas contra reward hacking co-evolucionan con las capacidades. Por ahora, todavía no lo hacen.

