DeepSeek-R1 lo intentó con MCTS y no funcionó. Ese fracaso terminó siendo citado como evidencia de que la búsqueda en árbol no escala bien al lenguaje. Un experimento open-source publicado en marzo de 2026 por Ayush Tambde da vuelta ese argumento: el problema no era MCTS en sí, sino una decisión de implementación que en los juegos de tablero lleva décadas resuelta.
El resultado concreto: un modelo Qwen-2.5-1.5B entrenado con MCTS destilado vía PPO alcanza 11,3% en mean@16 en el juego aritmético Countdown, frente a 8,4% con GRPO y 7,7% con Best-of-N. Una mejora de 34% relativa sobre el baseline de RL estándar, en un modelo pequeño, con código disponible en GitHub.
El bug de implementación que costó un año de percepción
DeepSeek-R1 reportó “éxito limitado” con MCTS. Finbarr Timbers había identificado el problema antes: DeepSeek usó UCT (Upper Confidence Bound for Trees), el algoritmo clásico, en lugar de pUCT (la variante que usa priors de política, adoptada por AlphaZero y MuZero).
Claude Desbloqueado
Mi curso avanzado para aprender a sacarle mucho más provecho a Claude en el trabajo y en el día a día, con funciones y usos más potentes. Comienza el 23 de marzo.
→ Inscríbete hoy 🚀La diferencia es técnica pero decisiva. UCT explora guiado únicamente por estadísticas de visita. pUCT incorpora la probabilidad de la política del modelo como prior en la fórmula de selección, lo que hace la exploración mucho más eficiente desde las primeras iteraciones. En juegos como ajedrez, la política de red neuronal le dice a MCTS “esta jugada tiene sentido antes de explorarla”; sin ese prior, la exploración es más ciega y el árbol necesita más simulaciones para converger.
En el experimento de Tambde, los priors de acción se obtienen normalizando las probabilidades logarítmicas acumuladas de cada secuencia vía softmax, evitando la inestabilidad numérica de trabajar con probabilidades brutas. Detalle técnico, impacto grande.
Por qué operar sobre pasos, no sobre tokens
El segundo cambio clave sigue la línea de Tree-of-Thoughts (Yao et al., 2023): la búsqueda no ramifica token a token, sino sobre pasos de razonamiento completos. Esto resuelve uno de los problemas fundamentales de aplicar MCTS a lenguaje natural.
Si ramificas sobre tokens, el árbol explota en tamaño y la mayoría de las ramas son trivialmente equivalentes. Imagina un estado donde los próximos tokens probables son “pero”, “sin embargo”, “aunque”: estás consumiendo compute para explorar variaciones sintácticas sin valor semántico. Ramificar sobre pasos de razonamiento completos (marcados con <step>...</step> y <answer>...</answer>) concentra la exploración donde importa: en decisiones de razonamiento real.
La función de valor V(st) es un MLP aplicado sobre el estado oculto final del transformer, optimizado en paralelo con la política. Sin una buena función de valor, el árbol no puede guiarse hacia ramas prometedoras; con ella, la búsqueda converge más rápido y produce trayectorias de mayor calidad para el entrenamiento.
La arquitectura del sistema: separar exploración de optimización
El experimento corrió en 8× H100. El diseño es asimétrico: 6 GPUs como generadores MCTS y 2 como entrenadores. La coordinación usa gRPC para inferencia, Redis Streams como buffer de trayectorias, y Redis pub/sub para sincronizar pesos cada 8 pasos de gradiente.
Este patrón —separar compute de exploración del compute de optimización— ya aparece en el agente de ByteDance para kernels GPU, que usa RL asíncrono para superar a Claude y Gemini en KernelBench. La separación permite escalar ambas dimensiones de forma independiente, algo que los sistemas monolíticos de entrenamiento no permiten.
Además, el experimento usa MCTS paralelo con pérdidas virtuales: N agentes comparten el mismo árbol y usan penalizaciones temporales para forzar diversidad en la exploración. Es un eje de escalado que no requiere cambios de arquitectura, solo más workers.
La función de recompensa importa más que la cantidad de datos
Uno de los hallazgos más prácticos del experimento: la recompensa dispersa (0/1 para correcto/incorrecto) generó entrenamiento inestable. La solución fue una función densa que mide la distancia al objetivo: 1.0 - 2·min(|t - p| / t, 1.0) si el formato es correcto, y -1.0 si no.
La evaluación sigue usando recompensa dispersa (para que los porcentajes sean interpretables), pero el entrenamiento necesita señal más granular. Es una tensión clásica en RL: optimizar para la métrica de negocio directamente a menudo es menos eficiente que optimizar un proxy más denso.
Este tipo de problema —el código o razonamiento de la IA que “pasa” en training pero falla en producción— es el mismo que documentamos al analizar por qué la mitad del código IA que supera benchmarks sería rechazado en code review: la señal de entrenamiento y la métrica real divergen.
El caso curioso de Best-of-N
Best-of-N con 64 muestras termina siendo el método más débil, a pesar de tener la recompensa de entrenamiento más alta entre los tres enfoques. La explicación teórica es elegante: si puedes seleccionar entre 64 trayectorias y siempre hay al menos una correcta, el modelo aprende a “sobrevivir por volumen” en lugar de desarrollar razonamiento robusto en cada intento individual.
Es el equivalente al estudiante que pasa el examen porque tomó 10 intentos, no porque entendió el concepto. MCTS, al forzar exploración estructurada y destilar esas trayectorias de vuelta al modelo base, obliga a internalizar estrategias más generales. La señal es de menor volumen pero mayor calidad.
Dónde encaja en 2026
Este experimento no aparece en el vacío. El reporte de estado de LLMs de Sebastian Raschka (diciembre 2025) documenta que el RL ya ocupa entre el 70% y el 80% del compute de diferenciación en los entrenamientos más avanzados. El escalado en inferencia —o en entrenamiento con búsqueda— contribuye tanto a los mejores benchmarks como la arquitectura base.
Empirical-MCTS (arXiv, febrero 2026) mostró que MCTS con memoria acumulada puede superar a LLaMA-Berry en AIME25 (73,3% vs 63,3%) sin actualizar pesos entre instancias, usando solo experiencia acumulada en el árbol. HuggingFace identifica el razonamiento reflexivo en tiempo de test como uno de los vectores de mejora más prometedores para los próximos 12-18 meses.
El denominador común: los LLMs tienen un techo de razonamiento que el escalado de preentrenamiento solo resuelve parcialmente. Las técnicas de búsqueda y destilación son el siguiente vector de mejora, y cada vez más equipos las están adoptando. Para quienes trabajan detectando los límites actuales de los modelos, la detección de alucinaciones sin reentrenamiento es otra pieza del mismo rompecabezas: entender dónde y por qué fallan los modelos para mejorarlos de forma sistemática.
Qué significa para equipos que entrenan modelos
El resultado más importante del experimento no es el 11,3%: es que el modelo MCTS evaluado en producción no necesita un harness de búsqueda en inferencia. La mejora queda destilada en los pesos. Para startups y equipos con restricciones de latencia y compute, esto cambia el análisis de costo-beneficio: puedes pagar el costo de búsqueda en entrenamiento una sola vez y amortizarlo en inferencia.
Las implicaciones prácticas son directas:
- MCTS no está muerto para LLMs. La clave es pUCT (no UCT), operar sobre pasos de razonamiento (no tokens), y una función de valor dedicada.
- El diseño de la recompensa es un factor de primer orden. Recompensa densa durante entrenamiento, dispersa durante evaluación.
- La arquitectura separada generadores/entrenadores escala. Más workers MCTS, más iteraciones, modelos más grandes: los knobs de escalado son independientes.
- Best-of-N es la línea de base equivocada. Genera señal de entrenamiento más débil que MCTS o GRPO, a pesar de producir más ejemplos “correctos”.
El código está en github.com/at2005/llm-mcts. Los experimentos de pequeña escala son reproducibles con acceso a un cluster de GPUs razonable. La próxima iteración —modelos más grandes, más compute— puede venir de cualquier equipo.

