El 6 de marzo de 2026, Andrej Karpathy publicó un repositorio de tres archivos en GitHub. Sin comunicado de prensa. Sin evento de lanzamiento. Solo un loop: un agente que lee código, propone un cambio, entrena un modelo cinco minutos, revisa el resultado, y decide si lo guarda o lo descarta. Luego lo hace de nuevo. Toda la noche. 30.000 estrellas en una semana.
Dos semanas después, la comunidad está intentando aplicar el mismo patrón a absolutamente todo lo que tenga una métrica medible.
¿Qué es autoresearch exactamente?
En el nombre está la idea central: un agente que hace investigación sobre sí mismo, o más precisamente, sobre el código que entrena un modelo de lenguaje. El loop es simple: propone una modificación (cómo el modelo maneja sus parámetros internos, la tasa de aprendizaje, la estructura de la atención), la implementa, corre un entrenamiento de cinco minutos, mide el resultado con una función de scoring fija, y decide qué hacer con ese dato.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀Lo que hizo Karpathy en sus primeras sesiones: 126 experimentos en diez horas y media. 102 descartados. 23 conservados. Mejoras reales que transfieren a modelos más grandes. No epifanías científicas, sino persistencia: el agente explora los rincones aburridos que un investigador humano postergaría porque parecen poco prometedores.
La clave del diseño, y lo que lo hace replicable, es lo que la comunidad llama el “frozen metric”: la función que define el éxito no la puede tocar el agente. Vive en un archivo separado, fuera del alcance del loop. Sin eso, cualquier sistema de optimización converge en trampa. Con eso, el agente puede correr libremente dentro de los límites que alguien con experiencia definió.
Lo que pasó en dos semanas
La comunidad entendió el patrón antes que el propósito original. En el hilo de discusiones del repositorio empezaron a aparecer forks para entornos sin H100: GPUs más pequeñas, RTX de consumidor, incluso intentos en Apple Silicon. SkyPilot publicó un experimento corriendo autoresearch con acceso a un clúster, eliminando el límite serial de un experimento a la vez.
El salto más obvio fue hacia kernels de GPU. AutoKernel, de RightNow-AI, aplica exactamente el mismo loop de Karpathy pero al código que corre en GPU: le das cualquier modelo de PyTorch, el agente genera y evalúa kernels Triton optimizados durante la noche, y en la mañana tienes mejoras medibles en throughput. La métrica fija es la velocidad de ejecución. El agente no puede cambiar la definición de velocidad.
MindStudio publicó un tutorial aplicando el patrón a tasas de respuesta en email frío. La métrica fija: porcentaje de respuestas en un conjunto de validación. El agente propone variaciones de copy, las prueba, descarta las que no mejoran, repite. Marketing como ciencia con reproducibilidad automática.
Lo que tiene en común cada adopción exitosa: un número que no se puede reescribir durante el experimento. Cuando alguien en los threads preguntó si se podía aplicar autoresearch a “mejorar el producto”, la respuesta fue silencio. No porque sea imposible en principio, sino porque “mejor producto” no es un número que se puede congelar.
El límite que la velocidad no resuelve
Hay una paradoja en el corazón de autoresearch. El sistema es más poderoso mientras más experimentos pueda correr. Más compute, más ciclos, más ideas descartadas, más señal. Pero cada iteración tiene un techo de cinco minutos impuesto deliberadamente: cambios que solo revelarían su valor en una hora de entrenamiento, o en una semana, no aparecen en el resultado. El agente es rápido pero miope. Karpathy eligió esa restricción sabiendo lo que perdía, porque un sistema sin límites produce ruido.
El problema más profundo es quién define qué congelar. Karpathy puede escribir un buen archivo de instrucciones porque pasó años entrenando modelos a mano, depurando runs a las 3 AM, aprendiendo qué tipo de cambios producen ganancias reales versus lo que solo parece funcionar en condiciones controladas. Esa intuición está comprimida en el diseño de autoresearch, no en el agente.
Lo que la velocidad del loop no acelera es el proceso de acumular ese criterio. Anthropic documentó en su estudio de autonomía que los usuarios más efectivos con agentes no son los que más delegan, sino los que saben exactamente cuándo intervenir. Esa distinción requiere experiencia que el agente no puede sustituir: solo puede ejecutar dentro del marco que alguien experimentado define.
Por qué importa para developers y builders
Autoresearch visibiliza un modelo mental que va más allá del código de Karpathy. Cualquier problema que tenga estas tres características puede beneficiarse del patrón: una métrica fija que no se puede manipular, experimentos que caben en un ciclo corto, y resultados que se pueden comparar de forma consistente.
Optimización de hiperparámetros, A/B testing de interfaces, ajuste de prompts en producción, búsqueda de configuraciones en sistemas distribuidos. La pregunta que el patrón obliga a responder antes de empezar es siempre la misma: ¿qué exactamente quieres mejorar, y puedes definirlo como un número que no cambia mientras el agente trabaja?
Si la respuesta es no, el loop no funciona. Si la respuesta es sí, probablemente ya tienes más de lo que crees para empezar.

