AutoResearch de Karpathy llega al marketing: 36.500 experimentos al año

Share

Un marketero prueba una landing page con AutoResearch, el proyecto open source de Andrej Karpathy, y la tasa de aprobación pasa de 56% a 92% de la noche a la mañana. Sin diseñador. Sin reuniones de retrospectiva. Sin nadie despierto.

No es un caso aislado. Es la primera señal visible de que un patrón de optimización autónoma que Karpathy diseñó para mejorar modelos de IA está llegando al marketing con una velocidad que el sector no vio venir.

Qué es AutoResearch, en concreto

AutoResearch es un script de 630 líneas, publicado por Karpathy bajo licencia MIT en GitHub a comienzos de marzo. Su lógica es simple: entregas a un agente de IA un objetivo medible, un script y un presupuesto de cómputo. El agente lee su propio código, genera una hipótesis de mejora, la ejecuta, evalúa el resultado y decide si mantener o revertir el cambio. Luego empieza de nuevo.

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

En una noche, el agente de Karpathy completó 126 experimentos y redujo el validation loss de un modelo de 0.9979 a 0.9697. En dos días continuos, procesó cerca de 700 cambios autónomos y encontró ~20 mejoras que se transfirieron a modelos más grandes. Una de ellas detectó un error de escalado en el mecanismo de atención que Karpathy había ignorado manualmente durante años.

Eso es el loop central: hipótesis → ejecución → evaluación → iteración. Y lo que la comunidad descubrió rápido es que ese loop no entiende de dominios. Funciona en cualquier sistema donde se pueda definir una métrica, correr un experimento y medir el resultado.

El marketing cumple esa condición perfectamente.

Por qué el marketing era el caso de uso obvio

Los equipos de marketing ya viven dentro de un loop de prueba y error. El problema no es conceptual — es de escala y velocidad. Un equipo competente ejecuta entre 20 y 50 experimentos al año. Para ese número no hace falta IA: alcanza con un Excel y disciplina.

El problema es que el espacio de búsqueda es gigante. Las combinaciones posibles de subject lines, copies de landing, CTAs, estructuras de correo, horarios de envío, segmentos de audiencia y variantes creativas son efectivamente infinitas. Un equipo humano solo puede explorar una fracción mínima de ese espacio.

AutoResearch cambia la ecuación. Eric Siu, fundador de la agencia Single Grain, lo calculó así: un equipo de marketing con el loop activo no corre 30 experimentos al año. Corre 36.500. La diferencia no es de eficiencia — es de categoría.

Esto ya está pasando. Ole Lehmann implementó AutoResearch aplicado a una landing page usando Claude como LLM subyacente y el resultado fue exactamente lo que promete la lógica del sistema: iteración autónoma durante la noche, aprobación de copy disparada de 56% a 92%. El agente no esperó feedback humano entre cada intento. Simplemente siguió experimentando.

Los tres componentes que hacen que funcione

La potencia del patrón viene de tres piezas que se combinan:

1. Generación de hipótesis con contexto acumulado. El agente no propone experimentos al azar. Usa los resultados de iteraciones anteriores para decidir qué probar a continuación. Una variante que funcionó parcialmente se convierte en punto de partida para la siguiente. Una que falló restringe el espacio de búsqueda.

2. Ejecución y medición automatizadas. El loop requiere que el experimento se pueda correr sin intervención humana. En el caso original de Karpathy es entrenamiento de modelos. En marketing es una API de email, un sistema de A/B testing, una herramienta de análisis de copy o una plataforma de publicidad. Cualquier cosa con una métrica legible por código.

3. Reflexión y selección.} El agente no solo registra resultados — razona sobre ellos. Actualiza su modelo interno de qué funciona y por qué, y usa eso para generar las hipótesis siguientes. Aquí es donde el efecto compuesto se vuelve dramático: cada ciclo informa al próximo.

Como señalamos en descubre.ai cuando AutoResearch empezó a viral hace dos semanas, la comunidad lo aplicó a todo lo que tuviera una métrica fija: kernels de GPU, cold email, optimización de LLMs, secuencias de onboarding.

Qué cambia de verdad para el marketing

La diferencia no es solo velocidad. Es la naturaleza del trabajo humano en el proceso.

En el modelo actual, el marketero es el investigador: formula hipótesis, diseña el experimento, lo ejecuta, espera resultados, saca conclusiones y propone el siguiente test. Ese ciclo puede tardar semanas.

Con AutoResearch, el rol se desplaza: el marketero define el objetivo y la métrica, configura el entorno de experimentación, supervisa que los experimentos sean coherentes con la estrategia, e interviene cuando el agente llega a bordes que no puede resolver solo (cambios de posicionamiento de marca, decisiones que afectan relaciones con clientes, etc.). El agente hace el trabajo iterativo.

Esto no elimina el criterio humano — lo concentra donde más importa. El problema del marketing no ha sido nunca falta de ideas. Ha sido la imposibilidad de probarlas todas.

No es casualidad que esto esté pasando ahora: como hemos documentado, la ingeniería agentiva está definiendo una nueva categoría de trabajo donde los humanos orquestan y los agentes ejecutan el loop. El marketing es uno de los primeros sectores “no técnicos” en ver esta transición en tiempo real.

Los límites que el hype no menciona

El framing de “56% a 92%” es real, pero requiere contexto. Esa mejora ocurrió en la evaluación de copy según un criterio específico — no en una métrica de negocio completa como revenue o LTV. El loop optimiza lo que mides, y medir lo correcto es un trabajo humano complejo que el agente no resuelve.

Hay además dos restricciones prácticas que ralentizan la adopción:

El entorno de experimentación necesita estar instrumentado. Para que el agente pueda correr experimentos autónomos, la plataforma tiene que soportar A/B testing programático, la métrica tiene que ser accesible por API, y el ciclo de feedback tiene que ser lo suficientemente rápido para que el loop sea útil. En email esto es relativamente sencillo. En paid media o SEO, más complejo.

El agente no entiende la marca. Puede optimizar conversion rate agresivamente y deteriorar brand perception. Puede encontrar un copy que funciona en el test corto pero que erosiona confianza en el mediano plazo. Necesita guardrails definidos por humanos.

Por qué importa

Karpathy redescubrió con AutoResearch algo que la ciencia experimental sabe hace siglos: el progreso accelera cuando puedes correr más experimentos por unidad de tiempo. Aplicado a modelos de IA, el resultado fue un 11% de mejora de eficiencia en un sistema que se creía ya optimizado. Aplicado al marketing, el resultado es que la brecha entre equipos que adoptaron el loop y los que no se va a volver estructural rápido.

El dato que más debería preocupar a los equipos de marketing que todavía operan con 30 experimentos al año: Karpathy diseñó AutoResearch para que cualquiera pueda correrlo. No requiere un equipo de ML. No requiere infraestructura especializada. Requiere definir bien qué estás midiendo y conectarlo a un LLM que itere.

Eso Karpathy lo dejó en GitHub, de 630 líneas, gratis. Y la comunidad ya lo está llevando a dominios que él ni consideró. Como señala su historial reciente de aportes al pensamiento sobre IA y programación, sus proyectos tienen un patrón consistente: simples en su formulación, amplios en sus implicancias.

El marketing que experimenta 36.500 veces al año ya existe. La pregunta es cuántos equipos lo saben.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

Qué es AutoResearch, en concreto
Por qué el marketing era el caso de uso obvio
Los tres componentes que hacen que funcione
Qué cambia de verdad para el marketing
Los límites que el hype no menciona
Por qué importa
Fuentes

AutoResearch de Karpathy llega al marketing: 36.500 experimentos al año

Qué es AutoResearch, en concreto

Por qué el marketing era el caso de uso obvio

Los tres componentes que hacen que funcione

Qué cambia de verdad para el marketing

Los límites que el hype no menciona

Por qué importa

Fuentes

Tabla de contenidos [hide]

100 skills de IA para tu vault de Obsidian: el método que te cuestiona

Hark: el laboratorio de IA personal de Brett Adcock apuesta a una nueva interfaz

El sandbox de IA de Ecuador: el modelo regulatorio que LATAM debería mirar

800 VDC: el cambio eléctrico que la IA obliga a los centros de datos

Kleiner Perkins duplica su fondo a 3.500 millones: el capital institucional apuesta al superciclo de la IA

Otras noticias

100 skills de IA para tu vault de Obsidian: el método que te cuestiona

Hark: el laboratorio de IA personal de Brett Adcock apuesta a una nueva interfaz

El sandbox de IA de Ecuador: el modelo regulatorio que LATAM debería mirar

800 VDC: el cambio eléctrico que la IA obliga a los centros de datos

100 skills de IA para tu vault de Obsidian: el método que te cuestiona

Hark: el laboratorio de IA personal de Brett Adcock apuesta a una nueva interfaz

El sandbox de IA de Ecuador: el modelo regulatorio que LATAM debería mirar