Durante años, los programadores han tratado a Claude Code como un asistente que hace lo que le pides. Garry Tan, presidente y CEO de Y Combinator, decidió que eso era precisamente el problema.
Esta semana publicó gstack en GitHub: ocho herramientas para Claude Code que no automatizan tareas, sino que especializan roles. No es un prompt pack. Es la primera respuesta institucional al problema del agente genérico, y el hecho de que venga del CEO de YC le da un peso que trasciende el código en sí.
El diagnóstico de Garry Tan: el agente se queda en la mitad
La tesis de gstack parte de una observación concreta: cuando usas Claude Code en modo genérico, el modelo hace lo que le dices, no lo que necesitas. “El agente toma tu solicitud literalmente — nunca pregunta si estás construyendo lo correcto”, escribe Tan en el README. “Implementará exactamente lo que dijiste, incluso cuando el producto real es algo más grande.”
Claude Desbloqueado
Mi curso avanzado para aprender a sacarle mucho más provecho a Claude en el trabajo y en el día a día, con funciones y usos más potentes. Comienza el 23 de marzo.
→ Inscríbete hoy 🚀El problema no es el modelo. Es que lo estás usando como un único cerebro que debe pensar como fundador, ingeniero senior, revisor paranoico y máquina de releases, todo al mismo tiempo. Eso no funciona para los humanos, y tampoco funciona para los agentes.
La solución que propone gstack es explícitamente de roles: decirle al modelo en qué modo cognitivo debe operar ahora. No “ayúdame con este código”, sino “actúa como mi CEO que presiona si el producto tiene sentido” o “actúa como mi ingeniero más paranoico que busca lo que puede romper en producción”.
Las 8 herramientas: cada una con un cerebro distinto
gstack implementa ocho slash commands para Claude Code, cada uno con un rol bien definido:
- /plan-ceo-review — Modo fundador. No ejecuta el pedido, lo cuestiona. Pregunta si es realmente el producto correcto, busca la versión de “10 estrellas” que hay dentro del request.
- /plan-eng-review — Modo tech lead. Una vez validada la dirección, define arquitectura, flujo de datos, casos borde, matrices de tests. Fuerza diagramas para hacer explícitas las suposiciones implícitas.
- /review — Modo ingeniero paranoico. Busca lo que pasa CI pero rompe en producción: race conditions, N+1 queries, vectores de inyección, invariantes rotos. No da halagos.
- /ship — Modo release engineer. Cuando ya está decidido qué construir, sincroniza main, corre tests, resuelve reviews de Greptile, pushea y abre el PR. Sin conversación extra.
- /browse — Modo QA con ojos. Un browser Chromium compilado que permite al agente navegar tu app, hacer capturas, verificar flujos de autenticación, detectar errores en consola.
- /qa — Modo QA lead sistemático. Lee el diff del branch, identifica qué páginas fueron afectadas, las testea todas. También tiene modos full, quick y regression.
- /setup-browser-cookies — Importa cookies reales desde Chrome, Arc o Brave para que /qa pueda testear páginas autenticadas sin iniciar sesión manualmente.
- /retro — Modo engineering manager. Analiza historial de commits, velocidad de shipping, contribuciones por persona, y genera una retrospectiva con feedback concreto por developer.
El orden importa: Tan empieza casi todas las features con /plan-ceo-review. Solo cuando la dirección de producto está validada pasa al modo ingeniero. Revisión antes de shipping. QA después de push. Retro al cierre de semana. Son engranajes, no opciones.
Lo que YC está diciendo en realidad
Acá está la tesis que no aparece en la descripción del repo: cuando el CEO de Y Combinator publica su setup exacto de trabajo con IA bajo una licencia MIT, no está compartiendo una herramienta personal. Está proponiendo un estándar.
YC ha sido históricamente la institución que define cómo operan las startups. El “do things that don’t scale” de Paul Graham, el “talk to your users” de los socios, los frameworks de product-market fit — todos empezaron como consejos internos que se convirtieron en doctrina del ecosistema. gstack es la misma operación aplicada a cómo un fundador debería relacionarse con los agentes de IA en 2025.
La señal institucional es clara: usar un solo agente genérico para todo el ciclo de desarrollo ya no es la práctica recomendada. La especialización de roles no es un truco avanzado — es el nuevo mínimo viable para equipos que construyen con IA.
Esto conecta con un patrón más amplio. Hemos escrito antes sobre cuándo múltiples agentes especializados rinden mejor que uno solo, y los datos apuntan consistentemente en la misma dirección: la coordinación de roles, no la escala del modelo, es lo que determina la calidad del output en tareas complejas.
El detalle que separa gstack de los prompt packs
La diferencia entre gstack y un conjunto de prompts de sistema es técnicamente pequeña pero culturalmente enorme. Los prompts son sugerencias. Las skills de Claude Code son comandos nombrados que el modelo reconoce y ejecuta con herramientas reales: el binary de /browse compila Chromium, /ship hace git operations reales, /retro lee el historial del repo y guarda snapshots en JSON.
Tan también integró Greptile — una empresa YC que revisa PRs automáticamente — directamente en /review y /ship. Los comentarios de Greptile se clasifican en válidos, ya resueltos y falsos positivos. Los falsos positivos se guardan en un historial para que las futuras ejecuciones los salteen. El sistema aprende sobre tu codebase.
Esto importa porque una de las fricciones más reales de los agentes de código es exactamente la que hemos documentado como “deuda de verificación”: el código generado por IA pasa tests pero falla en producción porque nadie realmente validó los casos que importan. gstack hace que esa verificación sea parte del workflow, no un paso opcional que los equipos ocupados saltan.
El elefante en el cuarto: requiere Claude Code
Hay algo que el README no oculta pero tampoco enfatiza: gstack está diseñado específicamente para Claude Code. No para Cursor, Copilot, Codex, ni ningún otro agente. Es una apuesta por un stack específico — y la inclusión de Greptile (también YC) no es coincidencia.
Esto no le quita valor a las ideas del proyecto, pero contextualiza el gesto institucional. YC no está solo diciendo “especializa tus agentes”. Está diciendo: “usa Claude Code, usa Greptile, y aquí está cómo”. Para los fundadores dentro del ecosistema YC, eso es casi una recomendación de stack.
El debate sobre dependencia en Claude Code se vuelve más interesante cuando la institución más influyente del ecosistema startup publica su setup completo basado en esa herramienta. No es una advertencia, es la normalización de una dependencia específica.
Por qué importa
La pregunta real que gstack plantea no es “¿son buenos estos ocho comandos?”. La pregunta es: ¿cuánto tiempo más van a usar los equipos a los agentes de IA como assistants genéricos en vez de como roles especializados con responsabilidades claras?
La respuesta corta: probablemente menos de lo que creen. El movimiento hacia agentes especializados no es una preferencia de power users — es el resultado natural de que los modelos mejoran y los casos de uso se complejizan. Cuando le dices al agente “actúa como QA lead en este branch específico” en vez de “revisa mi código”, obtienes un output cualitativamente diferente. gstack formaliza esa intuición en herramientas instalables.
Lo que YC hizo al publicar esto no fue crear una nueva herramienta. Fue definir un vocabulario para el trabajo con agentes de IA que en los próximos meses va a aparecer en miles de conversaciones de onboarding, posts de blog, y conversaciones de entrevista técnica. Los fundadores que lo entiendan hoy tendrán ventaja sobre los que lo aprendan después.

