Qodo levanta $70M: verificar el código de IA es el nuevo negocio

Share

Cada mes, las herramientas de IA generan miles de millones de líneas de código. El problema no es ya la velocidad de generación — es que nadie puede garantizar que ese código funcione correctamente. Qodo, una startup fundada en 2022 que construye agentes de IA para revisión de código, testing y gobernanza, levantó $70 millones en una Serie B liderada por Qumra Capital para apostar exactamente a eso: que la verificación será el cuello de botella definitorio de la próxima fase del desarrollo de software.

El financiamiento lleva el total de la compañía a $120 millones. Además de Qumra Capital, participaron Maor Ventures, Phoenix Venture Partners, S Ventures, Square Peg, Susa Ventures, TLV Partners, Vine Ventures, Peter Welinder (OpenAI), y Clara Shih (Meta). El mix de inversores — incluyendo personas de OpenAI y Meta — no es casual: señala que incluso quienes construyen los modelos generativos ven la verificación como un problema separado que todavía no está resuelto.

El problema que Qodo identificó antes que ChatGPT

Itamar Friedman fundó Qodo meses antes del lanzamiento de ChatGPT, cuando muy poca gente estaba pensando todavía en código generado por IA como un problema de escala. Su intuición venía de dos experiencias previas: trabajar en automatización de verificación de hardware en Mellanox (luego adquirida por Nvidia), y construir Visualead (adquirida por Alibaba).

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

En Mellanox aprendió que “generar sistemas y verificar sistemas requieren enfoques muy diferentes — herramientas distintas, formas de pensar distintas”. En Alibaba’s Damo Academy vio evolucionar la IA hacia sistemas capaces de razonar sobre lenguaje humano. Para 2021-2022, antes del boom de GPT-3.5, ya era claro para él que la IA generaría una fracción enorme del código del mundo — y que la generación y la verificación no podían resolverse con las mismas herramientas.

La tesis es técnicamente precisa. Los LLMs son excelentes generando código que “parece” correcto — sintetizando patrones de entrenamiento, produciendo funciones coherentes, siguiendo convenciones. Pero verificar que ese código funciona correctamente en el contexto específico de una organización, con sus estándares propios, su historial de decisiones técnicas, y su tolerancia al riesgo, requiere algo diferente. Requiere contexto que ningún LLM genérico puede tener.

El gap que nadie está cerrando

Una encuesta reciente muestra que el 95% de los desarrolladores no confían plenamente en el código generado por IA — pero solo el 48% lo revisa consistentemente antes de hacer commit. Es la brecha más peligrosa del vibe coding actual: hay conciencia del problema, pero el comportamiento no lo refleja.

La presión de velocidad explica el gap. Si los managers miden velocidad de entrega en tickets cerrados y PRs merged, y el código generado por IA acelera esas métricas, la revisión detallada se convierte en fricción. El resultado es código que pasa todos los checks automáticos del pipeline de CI/CD pero contiene lógica incorrecta que solo aparece en producción.

La diferenciación de Qodo frente a las herramientas de revisión de código existentes está en el nivel de análisis: mientras la mayoría de las herramientas de revisión AI miran qué cambió en un PR, Qodo analiza cómo los cambios afectan al sistema completo. Eso incluye estándares organizacionales, contexto histórico, y tolerancia al riesgo de cada empresa.

En palabras de Friedman: “La calidad es subjetiva. Depende de los estándares de la organización, las decisiones pasadas, y el conocimiento tribal. Un LLM no puede entender ese contexto completamente. Es como tomar a un excelente ingeniero de una empresa y pedirle que revise código en otra — le falta el contexto interno.”

Qodo 2.0 y los benchmarks que importan

La compañía lanzó recientemente Qodo 2.0, un sistema multi-agente de revisión de código que lidera los benchmarks actuales. En el Martian’s Code Review Bench, Qodo obtuvo 64,3% — más de 10 puntos por encima del competidor siguiente, y 25 puntos por encima de Claude Code Review. El benchmark mide específicamente la capacidad de detectar bugs lógicos complicados y problemas que cruzan múltiples archivos sin generar ruido excesivo para los desarrolladores.

También lanzó herramientas que aprenden la definición de calidad de código de cada organización — lo que convierte a Qodo en un sistema que se adapta a los estándares internos en vez de imponer criterios genéricos externos.

Sus clientes actuales incluyen Nvidia, Walmart, Red Hat, Intuit, Texas Instruments, Monday.com, y JFrog. Ese mix de empresas — desde manufactura hasta retail, pasando por infra de desarrollo — refleja que el problema de gobernanza de código generado por IA no es un problema exclusivo de software houses: es transversal a cualquier empresa que esté adoptando AI coding tools en serio.

Lo que cambia para los developers y los founders

El éxito de Qodo, si se sostiene, redefine algo importante sobre el rol del desarrollador en la era de la IA generativa. El debate actual sobre “¿los developers van a desaparecer?” está mal planteado — la pregunta correcta es qué parte del trabajo del developer se convierte en el trabajo crítico cuando la generación se automatiza.

La respuesta que implica la tesis de Qodo: el trabajo crítico pasa a ser gobernanza, verificación, y definición de estándares. El developer que entiende el sistema completo, que puede evaluar si el código generado cumple las invariantes correctas, que puede articular los estándares de calidad que el sistema necesita aprender — ese developer se vuelve más valioso, no menos.

Para los founders tech que están construyendo con AI coding tools: GitHub ya anunció que entrena con tus repos privados, Copilot insertó publicidad en PRs sin avisar, y ahora Qodo levanta $70M para resolver el problema de verificar que todo ese código generado realmente funciona. El stack de AI coding está madurado rápidamente — pero la capa de gobernanza recién está empezando a existir como producto.

El mercado de verificación de código: ¿por qué ahora?

Friedman describe la evolución en fases: “Cada año tuvo un momento definitorio — de Copilot a ChatGPT a automatización completa de tareas. Ahora estamos entrando a una nueva fase: pasar de la IA sin estado a sistemas con estado — de inteligencia a ‘sabiduría artificial’. Para eso está construido Qodo.”

La distinción entre IA “sin estado” y “con estado” es conceptualmente importante. Un LLM que sugiere código en un PR no sabe nada sobre la historia de decisiones técnicas de esa empresa, los bugs que causaron incidentes anteriores, ni los compromisos de performance que son sagrados para ese sistema. Un sistema con estado — que aprende y retiene ese contexto — puede razonar sobre el código de manera mucho más relevante.

La categoría de verificación de código no es nueva — existen desde hace años herramientas de análisis estático (SAST), linters, y coverage tools. Lo que está cambiando es el volumen y la velocidad: cuando el 50% del código de un equipo viene de AI assistants, la revisión manual de cada PR se vuelve un cuello de botella que ningún equipo puede absorber sin herramientas específicas. Corridor también levantó $25M para blindar el código que escribe la IA desde el ángulo de seguridad — Qodo va más amplio, hacia calidad y gobernanza completa.

Por qué importa más allá de los $70M

La inversión en Qodo es una señal de mercado clara: el dinero serio está empezando a apostar a que la verificación, no solo la generación, es donde se crea valor diferenciado en AI coding. Cuando los modelos generativos se vuelven commodities — accesibles, baratos, y razonablemente similares entre sí — la diferenciación migra hacia las capas que los rodean.

Para el ecosistema de LATAM que está adoptando estas herramientas, el mensaje práctico es simple: velocidad sin verificación es deuda técnica acumulada. La presión para mostrar velocidad de entrega con AI coding tools es real — pero los incidentes de producción causados por código AI no verificado también tienen costo real. El timing para pensar en gobernanza de código AI no es después de que ocurra el primer incidente. Es ahora, mientras el stack todavía es manejable.


Fuentes

Leer más

Otras noticias