Nemotron 3 Super: Nvidia abre su modelo agéntico más eficiente

Share

Nvidia acaba de abrir Nemotron 3 Super, un modelo pensado para un problema muy concreto: que los agentes de IA útiles en producción suelen ser demasiado caros y lentos cuando empiezan a trabajar en serio. No hablamos de un chatbot respondiendo una pregunta, sino de sistemas que revisan código, hacen investigación profunda o coordinan varias herramientas durante muchos pasos. Ahí el contexto explota, los tokens se multiplican y la factura se dispara.

La apuesta de Nvidia es clara: en vez de perseguir el mejor benchmark generalista del planeta, diseñó un modelo para aguantar cargas agénticas largas con más eficiencia. Y eso importa porque muchas empresas ya están pasando del “chat bonito” a flujos donde la IA realmente ejecuta trabajo.

¿Qué lanzó exactamente Nvidia?

Nemotron 3 Super es un modelo abierto de 120.000 millones de parámetros totales, pero con 12.000 millones activos por inferencia. Esa diferencia importa: significa que no usa toda su capacidad en cada paso, sino solo la parte necesaria, lo que reduce costo y latencia frente a modelos densos equivalentes.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

Según Nvidia, el modelo fue diseñado para software engineering, ciberseguridad, investigación multi-paso y flujos multi-agente. También trae ventana de contexto de 1 millón de tokens, soporte para despliegue en nube o infraestructura propia, y publicación con pesos abiertos, datasets y recetas de entrenamiento.

En otras palabras: no es solo “otro LLM grande”. Es un intento serio de bajar el llamado thinking tax, ese impuesto operativo que aparece cuando cada subtarea compleja exige un modelo enorme pensando de principio a fin.

¿Por qué dice Nvidia que es más eficiente?

La respuesta está en la arquitectura. Nemotron 3 Super combina tres ideas que hoy están ganando terreno en la carrera por hacer agentes realmente escalables.

Backbone híbrido Mamba-Transformer: usa capas Mamba para procesar secuencias largas con mucha más eficiencia lineal, y capas Transformer como “anclas” para recuperar precisión cuando hace falta atención fina.
Latent MoE: en vez de enrutar cada token a expertos con toda la dimensión oculta, primero lo comprime. Eso permite consultar más especialistas con el mismo costo de cómputo.
Multi-Token Prediction: el modelo predice varios tokens futuros en paralelo, lo que acelera la generación y ayuda especialmente en tareas estructuradas como código o tool calling.

Nvidia afirma que esta mezcla entrega más de 5x throughput que la generación previa de Nemotron Super, además de hasta 4x más velocidad en Blackwell usando precisión NVFP4 frente a FP8 en Hopper. La compañía también destaca que el modelo fue entrenado nativamente con NVFP4, no simplemente cuantizado al final, para evitar pérdidas de precisión.

Si te interesa el mundo de los agentes que trabajan de verdad y no solo conversan, esta idea conecta directo con lo que contamos en cómo los agentes de IA ya están empezando a liquidar deuda técnica real.

¿Dónde rinde mejor y dónde no lidera?

Aquí está la parte importante: Nemotron 3 Super no gana todo. Y eso, de hecho, hace más creíble el lanzamiento.

En el material técnico de Nvidia, el modelo destaca especialmente en contexto largo, throughput y tareas agénticas. En DeepResearch Bench aparece en la parte alta del ranking cuando se usa como motor de investigación multi-paso, y en benchmarks de contexto largo como RULER saca ventaja fuerte frente a varios competidores. Nvidia también lo posiciona como el cerebro del agente de investigación AI-Q y lo vincula al liderazgo de ese sistema en DeepResearch Bench y DeepResearch Bench II.

Pero en razonamiento general o ciertas pruebas puras de conocimiento, otros modelos como Qwen siguen compitiendo muy arriba. Eso sugiere que Nemotron 3 Super no fue optimizado para ganar titulares en cualquier tabla, sino para ofrecer una relación más útil entre calidad, costo y velocidad en producción.

Ese matiz importa. Porque muchas startups están descubriendo que el problema ya no es solo “qué modelo razona mejor”, sino qué modelo puedes pagar cuando tu producto genera miles o millones de pasos. En esa misma línea, Nvidia lleva meses empujando la idea de que la IA es una pila industrial completa, no un juguete de demo, como explicamos en la visión de Jensen Huang sobre la IA como una infraestructura de cinco capas.

¿Qué cambia para empresas y desarrolladores?

Lo más interesante no es solo el modelo, sino cómo se puede desplegar. Nvidia lo está distribuyendo con pesos abiertos y disponibilidad en Hugging Face, build.nvidia.com, OpenRouter, Perplexity y varios proveedores de inferencia. Además, viene empaquetado como microservicio NIM, con soporte para nube y on-prem.

Para equipos de producto: significa evaluar un modelo abierto sin quedar atado por completo a APIs cerradas.
Para empresas reguladas: abre la puerta a despliegues propios donde privacidad, auditoría o latencia importan más que el benchmark puro.
Para herramientas agénticas: el contexto de 1M tokens permite meter codebases, librerías de funciones o grandes colecciones documentales en memoria sin trocear tanto el problema.

No por casualidad Nvidia menciona integraciones con empresas como CodeRabbit, Greptile, Siemens y Palantir. Y ese ángulo de revisión de código a escala conversa muy bien con algo que ya estamos viendo: los agentes de IA ya están entrando al code review automático, donde throughput, contexto largo y tool calling confiable dejan de ser lujos y pasan a ser requisitos.

Por qué importa

Nemotron 3 Super importa porque muestra hacia dónde se está moviendo el mercado de modelos: menos obsesión con el chatbot universal y más foco en motores especializados para trabajo continuo. Si los agentes van a revisar repositorios completos, analizar documentación kilométrica o coordinar flujos complejos durante horas, la eficiencia deja de ser un detalle técnico y se convierte en producto.

También importa por otra razón: Nvidia no solo quiere vender GPUs. Quiere controlar cada vez más capas del stack, desde hardware y formatos numéricos hasta modelos abiertos, benchmarks, tooling y microservicios de despliegue. Nemotron 3 Super no es solo un lanzamiento de modelo; es una pieza más en esa estrategia.

Para startups y equipos técnicos, la pregunta interesante no es si Nemotron 3 Super destrona a todos los demás, porque no parece ser el caso. La pregunta es otra: si tu producto depende de agentes que generan muchísimo contexto, ¿te conviene más un modelo “top” en benchmark o uno que realmente puedas operar a escala sin que se incendie el presupuesto? Nvidia cree que ahí hay una oportunidad enorme. Y, francamente, no parece una apuesta tonta.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué lanzó exactamente Nvidia?
¿Por qué dice Nvidia que es más eficiente?
¿Dónde rinde mejor y dónde no lidera?
¿Qué cambia para empresas y desarrolladores?
Por qué importa
Fuentes

Nemotron 3 Super: Nvidia abre su modelo agéntico más eficiente

¿Qué lanzó exactamente Nvidia?

¿Por qué dice Nvidia que es más eficiente?

¿Dónde rinde mejor y dónde no lidera?

¿Qué cambia para empresas y desarrolladores?

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial