NVIDIA presentó la Vera CPU el 16 de marzo de 2026, y aunque los comunicados oficiales la describen como el sucesor de Grace, en realidad es algo diferente: el primer procesador que NVIDIA diseñó desde cero asumiendo que la IA agente —no el entrenamiento de modelos— es el caso de uso central del cómputo moderno.
No es poca cosa. La mayoría de los CPUs en el mercado fueron concebidos pensando en aplicaciones tradicionales y luego adaptados para cargas de IA. La Vera invierte esa lógica.
¿Qué tiene de especial la Vera CPU?
La arquitectura empieza con 88 núcleos propios —denominados Olympus— que soportan 176 hilos gracias a una técnica llamada NVIDIA Spatial Multithreading, que divide físicamente los recursos del núcleo para ejecutar dos tareas en paralelo. El salto respecto a los 72 núcleos Grace es relevante, pero no es lo más importante.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀Lo que cambia de fondo es cómo la Vera maneja memoria y conectividad:
- Hasta 1,5 TB de memoria LPDDR5X, el triple de la generación anterior
- 1,2 TB/s de ancho de banda de memoria, consumiendo menos de 50 watts
- NVLink-C2C con 1,8 TB/s de bandwidth coherente CPU–GPU — 7 veces más que PCIe Gen 6
- Soporte para FP8, clave para inferencia eficiente en modelos grandes
Para contexto: los workloads de IA agente requieren mantener múltiples entornos independientes corriendo simultáneamente — un caché KV para el modelo, pipelines de analytics, compiladores, motores de runtime. El cuello de botella ahí no es la GPU: es la velocidad con que el CPU puede mover datos a la GPU. La Vera ataca ese cuello de botella directamente.
El Vera CPU Rack: escala industrial para fábricas de IA
NVIDIA no lanzó el chip solo. Presentó el Vera CPU Rack, una unidad de alta densidad que integra 256 Vera CPUs con refrigeración líquida, 74 BlueField-4 DPUs y conectividad ConnectX SuperNIC. Las cifras del rack completo:
- 22.528 núcleos Olympus y 45.056 hilos totales
- Hasta 400 TB de memoria LPDDR5X
- 300 TB/s de throughput agregado de memoria
- Capacidad para sostener más de 22.500 entornos CPU concurrentes e independientes
El rack está construido sobre la arquitectura modular NVIDIA MGX, con soporte de más de 80 socios del ecosistema. Es infraestructura pensada para lo que NVIDIA llama “AI Factories” — las plantas de procesamiento de tokens que, según Jensen Huang en Davos, representarán decenas de billones en inversión en los próximos años. Ya cubrimos esa visión de Huang.
¿Por qué importa para los builders?
La Vera CPU no está dirigida a quien entrena modelos: eso lo hace la GPU. Está dirigida a quien opera agentes a escala. Los que construyen orquestadores multiagente, pipelines RAG con miles de documentos, sistemas de respuesta en tiempo real, o infraestructura MCP que coordina docenas de herramientas simultáneamente.
Para ese perfil, el performance de la Vera tiene consecuencias directas en lo que es posible escalar y a qué costo. NVIDIA está apostando a que los “AI Factories” — concepto central en el GTC 2026 que ya analizamos como el evento donde NVIDIA consolidó su narrativa agéntica — van a necesitar racks completos de CPUs, no solo GPUs.
Hay algo más: la Vera CPU llega acompañada del modelo Nemotron 3 Super, lanzado también en GTC, el primer modelo agéntico abierto de NVIDIA pensado para inferencia eficiente. Hardware y modelo se diseñaron juntos. Eso es stack completo, no partes sueltas.
El argumento de fondo
Durante años, el cómputo para IA fue básicamente una ecuación GPU. El CPU era el equipo de soporte. Lo que la Vera señala es que esa ecuación está cambiando: los agentes de IA necesitan procesadores que puedan manejar concurrencia masiva, latencia baja y coherencia de memoria CPU–GPU de forma nativa — no como parche sobre arquitecturas de hace una década.
Que NVIDIA invierta en diseñar su propio núcleo de CPU en lugar de seguir usando cores ARM genéricos dice mucho sobre adónde va el mercado. El software ya cambió. El hardware está siguiéndolo.

