Correr IA gigante en local según AMD: qué resiste el escrutinio

Share

AMD publicó esta semana una guía técnica para correr un modelo de un billón de parámetros en un pequeño clúster de cuatro máquinas de escritorio. Los números son reales. El contexto editorial —AMD es una empresa que vende hardware— también lo es. Aquí las dos cosas juntas.

Primero lo concreto: AMD demostró correr Kimi K2.5, el modelo de razonamiento de Moonshot AI con 1 billón de parámetros, en cuatro Framework Desktop con Ryzen AI Max+ 395 (128 GB de RAM cada uno) conectados por Ethernet a 5 Gbps. Software: llama.cpp con soporte ROCm 7 y el Lemonade SDK. El modelo funciona, los tiempos de respuesta son usables, y no hay factura de OpenAI al final del mes.

Por qué AMD hace esto ahora

El Ryzen AI Max+ 395 es el procesador que AMD necesita que compres. Con 128 GB de RAM unificada, es la respuesta de AMD a la arquitectura de Apple Silicon: toda la memoria disponible para el modelo, sin dividir entre VRAM de GPU y RAM del sistema. AMD quiere que te quedes en el ecosistema PC en lugar de migrar a un Mac Mini con la misma lógica.

No es un secreto, ni es malo. Que AMD tenga interés en que sus plataformas salgan bien en estas demos no invalida los números. Sí significa que hay que leerlos con ese filtro: su guía compara el Ryzen AI Max+ contra un NVIDIA DGX Spark, no contra un Mac Mini M4 Pro de $1.800 que corre modelos de 70B de manera similar para la mayoría de los usuarios. La selección de competidores es parte del marketing.

Qué hardware necesitas realmente

Fuera del contexto de AMD, la comunidad de IA local tiene sus propios estándares para 2026. El principio rector es simple: la memoria lo es todo. No el CPU, no la GPU per se —sino cuánta RAM tiene el sistema disponible para cargar el modelo. Con ese marco, los niveles prácticos son:

16–32 GB (mínimo viable): Modelos de 7B–14B cuantizados a Q4. Aquí caben Qwen 3 8B, Llama 4 8B y DeepSeek R1 8B destilado. Velocidad: 20–35 tokens/segundo en Apple Silicon, 6–9 tokens/segundo en CPU solo. Suficiente para uso individual cotidiano.
48–64 GB (sweet spot 2026): Modelos de 30B–70B a velocidad conversacional. Un Mac Mini M4 Pro con 48 GB o un mini PC AMD con 64 GB DDR5 cubren la mayoría de casos de uso profesionales. El Mac Mini consume ~65 W bajo carga completa de IA.
128 GB+ (lo que muestra AMD): Para modelos de 70B–120B como GPT-OSS 120B o Kimi K2.5 a velocidad usable. Un sistema single-node con Ryzen AI Max+ 395 cuesta entre $2.000 y $2.500 hoy. El clúster de cuatro nodos de AMD está en $8.000–$10.000 y corre el modelo de 1 billón. Es un proyecto técnico.

Un dato que AMD sí incluye y resiste el escrutinio: el Ryzen AI Max+ supera al NVIDIA DGX Spark 1,7x en tokens por dólar según sus propias pruebas en LM Studio. El costo de compute es la métrica más honesta del documento.

El freno que AMD no menciona

ROCm —el equivalente de AMD a CUDA— ha madurado en 2025 y principios de 2026. ROCm 7 ya soporta FlashAttention-2 y cuantización INT4. Pero la experiencia operativa sigue siendo principalmente Linux. Si tu flujo de trabajo es Windows-first, la configuración es más inconsistente.

La escasez de memoria también presiona los precios al alza. El mismo Ryzen AI Max+ 395 que costaba $1.800 hace seis meses ahora sale entre $2.000 y $2.500 en las configuraciones de 128 GB. Es la misma dinámica que está golpeando el gaming por la escasez de RAM impulsada por la IA: los centros de datos y los fabricantes de AI PCs compiten por los mismos módulos.

El modelo de un billón de parámetros tampoco viene listo para usar: requiere configurar parámetros TTM en el kernel de Linux, instalar el Lemonade SDK, coordinar cuatro máquinas en red y gestionar una cuantización a Q2_K_XL que sacrifica algo de calidad para que el modelo quepa en 480 GB distribuidos. No es un proceso de 20 minutos.

Por qué importa

La demostración certifica algo real: la IA de nivel data center ya no requiere un data center. Cuatro escritorios, 5 Gbps de Ethernet y un modelo de razonamiento multimodal de élite que puede revisar contratos enteros, mantener 128.000 tokens de contexto sin chunking, o ayudar con análisis de código sin límites de API. Eso es un cambio estructural para organizaciones que trabajan con datos sensibles o que calculan que el costo mensual de una API de frontera supera la amortización de hardware propio.

GPT-OSS 120B —que AMD usa como referencia— alcanza alrededor del 80% en GPQA Diamond (preguntas de ciencia de nivel PhD) y ~90% en MMLU (razonamiento general universitario). Calidad comparable a servicios de pago, corriendo en local.

Para quienes ya evalúan inferencia local, vale comparar alternativas: Microsoft BitNet permite correr modelos de hasta 100B solo en CPU, sin GPU de ningún tipo, aunque con menor velocidad. Y para quienes están en Apple Silicon, RCLI de YC W26 es hoy la opción de mayor rendimiento por watt en Mac.

El consejo honesto: si necesitas 128 GB para modelos muy grandes y ya estás en Linux, el Ryzen AI Max+ 395 es probablemente la mejor relación cómputo/precio disponible. Si estás en 48–64 GB para el 80% de los casos de uso profesionales, el Mac Mini M4 Pro gana en fricción de setup. Los números de AMD no mienten; solo el encuadre elige qué mostrar.

Fuentes

Rodrigo Rojo http://descubre.ai

Correr IA gigante en local según AMD: qué resiste el escrutinio

Por qué AMD hace esto ahora

Qué hardware necesitas realmente

El freno que AMD no menciona

Por qué importa

Fuentes

Tabla de contenidos [hide]

Algolia, 39 claves admin y un problema que no es de Algolia

Nyne levanta $5.3M para que el agente que te habla ya sepa quién eres

Android empieza a diseñarse para agentes de IA, no solo para humanos

Sierra duró 7 años, simuló armas nucleares y acabó triturado

Inversión real desde la universidad: el 7th Gear Challenge 2026

Otras noticias

Algolia, 39 claves admin y un problema que no es de Algolia

Nyne levanta $5.3M para que el agente que te habla ya sepa quién eres

Android empieza a diseñarse para agentes de IA, no solo para humanos

Sierra duró 7 años, simuló armas nucleares y acabó triturado

Algolia, 39 claves admin y un problema que no es de Algolia

Nyne levanta $5.3M para que el agente que te habla ya sepa quién eres

Android empieza a diseñarse para agentes de IA, no solo para humanos