Qwen 397B en un MacBook de 48 GB: el paper de Apple que lo hace posible

Share

Un paper académico de Apple que nadie usaba más allá de los laboratorios acaba de convertirse en la base de un experimento que redefine qué significa correr inteligencia artificial en local. Dan Woods, un investigador independiente, tomó ese paper de 2023, le dio acceso a Claude Code para correr 90 experimentos automatizados, y terminó ejecutando Qwen3.5-397B —un modelo de clase frontera, comparable en rendimiento a Gemini 3 Pro o Claude Opus— en un MacBook Pro M3 Max con apenas 48 GB de RAM.

El modelo pesa 209 GB en disco. Cabe en 48 GB de RAM. Funciona a 5,5 tokens por segundo. El truco está en un concepto que Apple describió hace dos años pero nadie había llevado tan lejos: inferencia desde memoria flash.

¿Qué es la inferencia desde flash y por qué importa?

Para entender esto sin experiencia técnica: correr un modelo de lenguaje grande normalmente requiere que todos sus “pesos” (los números que definen cómo piensa el modelo) estén cargados en la RAM del sistema al mismo tiempo. Si el modelo pesa 200 GB y tu computadora tiene 48 GB de RAM, simplemente no cabe. Punto.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

En 2023, investigadores de Apple publicaron un paper titulado LLM in a Flash con una propuesta diferente: ¿y si no cargamos todo de una vez? Los modelos MoE (Mezcla de Expertos, Mixture of Experts) como Qwen3.5-397B tienen una propiedad útil: cuando procesan un token, solo activan una fracción de sus parámetros totales. Qwen3.5-397B tiene 397 mil millones de parámetros, pero por token solo usa alrededor de 17 mil millones. El resto está durmiendo.

La idea del paper: mantener solo los parámetros activos en RAM y traer del SSD (memoria flash) los “expertos” que cada token necesita, justo cuando los necesita. El SSD no es tan rápido como la RAM, pero si optimizas bien cómo lees de él —en bloques grandes y contiguos, con predicción de qué vas a necesitar— puedes compensar parte de esa diferencia.

¿Qué hizo exactamente este investigador?

Woods no solo leyó el paper: usó un patrón de investigación automatizada (inspirado en el autoresearch de Andrej Karpathy) para que Claude Code corriera 90 experimentos en su nombre. El agente generó código en MLX, Objective-C y Metal —los frameworks de Apple para cómputo en Apple Silicon— y fue afinando la implementación iteración por iteración.

El resultado está publicado como código abierto en GitHub (danveloper/flash-moe), junto a un paper describiendo la metodología, escrito en gran parte por Claude Opus 4.6. La configuración final cuantiza los “expertos” a 2 bits —la compresión más agresiva— mientras mantiene en precisión original las partes del modelo que no se pueden degradar sin pérdida notable: la tabla de embeddings y las matrices de ruteo, que ocupan 5,5 GB fijos en RAM.

También redujo de 10 a 4 los expertos activados por token (el modelo original usa 10), identificando que la calidad cae de forma apreciable solo si bajas a menos de 3. El resultado: 5,5 tokens por segundo en un MacBook Pro M3 Max de 48 GB. No es velocidad de producción, pero es funcional para uso personal.

¿Qué cambia esto de verdad?

Hay que ser honesto sobre los límites: la calidad a 2 bits es una incógnita real. Claude, que realizó las evaluaciones, afirmó que era “indistinguible de 4 bits”, pero Woods mismo admite que las evaluaciones descritas son bastante superficiales. Nadie ha benchmarkeado esto de forma rigurosa todavía.

Pero el punto más interesante no es la calidad exacta de este experimento. Es lo que demuestra: que la barrera de entrada para correr modelos de clase frontera en hardware de consumo está cayendo más rápido de lo que casi nadie proyectaba. Hace un año, correr Qwen3.5-397B “localmente” requería un Mac Studio con 192+ GB de RAM unificada —hardware que supera los 8.000 dólares. Hoy, con técnicas de inferencia desde flash, la misma familia de modelos empieza a ser accesible desde hardware de gama media-alta.

Es el mismo patrón que vimos con AMD y su Ryzen AI Max+: el hardware convencional, bien aprovechado con técnicas de inferencia inteligente, está alcanzando lo que antes solo era posible en servidores. Aunque como vimos en ese análisis, no todo lo que promete el marketing resiste el escrutinio real.

La otra nota interesante de este experimento es el método de investigación en sí: usar un agente de IA para explorar el espacio de soluciones de forma autónoma —90 experimentos corridos sin intervención humana entre iteraciones— y que el resultado sea código funcional, reproducible y publicado. Qwen3.5 es también el modelo que protagoniza el experimento: la ironía de usar Claude para optimizar la inferencia de un modelo chino que compite con los de Anthropic no pasa desapercibida.

Por qué importa

El paper de Apple de 2023 fue bien recibido académicamente y luego pasó bastante desapercibido fuera de los círculos de investigación. Este experimento demuestra que el conocimiento existía, que el hardware existía, y que lo que faltaba era alguien que conectara los puntos —con o sin un agente de IA ayudando en el proceso.

La tendencia que esto confirma: la “IA en local” ya no es solo para modelos pequeños o degradados. Los próximos 12 meses deberían traer más experimentos como este, mejor documentados, con evaluaciones más rigurosas. La carrera entre modelos en la nube e inferencia local está más viva que nunca, y Apple Silicon sigue siendo el hardware que más ventaja ofrece para este tipo de optimizaciones gracias a su memoria unificada.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es la inferencia desde flash y por qué importa?
¿Qué hizo exactamente este investigador?
¿Qué cambia esto de verdad?
Por qué importa
Fuentes

Qwen 397B en un MacBook de 48 GB: el paper de Apple que lo hace posible

¿Qué es la inferencia desde flash y por qué importa?

¿Qué hizo exactamente este investigador?

¿Qué cambia esto de verdad?

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial