Flash-MoE: cómo el iPhone 17 Pro ejecuta un modelo de IA de 400B en local

Share

Un iPhone 17 Pro tiene 12 GB de memoria unificada. Un modelo de IA de 400.000 millones de parámetros necesita, en teoría, varios terabytes para ejecutarse. Esta semana, alguien corrió el segundo dentro del primero—lento, pero funcionando—y eso cambia algo fundamental en cómo entendemos el futuro de la IA en dispositivos personales.

La demostración viene de un desarrollador conocido como Anemll, quien ejecutó el modelo Qwen 3.5 397B completo (sin cuantización, sin destilación) en su iPhone 17 Pro usando Flash-MoE, un nuevo motor de inferencia open source creado por Daniel Woods (@dandeveloper). La velocidad inicial fue de 0,6 tokens por segundo—poco usable para conversación—pero al reducir el número de expertos activos a cuatro, la duplicó a 1,1 tokens por segundo con apenas un 2,5% de pérdida de calidad. Otro usuario probó el mismo método con un modelo más pequeño (Qwen 3.5 35B) y ya alcanzó 13,1 tokens por segundo en el mismo iPhone—velocidad plenamente utilizable.

¿Qué es Flash-MoE y cómo funciona?

Flash-MoE es un motor de inferencia diseñado para ejecutar modelos de tipo Mixture of Experts (MoE) en hardware con memoria limitada. El truco central: en lugar de cargar todos los parámetros del modelo en RAM de una vez, el motor carga selectivamente solo los “expertos” activos para cada token—y usa el almacenamiento flash del dispositivo (su SSD o memoria NAND) como extensión dinámica de la memoria de trabajo.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

La idea tiene precedente académico sólido. Apple publicó en 2023 el estudio “LLM in a Flash”, que exploraba exactamente este principio: los modelos gigantes pueden ejecutarse en dispositivos con poca RAM usando el storage como extensión de memoria, siempre que el acceso esté optimizado para minimizar la latencia. Woods tomó ese paper y, usando Claude Code junto con la metodología autoresearch de Andrej Karpathy, implementó un motor que lleva la teoría a producción. El código está publicado en GitHub con un estudio adjunto sobre su comportamiento.

Lo que hace esta semana diferente es el salto al móvil. En iteraciones previas era una demostración en MacBook Pro con 48 GB de RAM. Ahora es un iPhone de consumo masivo con 12 GB corriendo el mismo modelo de 209 GB en disco.

La velocidad importa, pero no es el punto central

La objeción obvia es que 1,1 tokens por segundo no sirve para conversación fluida. Para un chat usable, necesitas al menos 10-15 tokens por segundo. Esa crítica es técnicamente correcta, pero malentiende qué está pasando.

Flash-MoE es una prueba de concepto arquitectónica, no un producto terminado. La optimización viene después de la demostración de viabilidad. Y los números ya dan esperanza: el mismo motor con modelos más pequeños llega a velocidades perfectamente prácticas en el mismo hardware. En el MacBook con 48 GB, el modelo de 397B ya alcanza velocidades respetables para procesamiento en batch—traducción, análisis de documentos, generación de contenido sin latencia de respuesta en tiempo real.

La trayectoria histórica también importa: los motores de inferencia local han mejorado 10x en eficiencia en los últimos dos años. Si la curva continúa—y no hay razón para creer que no—modelos de 100B+ corriendo en local a velocidades conversacionales en smartphones no es ciencia ficción para 2028.

Las implicaciones que nadie está calculando bien

La cobertura tecnológica se ha centrado en la hazaña técnica. Lo que no se está discutiendo con suficiente profundidad son las consecuencias estructurales.

Privacidad radicalmente distinta: Hoy, cuando usas ChatGPT, Gemini o Claude, cada consulta viaja a un servidor externo. Tus datos de salud, legales, financieros, personales—todos pasan por infraestructura de terceros. Un modelo de 400B corriendo en local cambia esa ecuación: el procesamiento ocurre en tu dispositivo y nada sale de él. Startups como Ensu ya apuestan a que la privacidad on-device tiene mercado, pero hasta ahora ese mercado estaba limitado a modelos pequeños con capacidades reducidas. Flash-MoE abre la puerta a privacidad local con calidad de frontier model.

Conectividad como opción, no como requisito: Los modelos en la nube requieren conexión. Un modelo local de calidad funciona en aviones, en zonas rurales, en situaciones de emergencia, en hospitales con redes aisladas. Para aplicaciones de salud, educación o respuesta a desastres en regiones de LATAM donde la conectividad es irregular, la diferencia entre “funciona en la nube” y “funciona en el dispositivo” no es técnica: es de acceso real a la tecnología.

Fractura del monopolio de inferencia: Hoy, los cinco o seis labs con acceso a infraestructura de inference a escala controlan efectivamente qué calidad de IA puede ofrecer una aplicación. Si la inferencia local de modelos grandes se vuelve viable en hardware de consumo masivo, esa concentración se fractura. Cualquier aplicación puede distribuir un modelo de calidad frontier sin depender de AWS, Azure o GCP—ni de sus precios, sus términos de servicio, ni de sus restricciones regionales.

El hardware que lo hace posible—y el que viene

El iPhone 17 Pro tiene un chip A19 Pro fabricado en proceso de 3nm con una NPU (Neural Processing Unit) significativamente más potente que su predecesor. La arquitectura de memoria unificada de Apple—donde CPU, GPU y neural engine comparten el mismo pool sin cuellos de botella de transferencia entre chips—es lo que hace posible este tipo de experimentos en un factor de forma tan pequeño.

Pero Apple no está sola. El movimiento hacia AI PCs ya está redefiniendo qué hardware personal puede hacer con IA: Snapdragon X Elite, Apple Silicon M4 y M5, AMD Ryzen AI 9 HX tienen NPUs cada vez más capaces. La pregunta ya no es si el hardware personal puede hacer inferencia local—sino cuándo llega a velocidad conversacional para modelos frontier.

Flash-MoE acaba de acortar significativamente esa respuesta.

Por qué importa más allá de la demostración técnica

Esta historia no es solo “mira qué cool, un iPhone corriendo un modelo gigante”. Es la validación práctica de una hipótesis que muchos asumían que tardaría cinco años más en materializarse: que los límites de la IA en dispositivos personales no son fundamentalmente de hardware, sino de arquitectura de software.

El paper de Apple lo predijo en 2023. Tres años después, un desarrollador individual con Claude Code y la metodología autoresearch de Karpathy lo implementó en semanas. Eso dice algo sobre la velocidad real de innovación en el stack de IA en 2026—y sobre quién puede participar en ese progreso. No se necesita un lab con miles de GPUs para empujar los límites del hardware de inferencia. Se necesita un buen paper, las herramientas correctas, y tiempo.

Lo que viene: optimización del motor, modelos MoE diseñados específicamente para inferencia fragmentada en flash, y probablemente integración nativa en Core ML y MLX de Apple en los próximos 18 meses. La demostración técnica ya está hecha. Empieza la ingeniería.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es Flash-MoE y cómo funciona?
La velocidad importa, pero no es el punto central
Las implicaciones que nadie está calculando bien
El hardware que lo hace posible—y el que viene
Por qué importa más allá de la demostración técnica
Fuentes

Flash-MoE: cómo el iPhone 17 Pro ejecuta un modelo de IA de 400B en local

¿Qué es Flash-MoE y cómo funciona?

La velocidad importa, pero no es el punto central

Las implicaciones que nadie está calculando bien

El hardware que lo hace posible—y el que viene

Por qué importa más allá de la demostración técnica

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial