Xiaomi MiMo-V2-Flash: 309B de parámetros, 15B activos y benchmarks de élite

Share

Xiaomi acaba de publicar en GitHub un modelo que debería incomodar a más de uno en Silicon Valley. MiMo-V2-Flash tiene 309 mil millones de parámetros totales pero utiliza solo 15 mil millones por inferencia —menos de la mitad que DeepSeek V3.2— y sin embargo los iguala en código y los supera en matemáticas. El precio: $0.10 por millón de tokens de entrada, alrededor del 3.5% de lo que cobran los modelos cerrados equivalentes.

La empresa de smartphones mejor conocida por sus teléfonos baratos acaba de demostrar que sabe hacer lo mismo con inteligencia artificial.

¿Cómo logra tanto con tan poco?

La clave está en su arquitectura. MiMo-V2-Flash usa una combinación de Sliding Window Attention (SWA) y Global Attention (GA) en proporción 5:1, con una ventana de solo 128 tokens. Esto reduce el almacenamiento de KV-cache en casi 6x respecto a modelos de atención completa. A cambio, un mecanismo de “attention sink bias” aprendido mantiene la coherencia en contextos de hasta 256K tokens.

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

El segundo truco es Multi-Token Prediction (MTP): un módulo adicional de apenas 330 millones de parámetros que predice varios tokens en paralelo, logrando hasta 3x más velocidad de salida sin sacrificar calidad. Entrenado con 27 billones de tokens en precisión FP8, el modelo también incorpora destilación con múltiples profesores y reinforcement learning agentic a gran escala para las tareas donde más importa: escribir y depurar código real.

Los números que importan

Los benchmarks son claros y Xiaomi los respalda con código abierto:

SWE-Bench Verified: 73.4% — el mismo nivel que DeepSeek V3.2, con la mitad de parámetros activos
AIME 2025: 94.1% — supera a DeepSeek V3.2 (según benchmarks publicados) y está a 0.5 puntos de GPT-5 High
MMLU-Pro: 73.2% — por encima de modelos con 37B+ de parámetros activos
Contexto largo: supera a Kimi-K2 en evaluaciones de largo alcance, que es un modelo con atención global completa y mucho mayor

En cuanto al costo, $0.10/$0.30 por millón de tokens entrada/salida lo pone en la categoría de los modelos de razonamiento más baratos disponibles hoy. Para comparar: la guerra de precios de la IA china ya había empujado los costos hacia el suelo, y MiMo-V2-Flash es otra señal de esa tendencia acelerándose.

Por qué importa más allá de los benchmarks

La historia real no es “Xiaomi lanzó un modelo”. La historia es lo que implica para la industria.

Durante dos años, el mantra fue que los modelos de razonamiento más capaces requerían más parámetros, más cómputo, más dinero. DeepSeek quebró esa narrativa con DeepSeek-R1. Kimi-K2 la cuestionó de nuevo. Y ahora MiMo-V2-Flash la destruye desde el ángulo de eficiencia pura: 15B de parámetros activos compitiendo con 37B+ en las métricas que más importan a los desarrolladores.

El modelo es open-weight (disponible en HuggingFace) y también tiene API propietaria. Xiaomi hace lo que Moonshot AI y MiniMax llevan haciendo: publicar modelos capaces como estrategia de adopción mientras monetizan por API. La diferencia es que Xiaomi tiene una red de distribución de hardware global y la reputación de vencer a líderes con precios imposibles.

Para los desarrolladores en LATAM y mercados emergentes que buscan modelos de razonamiento para producción, MiMo-V2-Flash merece atención seria. El contexto de 256K tokens, el rendimiento en tareas agentivas tipo SWE-Bench, y el precio bajo lo hacen competidor directo de alternativas mucho más caras. Sí, hay advertencias sobre posible contaminación en benchmarks —como en todo modelo chino reciente—, pero el código está abierto y los resultados son reproducibles.

Por qué importa

Xiaomi no construyó el modelo más grande. Construyó el más eficiente en su clase. En un ecosistema donde el costo de inferencia es el cuello de botella real para escalar productos de IA, eso es exactamente la apuesta correcta.

La carrera ya no es solo de quién tiene los mejores benchmarks. Es de quién tiene los mejores benchmarks por dólar gastado en inferencia. Y en ese ranking, MiMo-V2-Flash es difícil de ignorar.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Cómo logra tanto con tan poco?
Los números que importan
Por qué importa más allá de los benchmarks
Por qué importa
Fuentes

Xiaomi MiMo-V2-Flash: 309B de parámetros, 15B activos y benchmarks de élite

¿Cómo logra tanto con tan poco?

Los números que importan

Por qué importa más allá de los benchmarks

Por qué importa

Fuentes

Tabla de contenidos [hide]

Patreon al grano: si el fair use es legítimo, ¿por qué pagan a Disney y no a los creadores?

OpenClaw llega a Microsoft Build: de récord en GitHub a la conferencia tech global

Firefox 149 integra VPN gratis: qué cambia y qué no

Cuando 600.000 personas consultan un chatbot legal, la pregunta no es de tecnología

Los intocables de la IA: por qué trabajar con las manos es tu mejor seguro de vida en 2026

Otras noticias

Patreon al grano: si el fair use es legítimo, ¿por qué pagan a Disney y no a los creadores?

OpenClaw llega a Microsoft Build: de récord en GitHub a la conferencia tech global

Firefox 149 integra VPN gratis: qué cambia y qué no

Cuando 600.000 personas consultan un chatbot legal, la pregunta no es de tecnología

Patreon al grano: si el fair use es legítimo, ¿por qué pagan a Disney y no a los creadores?

OpenClaw llega a Microsoft Build: de récord en GitHub a la conferencia tech global

Firefox 149 integra VPN gratis: qué cambia y qué no