Xiaomi acaba de publicar en GitHub un modelo que debería incomodar a más de uno en Silicon Valley. MiMo-V2-Flash tiene 309 mil millones de parámetros totales pero utiliza solo 15 mil millones por inferencia —menos de la mitad que DeepSeek V3.2— y sin embargo los iguala en código y los supera en matemáticas. El precio: $0.10 por millón de tokens de entrada, alrededor del 3.5% de lo que cobran los modelos cerrados equivalentes.
La empresa de smartphones mejor conocida por sus teléfonos baratos acaba de demostrar que sabe hacer lo mismo con inteligencia artificial.
¿Cómo logra tanto con tan poco?
La clave está en su arquitectura. MiMo-V2-Flash usa una combinación de Sliding Window Attention (SWA) y Global Attention (GA) en proporción 5:1, con una ventana de solo 128 tokens. Esto reduce el almacenamiento de KV-cache en casi 6x respecto a modelos de atención completa. A cambio, un mecanismo de “attention sink bias” aprendido mantiene la coherencia en contextos de hasta 256K tokens.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀El segundo truco es Multi-Token Prediction (MTP): un módulo adicional de apenas 330 millones de parámetros que predice varios tokens en paralelo, logrando hasta 3x más velocidad de salida sin sacrificar calidad. Entrenado con 27 billones de tokens en precisión FP8, el modelo también incorpora destilación con múltiples profesores y reinforcement learning agentic a gran escala para las tareas donde más importa: escribir y depurar código real.
Los números que importan
Los benchmarks son claros y Xiaomi los respalda con código abierto:
- SWE-Bench Verified: 73.4% — el mismo nivel que DeepSeek V3.2, con la mitad de parámetros activos
- AIME 2025: 94.1% — supera a DeepSeek V3.2 (según benchmarks publicados) y está a 0.5 puntos de GPT-5 High
- MMLU-Pro: 73.2% — por encima de modelos con 37B+ de parámetros activos
- Contexto largo: supera a Kimi-K2 en evaluaciones de largo alcance, que es un modelo con atención global completa y mucho mayor
En cuanto al costo, $0.10/$0.30 por millón de tokens entrada/salida lo pone en la categoría de los modelos de razonamiento más baratos disponibles hoy. Para comparar: la guerra de precios de la IA china ya había empujado los costos hacia el suelo, y MiMo-V2-Flash es otra señal de esa tendencia acelerándose.
Por qué importa más allá de los benchmarks
La historia real no es “Xiaomi lanzó un modelo”. La historia es lo que implica para la industria.
Durante dos años, el mantra fue que los modelos de razonamiento más capaces requerían más parámetros, más cómputo, más dinero. DeepSeek quebró esa narrativa con DeepSeek-R1. Kimi-K2 la cuestionó de nuevo. Y ahora MiMo-V2-Flash la destruye desde el ángulo de eficiencia pura: 15B de parámetros activos compitiendo con 37B+ en las métricas que más importan a los desarrolladores.
El modelo es open-weight (disponible en HuggingFace) y también tiene API propietaria. Xiaomi hace lo que Moonshot AI y MiniMax llevan haciendo: publicar modelos capaces como estrategia de adopción mientras monetizan por API. La diferencia es que Xiaomi tiene una red de distribución de hardware global y la reputación de vencer a líderes con precios imposibles.
Para los desarrolladores en LATAM y mercados emergentes que buscan modelos de razonamiento para producción, MiMo-V2-Flash merece atención seria. El contexto de 256K tokens, el rendimiento en tareas agentivas tipo SWE-Bench, y el precio bajo lo hacen competidor directo de alternativas mucho más caras. Sí, hay advertencias sobre posible contaminación en benchmarks —como en todo modelo chino reciente—, pero el código está abierto y los resultados son reproducibles.
Por qué importa
Xiaomi no construyó el modelo más grande. Construyó el más eficiente en su clase. En un ecosistema donde el costo de inferencia es el cuello de botella real para escalar productos de IA, eso es exactamente la apuesta correcta.
La carrera ya no es solo de quién tiene los mejores benchmarks. Es de quién tiene los mejores benchmarks por dólar gastado en inferencia. Y en ese ranking, MiMo-V2-Flash es difícil de ignorar.

