Mistral lanzó hoy un modelo que, a pesar del nombre, no tiene nada de pequeño: 119.000 millones de parámetros totales, licencia Apache 2.0, y una arquitectura que por primera vez integra razonamiento, visión y código en un solo modelo. El resultado es Mistral Small 4, y su propuesta es directa: en vez de elegir entre un modelo rápido, uno que razona o uno que entiende imágenes, este hace los tres.
Hasta ahora, Mistral tenía modelos separados para cada tarea: Magistral para razonamiento, Pixtral para multimodal, Devstral para código. Small 4 los colapsa en uno. No es una actualización menor.
¿Qué hace Mistral Small 4 que otros no hacen igual?
La clave está en el parámetro reasoning_effort. Puedes decirle al modelo en qué modo operar:
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀- reasoning_effort=”none”: respuestas rápidas, ligeras, equivalente a Mistral Small 3.2. Para chats cotidianos.
- reasoning_effort=”high”: razonamiento paso a paso, con la profundidad de Magistral. Para matemáticas, código complejo, decisiones de varios pasos.
Técnicamente es un Mixture of Experts (MoE): 119B parámetros totales, pero solo 6B activos por token (8B incluyendo capas de embedding). Eso hace que sea eficiente en inferencia a pesar del tamaño total. Con una ventana de contexto de 256k tokens, soporta documentos largos o conversaciones extendidas sin perder hilo.
Los números de rendimiento que presenta Mistral son interesantes: 40% menos latencia respecto a Small 3 en configuración optimizada para velocidad, y 3x más solicitudes por segundo en modo throughput. En benchmarks como LiveCodeBench, supera a GPT-OSS 120B generando un 20% menos de tokens — lo que en la práctica se traduce en respuestas más cortas y costos de inferencia más bajos.
¿Por qué importa que sea open source?
Apache 2.0 significa que cualquiera puede usarlo, modificarlo y desplegarlo en producción sin restricciones de licencia. No hay llamada a una API de terceros, no hay términos de uso que cambien un día con una notificación, no hay lock-in.
El modelo ya está disponible en Hugging Face (242 GB), con soporte en vLLM, llama.cpp, SGLang y Transformers. Para hardware mínimo viable, Mistral indica 4x NVIDIA HGX H100 — nada que tengas en casa, pero razonable para un equipo de ingeniería o una startup.
También es la primera vez que Mistral se une a una coalición de modelos abiertos con NVIDIA (NVIDIA Nemotron Coalition), lo cual dice algo sobre hacia dónde va la empresa: no solo competir con OpenAI en la API, sino posicionarse como la alternativa abierta de referencia.
Qué cambia para quien desarrolla
Si usas LLMs en producción, el argumento de Small 4 es el de la consolidación: un solo modelo para múltiples tareas, controlable en cuánta computación y latencia gastas según el caso. Hoy puede que tengas un pipeline con diferentes modelos según la tarea — uno para clasificar, otro para razonar, otro para analizar imágenes. Small 4 apunta a simplificar esa arquitectura.
El tradeoff real es el hardware. 119B parámetros no corren en cualquier lado. Para inferencia local necesitas infraestructura seria. Pero para despliegues en la nube o en servidores propios con varias GPUs, la eficiencia del MoE hace que el costo por token sea manejable.
La tendencia de modelos eficientes como Nemotron 3 Super de NVIDIA apunta en la misma dirección: la guerra ya no es solo de capacidad bruta, sino de rendimiento por token. Small 4 entra en esa pelea con uno de los argumentos más sólidos hasta ahora en el espacio open source. Y comparado con la estrategia de Qwen de publicar modelos pequeños muy capaces, Mistral toma el camino opuesto: un modelo grande que se comporta como pequeño cuando se le pide.

