Mistral Small 4: un modelo que unifica razonamiento, visión y código bajo licencia abierta

Share

Mistral lanzó hoy un modelo que, a pesar del nombre, no tiene nada de pequeño: 119.000 millones de parámetros totales, licencia Apache 2.0, y una arquitectura que por primera vez integra razonamiento, visión y código en un solo modelo. El resultado es Mistral Small 4, y su propuesta es directa: en vez de elegir entre un modelo rápido, uno que razona o uno que entiende imágenes, este hace los tres.

Hasta ahora, Mistral tenía modelos separados para cada tarea: Magistral para razonamiento, Pixtral para multimodal, Devstral para código. Small 4 los colapsa en uno. No es una actualización menor.

¿Qué hace Mistral Small 4 que otros no hacen igual?

La clave está en el parámetro reasoning_effort. Puedes decirle al modelo en qué modo operar:

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

reasoning_effort=”none”: respuestas rápidas, ligeras, equivalente a Mistral Small 3.2. Para chats cotidianos.
reasoning_effort=”high”: razonamiento paso a paso, con la profundidad de Magistral. Para matemáticas, código complejo, decisiones de varios pasos.

Técnicamente es un Mixture of Experts (MoE): 119B parámetros totales, pero solo 6B activos por token (8B incluyendo capas de embedding). Eso hace que sea eficiente en inferencia a pesar del tamaño total. Con una ventana de contexto de 256k tokens, soporta documentos largos o conversaciones extendidas sin perder hilo.

Los números de rendimiento que presenta Mistral son interesantes: 40% menos latencia respecto a Small 3 en configuración optimizada para velocidad, y 3x más solicitudes por segundo en modo throughput. En benchmarks como LiveCodeBench, supera a GPT-OSS 120B generando un 20% menos de tokens — lo que en la práctica se traduce en respuestas más cortas y costos de inferencia más bajos.

¿Por qué importa que sea open source?

Apache 2.0 significa que cualquiera puede usarlo, modificarlo y desplegarlo en producción sin restricciones de licencia. No hay llamada a una API de terceros, no hay términos de uso que cambien un día con una notificación, no hay lock-in.

El modelo ya está disponible en Hugging Face (242 GB), con soporte en vLLM, llama.cpp, SGLang y Transformers. Para hardware mínimo viable, Mistral indica 4x NVIDIA HGX H100 — nada que tengas en casa, pero razonable para un equipo de ingeniería o una startup.

También es la primera vez que Mistral se une a una coalición de modelos abiertos con NVIDIA (NVIDIA Nemotron Coalition), lo cual dice algo sobre hacia dónde va la empresa: no solo competir con OpenAI en la API, sino posicionarse como la alternativa abierta de referencia.

Qué cambia para quien desarrolla

Si usas LLMs en producción, el argumento de Small 4 es el de la consolidación: un solo modelo para múltiples tareas, controlable en cuánta computación y latencia gastas según el caso. Hoy puede que tengas un pipeline con diferentes modelos según la tarea — uno para clasificar, otro para razonar, otro para analizar imágenes. Small 4 apunta a simplificar esa arquitectura.

El tradeoff real es el hardware. 119B parámetros no corren en cualquier lado. Para inferencia local necesitas infraestructura seria. Pero para despliegues en la nube o en servidores propios con varias GPUs, la eficiencia del MoE hace que el costo por token sea manejable.

La tendencia de modelos eficientes como Nemotron 3 Super de NVIDIA apunta en la misma dirección: la guerra ya no es solo de capacidad bruta, sino de rendimiento por token. Small 4 entra en esa pelea con uno de los argumentos más sólidos hasta ahora en el espacio open source. Y comparado con la estrategia de Qwen de publicar modelos pequeños muy capaces, Mistral toma el camino opuesto: un modelo grande que se comporta como pequeño cuando se le pide.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué hace Mistral Small 4 que otros no hacen igual?
¿Por qué importa que sea open source?
Qué cambia para quien desarrolla
Fuentes

Mistral Small 4: un modelo que unifica razonamiento, visión y código bajo licencia abierta

¿Qué hace Mistral Small 4 que otros no hacen igual?

¿Por qué importa que sea open source?

Qué cambia para quien desarrolla

Fuentes

Tabla de contenidos [hide]

Compactar contexto no es perder memoria: cómo los agentes de IA aprenden a olvidar bien

Cuando la IA escribe código, verificar se convierte en el trabajo más importante

Tucuvi y Lola: la IA que llama a tus pacientes ya opera en 60 hospitales

La SEC propone reportes semestrales: qué cambia para startups tech

COVENANT-72B: entrenar un LLM de 72.000 millones de parámetros sin un solo datacenter centralizado

Otras noticias

Compactar contexto no es perder memoria: cómo los agentes de IA aprenden a olvidar bien

Cuando la IA escribe código, verificar se convierte en el trabajo más importante

Tucuvi y Lola: la IA que llama a tus pacientes ya opera en 60 hospitales

La SEC propone reportes semestrales: qué cambia para startups tech

Compactar contexto no es perder memoria: cómo los agentes de IA aprenden a olvidar bien

Cuando la IA escribe código, verificar se convierte en el trabajo más importante

Tucuvi y Lola: la IA que llama a tus pacientes ya opera en 60 hospitales