Los Transformers dominan la IA generativa desde 2017. GPT, Claude, Gemini — todos construidos sobre la misma arquitectura de atención que escala cuadráticamente con el largo del contexto: a doble de tokens, cuádruple de cómputo. Durante años, eso fue aceptable porque los contextos eran cortos. Hoy, con aplicaciones que procesan documentos legales completos, historiales médicos extensos o conversaciones de semanas, el costo computacional empieza a ser un problema real.
Mamba-3, publicado en octubre de 2025 y presentado en OpenReview, propone una alternativa basada en State Space Models (SSMs) que cambia esa ecuación. No es la primera vez que alguien intenta reemplazar al Transformer — pero es la primera vez en años que los resultados empíricos se sostienen bajo escrutinio académico serio.
¿Qué es un State Space Model y por qué importa?
Los Transformers procesan secuencias con un mecanismo de atención que compara cada token contra todos los demás. Eso los hace muy buenos para capturar relaciones de largo alcance en el texto, pero tiene un costo: escala O(n²). Con 100 tokens, calculas 10.000 pares de atención. Con 10.000 tokens, calculas 100 millones.
IA para el Resto de Nosotros
La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.
→ Inscríbete hoy 🚀Los SSMs como Mamba funcionan diferente: mantienen un “estado” comprimido de la secuencia que se actualiza de forma incremental a medida que llegan nuevos tokens. La complejidad es lineal — O(n). Doble de tokens, doble de cómputo, no cuádruple.
Mamba-3 lleva esto más lejos con algoritmos hardware-aware que aprovechan la jerarquía de memoria de las GPUs modernas. El resultado según el paper: un modelo de 3B parámetros usa aproximadamente 5,5 GB de memoria y alcanza hasta 5x mayor throughput en inferencias con contexto largo, comparado con Transformers del mismo tamaño.
¿Supera realmente a los Transformers?
La pregunta honesta merece una respuesta matizada. En tareas de modelado de lenguaje estándar, Mamba-3 reporta una mejora de ~4% respecto a Transformers del mismo tamaño — y rendimiento comparable a Transformers el doble de grandes. Para secuencias largas específicamente, las ventajas de eficiencia son reales y medibles.
Donde los Transformers siguen siendo superiores: razonamiento complejo que requiere mucha atención cruzada entre partes distantes del contexto, few-shot learning con ejemplos en el prompt, y ciertas tareas de codificación donde el modelo necesita “ver” simultáneamente muchas partes del código base. Los SSMs procesan el contexto de forma más “lineal” — son excelentes comprimiendo información a medida que la leen, pero no tan buenos volviendo a partes anteriores con la misma libertad que un Transformer.
Esto ha llevado a una tendencia interesante: las arquitecturas híbridas Transformer+Mamba, que combinan capas de atención en posiciones estratégicas con bloques Mamba para el resto. Varios modelos recientes de Nvidia (como Nemotron 3 Super) adoptan exactamente esta estrategia.
Por qué importa para quienes construyen con LLMs
Mamba-3 se publica bajo licencia Apache 2.0, lo que significa uso comercial libre y sin restricciones de distribución. Está disponible en Hugging Face para fine-tuning directo. Eso lo pone al alcance de cualquier equipo que quiera entrenar o adaptar un modelo de lenguaje sin depender de los APIs de las empresas frontera.
Las implicaciones son concretas para tres casos de uso:
Contextos muy largos a bajo costo: Si tu aplicación necesita procesar contratos legales completos, historiales clínicos o transcripciones de reuniones enteras, Mamba-3 puede hacerlo con menos memoria y menos tiempo de inferencia que un Transformer equivalente. Para startups con restricciones de cloud, ese ahorro se traduce en márgenes.
Edge e IoT: La eficiencia en memoria hace que modelos de 3B parámetros sean más viables en hardware intermedio. Hay casos de uso en monitoreo agrícola, análisis de sensores industriales y procesamiento local donde el modelo necesita correr en un dispositivo, no en un servidor.
Idiomas no dominantes: Fine-tuning en español u otras lenguas latinas sobre una arquitectura eficiente en cómputo es más accesible que hacerlo sobre un Transformer grande. El costo de entrenar o adaptar un Mamba-3 de 3B parámetros es significativamente menor que hacer lo mismo con Llama o Mistral de tamaño equivalente.
Por qué importa (el panorama real)
Mamba-3 no va a reemplazar a los Transformers a corto plazo. GPT-5, Claude Sonnet 4.6 y Gemini siguen siendo Transformers — y lo seguirán siendo mientras el ecosistema de herramientas, benchmarks y hardware esté optimizado para esa arquitectura. Cambiar eso toma años.
Lo que Mamba-3 sí cambia es el espacio de posibilidades para quienes construyen modelos especializados, modelos locales o aplicaciones con contexto largo. No es la revolución que derrocará al Transformer, pero sí es el indicador más claro hasta ahora de que la arquitectura dominante tiene un sucesor potencialmente serio, y que ese sucesor está disponible para que cualquier equipo lo use hoy.
Para builders en LATAM que trabajan con limitaciones de infraestructura, Apache 2.0 + eficiencia real + disponibilidad inmediata es exactamente la combinación correcta.

