GPT-5.4 mini y nano: velocidad para subagentes, precio más alto

Share

OpenAI lanzó hoy GPT-5.4 mini y GPT-5.4 nano, dos modelos compactos que llegan justo cuando el ecosistema empieza a moverse de “un modelo para todo” hacia arquitecturas con múltiples agentes especializados. El timing no es casual.

Pero antes de emocionarse: ambos modelos cuestan entre 3x y 4x más que sus predecesores en la línea GPT-5. Eso no cancela el lanzamiento. Lo pone en perspectiva.

¿Qué son exactamente y para qué sirven?

GPT-5.4 mini es el modelo compacto de la familia GPT-5.4 —la misma que OpenAI lanzó hace dos semanas con control nativo de computador y ventana de 1M tokens. El mini corre más de 2x más rápido que GPT-5 mini, soporta 400.000 tokens de contexto, y está optimizado para: asistentes de código que necesitan baja latencia, subagentes que ejecutan tareas paralelas, computer use (interpretación de capturas de pantalla), y aplicaciones multimodales.

IA para el Resto de Nosotros

La nueva versión de mi curso estrella para aprender a usar la IA de forma práctica, simple y útil en tu día a día. Comienza el 24 de marzo.

→ Inscríbete hoy 🚀

GPT-5.4 nano es la versión más pequeña y barata de la línea. No tiene la potencia del mini —especialmente en computer use (39% en OSWorld vs 72% del mini)— pero para tareas de clasificación, extracción de datos, ranking y subagentes simples, es el modelo más eficiente del catálogo.

El rendimiento real: ¿cuánto se pierde frente al modelo grande?

En los benchmarks que más importan para producción, GPT-5.4 mini es sorprendentemente cercano al modelo completo:

SWE-Bench Pro (código): 54.4% vs 57.7% del modelo grande. El mini resuelve el 94% de lo que resuelve el tope.
OSWorld-Verified (computer use): 72.1% vs 75.0%. Un salto enorme respecto a GPT-5 mini que solo lograba 42%.
GPQA Diamond (razonamiento): 88.0% vs 93.0%.
Terminal-Bench 2.0: 60.0% vs 75.1%.

GPT-5.4 nano baja más abruptamente en computer use (39%) y en benchmarks de largo contexto, pero sigue siendo competitivo en tareas simples. Y tiene un número que lo resume bien: Simon Willison calculó que con nano puedes describir 76.000 fotos por $52. A $0.20 por millón de tokens de entrada y $1.25 por millón de salida, el nano es incluso más barato que Gemini 3.1 Flash-Lite de Google, que cuesta $0.25/$1.50.

El alza de precio: la parte que el comunicado no enfatiza

Aquí está el dato que importa. Comparado con la generación anterior:

GPT-5.4 mini: $0.75 input / $4.50 output por millón de tokens. GPT-5 mini costaba $0.25/$2.00. Eso es 3x el input y 2.25x el output.
GPT-5.4 nano: $0.20 input / $1.25 output. GPT-5 nano costaba $0.05/$0.40. Eso es 4x el input y 3.1x el output.

OpenAI justifica el alza con los saltos de rendimiento —y tiene razón en que mini es un modelo materialmente mejor que GPT-5 mini. Pero para operaciones de alto volumen, el cambio cambia la economía del proyecto. Una aplicación que procesa millones de documentos con nano puede ver su factura de API multiplicarse por 4 si migra sin revisar el diseño.

El punto no es que el precio sea injusto. Es que la ecuación cambió y hay que recalcularla.

La apuesta de fondo: arquitecturas de subagentes

Lo más interesante del lanzamiento no está en los benchmarks sino en el diseño del sistema. OpenAI está explícitamente modelando el uso ideal como una pirámide: un modelo grande (GPT-5.4) que coordina y toma decisiones, y múltiples modelos pequeños (mini o nano) que ejecutan subtareas en paralelo.

En Codex, el ejemplo concreto es este: GPT-5.4 maneja el plan general, y mini se delegan tareas como buscar en el codebase, revisar archivos largos o procesar documentos de soporte. Mini usa solo el 30% del quota de GPT-5.4 en Codex, lo que reduce a un tercio el costo de las tareas simples cuando se compone bien el sistema.

Este patrón ya existe —hay evidencia de que 3 agentes especializados rinden mejor que uno generalista— pero ahora OpenAI lo está codificando directamente en su catálogo de modelos. Mini es el subagente. Nano es el subagente más barato para las tareas menos intensivas.

¿Qué modelo elegir para qué?

Una guía práctica basada en los datos:

GPT-5.4 mini: Asistentes de código responsivos, computer use a escala, subagentes con razonamiento moderado, multimodal con latencia controlada. Si necesitas un modelo “casi top” a costo reducido para pipelines de producción.
GPT-5.4 nano: Clasificación masiva de documentos, extracción de datos, scoring, subagentes simples que solo necesitan seguir instrucciones claras. No para computer use ni contextos largos complejos.
GPT-5.4 completo: Coordinación de agentes, tareas que requieren los 1M tokens de contexto, razonamiento complejo, casos donde el rendimiento marginal justifica el precio.

Un detalle que distingue mini de nano en visión: mini casi iguala al modelo grande en OSWorld (72.1% vs 75%), mientras que nano cae a 39%. Si tu workflow incluye capturar e interpretar interfaces de usuario, mini es la única alternativa viable al modelo completo.

Por qué importa: más que dos modelos nuevos

Lo que OpenAI está haciendo es una segmentación deliberada del mercado de modelos de lenguaje, con precios que reflejan valor diferenciado y no solo costo de cómputo. Google hizo algo parecido con Gemini 3.1 Flash-Lite para el segmento barato, y la presión competitiva va a seguir empujando precios y rendimiento juntos.

El efecto práctico para desarrolladores es que en 2026 ya no tiene mucho sentido pensar en “qué modelo uso” como una decisión única. La pregunta es qué capa del sistema merece qué nivel de capacidad. Mini para ejecución, nano para volumen, el grande para dirección. La diferencia entre un pipeline de IA que funciona y uno que quiebra en producción puede estar ahí.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué son exactamente y para qué sirven?
El rendimiento real: ¿cuánto se pierde frente al modelo grande?
El alza de precio: la parte que el comunicado no enfatiza
La apuesta de fondo: arquitecturas de subagentes
¿Qué modelo elegir para qué?
Por qué importa: más que dos modelos nuevos
Fuentes

GPT-5.4 mini y nano: velocidad para subagentes, precio más alto

¿Qué son exactamente y para qué sirven?

El rendimiento real: ¿cuánto se pierde frente al modelo grande?

El alza de precio: la parte que el comunicado no enfatiza

La apuesta de fondo: arquitecturas de subagentes

¿Qué modelo elegir para qué?

Por qué importa: más que dos modelos nuevos

Fuentes

Tabla de contenidos [hide]

SSH no tiene Host Header: la limitación que nadie te enseña cuando construyes SaaS

El nombre del ejecutable siempre fue una interfaz de configuración

steipete habla en Microsoft Build 2026: el impacto de OpenClaw trasciende las rivalidades

Stablecoins como infraestructura: el caso TransFi y los $19M que cambian los pagos globales

xAI ficha a banqueros de Wall Street para convertir a Grok en asesor financiero

Otras noticias

SSH no tiene Host Header: la limitación que nadie te enseña cuando construyes SaaS

El nombre del ejecutable siempre fue una interfaz de configuración

steipete habla en Microsoft Build 2026: el impacto de OpenClaw trasciende las rivalidades

Stablecoins como infraestructura: el caso TransFi y los $19M que cambian los pagos globales

SSH no tiene Host Header: la limitación que nadie te enseña cuando construyes SaaS

El nombre del ejecutable siempre fue una interfaz de configuración

steipete habla en Microsoft Build 2026: el impacto de OpenClaw trasciende las rivalidades