A2UI: el protocolo que enseña a los agentes de IA a hablar en interfaces, no solo en texto

Share

Google publicó A2UI en diciembre de 2025 y el ecosistema ya lo está adoptando: es el protocolo que permite a los agentes de IA generar interfaces gráficas reales, no solo texto, y enviárselas al usuario de forma segura. Si trabajas con agentes o construyes productos sobre modelos de lenguaje, esto cambia cómo piensas la capa de interacción.

Hasta ahora, la experiencia típica con un agente era conversacional: preguntas en texto, respuestas en texto. Funciona, pero deja sobre la mesa una enorme cantidad de productividad. Imagina pedirle a un agente que reserve una mesa para dos: el intercambio de mensajes se vuelve torpe cuando podrías simplemente ver un selector de fecha y hora y hacer clic. A2UI resuelve exactamente eso.

¿Qué es A2UI y cómo funciona?

A2UI (Agent to UI) es un protocolo declarativo de código abierto publicado por Google en diciembre de 2025. En lugar de que el agente responda con texto plano o envíe HTML ejecutable (lo que sería un riesgo de seguridad enorme), el agente describe en un mensaje JSON estructurado qué componentes de interfaz quiere mostrar. El cliente recibe ese JSON, lo parsea y renderiza la UI con sus propios componentes nativos, dentro de su propio perímetro de confianza.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

El lema que resume el diseño: safe like data, but expressive like code. El agente nunca ejecuta código en el cliente; solo describe intenciones.

El flujo en cinco pasos

Generación del JSON: el agente interpreta la intención del usuario y produce una descripción declarativa de los componentes (formulario, tabla, selector, tarjeta, etc.).
Transmisión: ese JSON viaja desde el servidor al cliente vía API o WebSocket, identificado con el MIME type application/json+a2ui.
Parseo incremental: la app cliente construye el árbol de componentes progresivamente, a medida que llegan los tokens. Importante: la estructura es plana (referencias por ID), no anidada, lo que es ideal porque los LLMs generan contenido de forma incremental.
Renderizado nativo: un renderer mapea los tipos abstractos a widgets de la plataforma destino. React en web, Flutter en móvil, Angular, SwiftUI en iOS. El cliente controla el estilo y la identidad visual.
Retroalimentación: las acciones del usuario (clics, inputs, selecciones) viajan de vuelta al agente por un canal separado, cerrando el ciclo.

¿Por qué el modelo de seguridad importa en enterprises?

El mayor bloqueador para adoptar IA en entornos corporativos es el riesgo de ejecutar código no controlado. A2UI lo ataca de raíz: el agente nunca envía HTML ni JavaScript ejecutable. Solo envía una descripción de intención. El cliente, dentro del perímetro de confianza de la organización, decide cómo renderizarla usando componentes previamente aprobados.

Esta separación opera en tres capas: estructura de UI, estado de la aplicación y renderizado del cliente. El resultado soporta data binding reactivo y actualizaciones en tiempo real sin sacrificar el control corporativo sobre lo que se ejecuta. Para startups que venden a clientes enterprise, esto puede ser la diferencia entre cerrar un contrato o perderlo en el proceso de revisión de seguridad.

El contexto: multi-agent mesh y A2A

A2UI no surge en el vacío. Google lo lanzó junto al protocolo A2A (Agent-to-Agent), donado a la Linux Foundation, que define cómo los agentes se comunican entre sí a través de distintas organizaciones y tecnologías. A2A resuelve la comunicación agente-agente; A2UI resuelve la comunicación agente-usuario.

En el ecosistema de agentes en 2026 —donde un agente de Google puede estar orquestando subagentes de Cisco, SAP o Salesforce— la capa de UI necesita ser igual de interoperable que la capa de comunicación. A2UI es la respuesta a esa necesidad.

La actualización de primavera 2026 del proyecto sumó integración con OpenClaw, soporte para ADK Python, y más frameworks de renderizado. Herramientas como Cursor Automations y otros agentes de código están adoptando el protocolo como capa estándar de interacción con el usuario final.

¿Quién debería prestarle atención?

Si estás construyendo un producto que incluye un agente de IA —chatbot, asistente, copiloto, workflow automatizado— A2UI te da una forma estándar e interoperable de hacer que ese agente muestre interfaces ricas sin comprometer la seguridad. Ya no tienes que elegir entre “respuesta en texto plano” y “el agente genera código que se ejecuta en el cliente”. Hay un tercer camino.

El proyecto está en GitHub (github.com/google/A2UI) y en a2ui.org, con spec, renderers y ejemplos. Está en etapa temprana, lo que significa que todavía hay espacio para que la comunidad influya en su dirección.

Por qué importa

El cuello de botella de los agentes hoy no suele ser el modelo; es la capa que conecta la inteligencia con la acción humana. Un agente que solo puede hablar en texto está limitado de la misma manera que una app sin interfaz gráfica estaba limitada en 1985. A2UI es el primer intento serio y abierto de estandarizar esa capa, con un modelo de seguridad que funciona en entornos reales.

La apuesta de Google es que el ecosistema de agentes necesita esta pieza tanto como necesitaba A2A. Si el protocolo gana adopción —y las señales de la primavera de 2026 son alentadoras— cambia fundamentalmente cómo se construyen los productos de IA: el agente no es solo el cerebro, también es el diseñador de la interfaz.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Qué es A2UI y cómo funciona?
El flujo en cinco pasos
¿Por qué el modelo de seguridad importa en enterprises?
El contexto: multi-agent mesh y A2A
¿Quién debería prestarle atención?
Por qué importa
Fuentes

A2UI: el protocolo que enseña a los agentes de IA a hablar en interfaces, no solo en texto

¿Qué es A2UI y cómo funciona?

El flujo en cinco pasos

¿Por qué el modelo de seguridad importa en enterprises?

El contexto: multi-agent mesh y A2A

¿Quién debería prestarle atención?

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial