Los agentes de IA ya trabajan solos hasta 45 minutos: qué dice el estudio de Anthropic sobre autonomía real

Share

Los agentes de IA ya no esperan instrucciones paso a paso. Un nuevo estudio de Anthropic analizó millones de interacciones reales con Claude Code y la API pública para responder una pregunta clave: ¿cuánta autonomía le damos a los agentes de IA en la práctica, y hacia dónde va eso?

Las respuestas son concretas, sorprendentes y tienen implicaciones directas para cualquier persona que trabaje con herramientas de IA agéntica.

Los agentes ya trabajan durante casi una hora sin supervisión

Entre octubre de 2025 y enero de 2026, el tiempo que Claude Code trabaja de forma autónoma antes de detenerse casi se duplicó: pasó de menos de 25 minutos a más de 45 minutos en las sesiones más largas (percentil 99.9). Lo interesante es que este aumento es continuo entre versiones del modelo, lo que sugiere que no se trata solo de que el modelo sea más capaz, sino de que los usuarios están aprendiendo a darle más rienda suelta.

En otras palabras: los modelos actuales ya son capaces de más autonomía de la que normalmente ejercen. El freno está en los humanos, no en la IA.

¿Cómo cambia el comportamiento del usuario con la experiencia?

Anthropic encontró un patrón claro en cómo los usuarios gestionan la autonomía:

  • Usuarios nuevos: Aproximadamente el 20% de las sesiones usan “auto-aprobación completa” (dejan que Claude actúe sin revisar cada acción).
  • Usuarios experimentados (tras ~750 sesiones): El porcentaje de auto-aprobación supera el 40%, pero también interrumpen más frecuentemente cuando algo no va bien.
  • El patrón paradójico: A más experiencia, más autonomía concedida Y más interrupciones activas. Los usuarios expertos no se desconectan; se vuelven supervisores selectivos en lugar de revisores constantes.

¿Quién para más: ¿el humano o la IA?

Uno de los hallazgos más llamativos del estudio: en las tareas más complejas, Claude Code se detiene para pedir aclaraciones más del doble de veces que los humanos lo interrumpen. El agente es, en muchos sentidos, más cauteloso que el operador humano.

Esto contradice el relato de “la IA desbocada que actúa sin control”. En la práctica real, el agente sabe cuándo no tiene suficiente información y pide ayuda.

¿Dónde se usan los agentes hoy?

El análisis de la API pública de Anthropic reveló que casi el 50% de toda la actividad agéntica es ingeniería de software. Es el dominio dominante y claro. Pero hay señales emergentes en áreas de mayor riesgo:

  • Salud: Uso emergente pero aún marginal
  • Finanzas: Crecimiento observado en automatización de análisis
  • Ciberseguridad: Uso en expansión para detección y respuesta

La mayoría de las acciones agénticas son de bajo riesgo y reversibles. Pero el estudio advierte: esto no durará. La escala en dominios de alto impacto es cuestión de tiempo.

Cómo midieron todo esto

Anthropic usó su herramienta Clio, que preserva la privacidad al analizar interacciones, para estudiar dos fuentes:

  • API pública: Miles de clientes distintos, visibilidad amplia pero análisis a nivel de llamadas individuales a herramientas (sin poder reconstruir sesiones completas)
  • Claude Code: Profundidad completa de sesiones, con secuencias de acciones y contexto temporal

El desafío técnico es real: los proveedores de modelos no pueden asociar fácilmente múltiples llamadas a la API en una misma “sesión agéntica” de un cliente, lo que limita la visibilidad sobre cómo los agentes operan en producción.

Por qué importa

Este estudio marca un hito porque convierte algo hasta ahora abstracto —”los agentes van a tomar más autonomía”— en datos concretos de cómo esto ya está pasando.

La señal más importante no es el número de minutos. Es el patrón de comportamiento: los usuarios están delegando más, pero los que tienen experiencia real están desarrollando un nuevo tipo de supervisión activa y selectiva. No es “déjalo correr y reza”. Es “dame la autonomía que puedas demostrar merecer”.

Para los equipos que están adoptando agentes de IA hoy —en código, en análisis, en automatización— esto tiene implicaciones prácticas claras: la infraestructura de monitoreo post-despliegue no es opcional. Es la siguiente capa de control humano que el ecosistema necesita construir. Sin ella, la escala en dominios de alto riesgo va a ser un problema antes de lo esperado.

Si te interesa cómo los agentes de código funcionan en la práctica, el informe DORA 2025 sobre IA y desarrolladores muestra la otra cara: el burnout y la caída de estabilidad cuando la velocidad se impone sin control. Y si usas Claude Code directamente, Argus te da visibilidad real sobre lo que hace tu agente en cada sesión.


Fuentes

Leer más

Otras noticias