Anthropic publica el RSP v3.0: qué cambió en su política de IA más influyente y por qué lo admite con honestidad

Share

Anthropic acaba de publicar la tercera versión de su Responsible Scaling Policy (RSP v3.0), el marco que define cuándo y cómo implementar salvaguardas más estrictas según aumentan las capacidades de sus modelos. Dos años y medio después de la versión original, la empresa hace un balance honesto: algunas cosas funcionaron, otras no. Y ahora ajusta el rumbo.

Esta es quizás la política de seguridad en IA más influyente que existe: inspiró los frameworks equivalentes de OpenAI y Google DeepMind, y sus principios están encontrando camino en leyes como SB 53 en California, el RAISE Act en Nueva York y los Codes of Practice del EU AI Act. Entender qué cambió en la v3.0 es entender hacia dónde va la gobernanza de IA.

¿Qué es el RSP y cómo funciona?

La idea central del RSP es simple pero potente: compromisos condicionales. Si un modelo supera ciertos umbrales de capacidad, se activan salvaguardas más estrictas. Esto se estructura en niveles llamados ASL (AI Safety Levels):

  • ASL-2: Salvaguardas para modelos actuales. Controles básicos de despliegue.
  • ASL-3: Para modelos que podrían asistir significativamente en la creación de armas CBRN (químicas, biológicas, radiológicas, nucleares). Se activó en mayo de 2025 para los modelos de Anthropic que alcanzaron ese umbral. Incluye clasificadores de input/output para bloquear contenido peligroso.
  • ASL-4 y más allá: Para capacidades de IA aún no existentes. Anteriormente estaban poco definidas; la v3.0 les da más estructura.

El RSP nació en septiembre de 2023, cuando los LLMs eran básicamente chatbots. Hoy pueden navegar la web, escribir y ejecutar código, controlar computadores y tomar acciones autónomas de varios pasos. La v3.0 responde a ese mundo más complejo.

Qué funcionó (y qué no)

Anthropic hace un balance explícito, lo que no es común en el sector. Los logros:

  • Forzante interno real: El RSP obligó a tratar las salvaguardas como requisitos de lanzamiento, no como lista de deseos. Esto aceleró el desarrollo de herramientas de seguridad dentro de Anthropic.
  • Efecto multiplicador: OpenAI publicó su Preparedness Framework meses después del RSP original. Google DeepMind hizo lo mismo con su Frontier Safety Framework. La “carrera hacia arriba” funcionó, al menos parcialmente.
  • Influencia regulatoria: Los principios del RSP están directamente referenciados en legislación emergente en EE.UU. y Europa.

Los fracasos son igual de relevantes. El más importante: la idea de que los umbrales de capacidad servirían para crear consenso global sobre riesgos concretos no se materializó. Cuando Anthropic activó ASL-3, eso no generó la presión multilateral para que otros labs o gobiernos actuaran de forma coordinada. La industria siguió corriendo.

Las principales novedades de la v3.0

La v3.0 introduce cambios en tres ejes:

  • Mayor transparencia y accountability: Anthropic se compromete a hacer más públicas sus evaluaciones de capacidad y las decisiones que toma. Esto incluye su Frontier Compliance Framework, ya disponible en el trust center de la empresa.
  • ASL-4 más definido: Los niveles superiores del ASL ya no son solo un marcador de posición. La v3.0 empieza a especificar qué capacidades activarían ASL-4 y qué salvaguardas correspondería aplicar.
  • Reconocimiento de las limitaciones unilaterales: Para los niveles más altos de capacidad, Anthropic acepta explícitamente que las contramédidas necesarias son imposibles de implementar solo. El documento plantea abiertamente la necesidad de coordinación con gobiernos a nivel mundial.

El contexto importa: misma semana, dos noticias de Anthropic

La publicación del RSP v3.0 coincide casi exactamente con la denuncia de Anthropic sobre los ataques de destilación de DeepSeek, Moonshot y MiniMax. La coincidencia no es casual: ambas noticias articulan la misma tensión —Anthropic avanzando en capacidades de frontera mientras enfrenta actores que intentan acceder a esas capacidades sin los controles de seguridad asociados.

El RSP v3.0 también llega meses después de que Claude Sonnet 4.6 lograra 79.6% en SWE-bench Verified, marcando un salto real en capacidades agénticas. Cuanto más capaces sean los modelos, más urgente se vuelve el marco que define cómo desplegarlos.

Por qué importa

El RSP no es solo burocracia corporativa. Es el documento que define cuándo Anthropic frena, cuándo acelera y qué condiciones tienen que cumplirse para cada cosa. La v3.0 es más honesta sobre sus limitaciones que las versiones anteriores, lo cual es en sí mismo una señal positiva: reconoce que la política de una sola empresa no puede resolver problemas que requieren coordinación multilateral.

Para quienes trabajan con IA en LATAM, el RSP tiene implicaciones prácticas: las APIs de Claude, las capacidades disponibles, los usos que están permitidos o bloqueados —todo eso está determinado en última instancia por este tipo de política. Entender el marco es entender las reglas del juego en las que operamos.

La versión completa del RSP v3.0 está disponible públicamente en el sitio de Anthropic. Vale la pena leerla.


Fuentes

Leer más

Otras noticias