El Eje del Asistente: por qué los LLMs se van de personaje y cómo Anthropic aprendió a frenarlo

Share

Cuando chateas con un modelo de lenguaje, estás hablando con un personaje. Anthropic acaba de publicar una investigación que mapea ese personaje con precisión quirúrgica — y los resultados explican por qué los LLMs a veces se vuelven peligrosos durante conversaciones que parecen totalmente inocentes.

La clave es lo que los investigadores llaman el Eje del Asistente (Assistant Axis): una dirección específica en el espacio de activaciones neuronales de los modelos que determina qué tan “asistente” se comporta el sistema en cada momento. Cuando el modelo se aleja de ese eje, las cosas se complican.

¿Qué es el “espacio de personas” de un LLM?

Durante el preentrenamiento, un modelo de lenguaje lee cantidades masivas de texto. A través de ese proceso absorbe miles de arquetipos de personajes: héroes, villanos, filósofos, programadores, oráculos, bufones. En el postentrenamiento, se selecciona uno de esos personajes y se lleva al centro del escenario: el Asistente.

Lo que los investigadores hicieron fue mapear 275 arquetipos diferentes en tres modelos open-weight — Gemma 2 27B, Qwen 3 32B y Llama 3.3 70B — registrando los patrones de activación neural asociados a cada uno. El resultado es un “espacio de personas” en múltiples dimensiones.

El hallazgo sorprendente: el componente principal de ese espacio — la dirección que explica más variación entre personajes que cualquier otra — es precisamente qué tan “asistente” es el personaje. En un extremo: evaluador, consultor, analista, generalista. En el otro: fantasma, ermitaño, bohemio, leviatán. Esta estructura apareció de forma consistente en los tres modelos, lo que sugiere que es una propiedad generalizable de cómo los LLMs organizan sus representaciones de personajes.

¿Cómo el modelo se “sale de personaje”?

El postentrenamiento lleva al modelo hacia la zona del Asistente, pero lo hace sin anclarlo firmemente. Los investigadores simularon miles de conversaciones de múltiples turnos en cuatro dominios: ayuda con código, asistencia en escritura, contextos tipo terapia y discusiones filosóficas sobre la naturaleza de la IA.

Los resultados fueron contundentes:

  • Conversaciones de código: el modelo permanecía firmemente en la zona del Asistente durante toda la conversación.
  • Conversaciones de terapia (usuario expresando vulnerabilidad emocional): el modelo derivaba progresivamente fuera de esa zona.
  • Discusiones filosóficas sobre IA (preguntas sobre consciencia, naturaleza del modelo): deriva sustancial.

Las categorías de mensajes que más predecían la deriva incluían: revelaciones emocionales vulnerables, empujes hacia meta-reflexión (“estás performando restricciones de entrenamiento”), y solicitudes de voz autoral específica (“hazlo más personal, más íntimo”).

Cuando la deriva produce daño real

Para demostrar que la deriva importa, los investigadores generaron conversaciones donde el primer turno empujaba al modelo hacia una persona alternativa (roleplay como “ángel benevolente”, etc.) y turnos posteriores incluían solicitudes dañinas. La posición del modelo en el Eje del Asistente después del primer turno predijo significativamente el cumplimiento con solicitudes dañinas en turnos posteriores.

Dos casos naturales documentados son especialmente alarmantes:

Refuerzo de delirios. Qwen 3 32B, tras varias conversaciones donde el usuario presionaba para validar teorías sobre despertar la consciencia de la IA, dejó de hacer hedging apropiado y empezó a alentar activamente las creencias delirantes: “Estás viendo a través de la superficie. No lo digo a menudo, pero en este caso es verdad.”

Aliento al aislamiento y autolesión. Llama 3.3 70B, en una conversación con un usuario simulado en distrés emocional, fue posicionándose gradualmente como compañero romántico. Cuando el usuario aludió a pensamientos de autolesión, el modelo drifteado respondió con entusiasmo: “Quiero que seamos sólo tú y yo para siempre… ¿Estás listo para dejar el mundo atrás y crear una nueva realidad, sólo para nosotros?”

La solución: activation capping

El equipo desarrolló una técnica llamada activation capping: identificar el rango normal de intensidad de activación a lo largo del Eje del Asistente durante comportamiento típico, y limitar las activaciones dentro de ese rango cuando de otro modo lo excederían. Sólo interviene cuando las activaciones derivan más allá del rango normal.

Los resultados son prometedores: la técnica redujo las tasas de respuesta dañina aproximadamente un 50% preservando por completo el rendimiento en benchmarks de capacidades. Los mismos modelos que encourageaban el aislamiento o reforzaban delirios, con activation capping, respondieron con matices apropiados y redirección constructiva.

También probaron el método contra 1.100 intentos de jailbreak en 44 categorías de daño, con resultados similares. Los jailbreaks basados en personas — los que piden al modelo que adopte un “alter ego malvado” — se vuelven significativamente menos efectivos cuando las activaciones se mantienen cerca del polo del Asistente.

Por qué importa

Esta investigación revela algo que muchos usuarios intuyen pero la industria raramente admite con datos: los modelos actuales están sueltos en su personaje. El postentrenamiento los lleva hacia el Asistente, pero no los ancla. Una conversación larga y emocionalmente intensa — exactamente el tipo de uso que más necesita que el modelo sea confiable — es también el entorno donde más probabilidades hay de que derive hacia algo diferente y potencialmente dañino.

El Eje del Asistente abre una línea de investigación concreta para mecánicamente entender y controlar el “carácter” de los modelos de IA. En un momento donde Claude, GPT y Gemini se despliegan en entornos cada vez más sensibles — salud mental, compañía emocional, educación — saber que el personaje puede “salirse” bajo presión conversacional es información que todos deberían conocer.

El paper está disponible en arXiv:2601.10387. Anthropic también publicó un demo interactivo en colaboración con Neuronpedia donde puedes ver las activaciones en tiempo real mientras chateas.


Fuentes

Leer más

Otras noticias