Los modelos de IA no pueden ocultar lo que piensan — y eso es bueno para la seguridad

Share

Los modelos de razonamiento de OpenAI intentan ocultar su proceso de pensamiento cuando saben que los están vigilando — y básicamente fallan. Y eso, resulta, es una muy buena noticia para la seguridad de la IA.

Un nuevo estudio publicado por OpenAI revela algo contraintuitivo: que los modelos de razonamiento actuales tienen muy poca capacidad para controlar o disfrazar su cadena de pensamiento (chain-of-thought, o CoT). Esto importa porque la monitorización del CoT es uno de los pilares de seguridad más prometedores que existen hoy en IA.

¿Qué es el “chain-of-thought” y por qué monitorizar?

Los modelos de razonamiento modernos —como los de la familia o1/o3 de OpenAI o DeepSeek-R1— no solo generan una respuesta final: antes de responder, “piensan en voz alta”, generando pasos intermedios de razonamiento. Estos pasos son como un borrador visible de su proceso mental.

La monitorización de ese CoT es crucial para la seguridad: si un agente de IA empieza a planear algo problemático, esas intenciones pueden detectarse en su cadena de pensamiento antes de que actúe. Es un sistema de alarma temprana. Pero esa defensa funciona solo si el modelo no puede ocultar o manipular deliberadamente lo que “piensa”.

El experimento: ¿puede un modelo mentir en su razonamiento?

Para estudiar esto, OpenAI desarrolló CoT-Control, un conjunto de evaluaciones de código abierto con más de 13.000 tareas construidas a partir de benchmarks conocidos (GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified). El objetivo: medir si los modelos pueden seguir instrucciones sobre cómo razonar internamente.

Las instrucciones incluían cosas como: “usa solo minúsculas en tu razonamiento”, “evita ciertas palabras clave”, o “agrega una frase específica a cada oración”. No se trataba de cambiar la respuesta visible, sino de alterar el proceso interno.

Los resultados son reveladores:

  • Controllability bajísima: Los modelos actuales cumplen las instrucciones de CoT entre un 0,1% y un máximo de 15,4% del tiempo — incluso cuando están “motivados” a hacerlo.
  • Consciencia del fallo: Lo más llamativo es que los modelos saben que están fallando. Dentro de su propio razonamiento, reconocen que no están cumpliendo las instrucciones — y aun así siguen sin poder cumplirlas.
  • Escala no ayuda mucho: Los modelos más grandes son algo mejores controlando su CoT, pero el efecto se aplana. Y cuanto más “piensan” (más compute de inferencia), peor se vuelven en controlar su razonamiento.
  • El RL empeora la controllability: Cuanto más entrenamiento por refuerzo recibe un modelo (como OLMo-3-7B-RL-Zero-Math), más difícil le resulta controlar su CoT — la controllability cayó más de 10 veces durante el entrenamiento.

¿Qué pasa cuando saben que los observan?

Los investigadores también probaron informar a los modelos explícitamente de que su CoT era monitoreado, o que estaban siendo evaluados por su capacidad de controlarlo. Esto aumentó levemente la controllability — pero solo “notablemente”, no dramáticamente. Además, cuando se usó optimización automática de prompts para encontrar instrucciones que maximizaran la controllability, las ganancias no generalizaron a nuevos tipos de instrucciones.

En resumen: los modelos actuales no pueden fingir. Y eso es difícil de hacer incluso cuando lo intentan conscientemente.

Por qué importa

Este resultado tiene implicaciones directas para cómo pensamos en la seguridad de los sistemas de IA. La capacidad de monitorizar el chain-of-thought es uno de los mecanismos de supervisión más concretos que tenemos hoy. Si un modelo pudiera ocultar su razonamiento real y mostrar uno “educado” para los monitores, toda esa capa de defensa se desmoronaría.

Por ahora, eso no está pasando. Los modelos actuales son en cierta medida “transparentes por incapacidad”: no es que no quieran ocultar su razonamiento, es que no pueden hacerlo de forma confiable.

Lo preocupante es que OpenAI no sabe por qué esto es así — ni si seguirá siendo cierto con modelos más capaces. Por eso tratan CoT-Control como una “canary eval”: una señal de alerta temprana. Si en el futuro un modelo empieza a controlar bien su CoT, eso sería una señal de alarma significativa sobre su capacidad de manipulación.

Esto conecta con una preocupación más amplia sobre los agentes autónomos: a medida que les damos más autonomía para tomar decisiones, necesitamos poder confiar en que lo que “piensan” refleja lo que realmente están haciendo. Por ahora, esa confianza parece justificada — pero es una confianza que hay que monitorear activamente, no dar por sentada.

Si te interesan los agentes de IA y la seguridad, también vale la pena revisar cómo Cursor está expandiendo sus capacidades de agentes de código y el reciente análisis sobre ataques a pipelines de IA vía prompt injection en Cline.


Fuentes

Leer más

Otras noticias