David Chalmers: la interpretabilidad de la IA está mirando en el lugar equivocado

Share

Las herramientas actuales de interpretabilidad de IA —las que nos permiten mirar “dentro” de un modelo— se enfocan en el mecanismo. Identifican circuitos, cabezas de atención, representaciones internas. Pero según el filósofo David Chalmers, están mirando en el lugar equivocado. Lo que importa no es solo qué computa el modelo, sino qué cree, qué quiere, y qué pretende.

Chalmers, conocido por el “problema difícil de la consciencia” y uno de los filósofos de la mente más influyentes del mundo, publicó en enero de 2025 un paper que se volvió relevante en los círculos de interpretabilidad de IA: Propositional Interpretability in Artificial Intelligence (arXiv:2501.15740). The-Decoder le dedicó recientemente un análisis detallado que capturó la atención de la comunidad.

¿Qué es la interpretabilidad proposicional y por qué importa?

Primero, una distinción que Chalmers hace con claridad:

  • Explicabilidad: orientada al usuario final. Hace comprensibles las decisiones del modelo.
  • Interpretabilidad: orientada al investigador. Explica cómo funciona el sistema internamente.

Dentro de la interpretabilidad, Chalmers distingue el análisis algorítmico (identificar estructuras de procesamiento como circuitos de atención) del análisis representacional (qué y cómo representa el sistema internamente). Y aquí llega su propuesta central: dentro del análisis representacional, lo que falta —y lo que más importa— es la interpretabilidad proposicional.

¿Qué significa eso en simple? Un modelo de lenguaje no solo tiene conceptos (como “gato” o “puente”). También tiene actitudes hacia proposiciones: cree que el puente es rojo, desea ganar la partida de ajedrez, estima con 80% de probabilidad que cierto movimiento lleva a la victoria. Esas actitudes —creencias, deseos, probabilidades subjetivas, intenciones— son lo que los métodos actuales de interpretabilidad no capturan.

¿Por qué los sesgos son el ejemplo perfecto de este problema?

Chalmers usa un ejemplo que golpea directo: ¿cómo determinar si un modelo de lenguaje tiene un sesgo racista, versus si simplemente reproduce estadísticas del mundo?

Saber que el concepto “personas negras” activa ciertos mecanismos internos no es suficiente. Lo que importa es la actitud del sistema hacia ese concepto. ¿El modelo cree que cierto grupo es frecuentemente rechazado en préstamos bancarios? ¿O persigue ese resultado como objetivo? La diferencia entre una creencia y un deseo tiene consecuencias radicalmente distintas para la seguridad de la IA.

Thought logging: el sueño de registrar los pensamientos de una IA

Chalmers propone como objetivo central algo que llama thought logging: un método para registrar las actitudes proposicionales relevantes de un sistema de IA a lo largo del tiempo. Un log simplificado podría verse así:

  • Objetivo: Gano esta partida de ajedrez.
  • Creencia (credencia 0.8): Si muevo Qf8, ganaré.
  • Objetivo derivado: Muevo Qf8.
  • Acción: Muevo Qf8.

Este tipo de log haría visible qué objetivos, creencias y evaluaciones tiene el sistema en cada momento. Chalmers reconoce que logs completos son prácticamente imposibles —un sistema puede tener actitudes infinitas— pero logs parciales son factibles: los que cubren actitudes activas en ese momento, o las especialmente significativas para la tarea en curso.

La propuesta se conecta con una tradición filosófica que incluye la “interpretación radical” de Donald Davidson y el enfoque más amplio de David Lewis: ¿cómo inferir las creencias y deseos de un sujeto a partir de sus estados físicos observables? Con los sistemas de IA, esta pregunta deja de ser especulativa y se vuelve urgente y práctica.

¿Qué pasa con las representaciones que no son proposicionales?

Chalmers es cuidadoso: no todos los estados internos de una IA son actitudes proposicionales. Un sistema de visión puede tener representaciones visuales que no se expresan como proposiciones. Su argumento no es que todo en una IA sea proposicional, sino que los métodos actuales ignoran sistemáticamente la dimensión proposicional, y esa es precisamente la dimensión que más importa para entender si un sistema es seguro, si tiene sesgos reales (no solo estadísticos), y si sus objetivos están alineados con los que queremos.

Por qué importa

El campo de la interpretabilidad de IA —dominado por Anthropic, DeepMind, y grupos académicos— ha invertido enormemente en herramientas para identificar características internas, circuitos de atención, y representaciones conceptuales. Trabajo valioso. Pero si Chalmers tiene razón, estamos mirando el mapa sin entender el territorio.

Entender qué cree y qué quiere un sistema de IA —no solo qué computa— es la diferencia entre una auditoría superficial y una real. En un contexto donde los modelos se despliegan en decisiones de crédito, diagnóstico médico, y planificación militar, la pregunta ya no es solo “¿funciona bien?” sino “¿en qué sentido tiene objetivos propios?”

El trabajo de Chalmers es un recordatorio de que algunos de los problemas más prácticos de la seguridad de la IA son, en el fondo, problemas filosóficos que la ingeniería sola no puede resolver. Sobre este tema, también vale leer cómo Anthropic describe el Modelo de Selección de Personas de Claude —la idea de que los LLMs simulan personas durante el preentrenamiento— y el análisis de patrones de desempoderamiento en conversaciones reales con Claude.


Fuentes

Leer más

Otras noticias