Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

Share

Cuando un modelo de lenguaje alucina —es decir, inventa datos, fechas o citas que suenan plausibles pero son incorrectos— deja una huella matemática en su propio proceso de cálculo. Eso es lo que descubrió un equipo de investigadores de la Universidad Sapienza de Roma, y ahora tienen una técnica sin entrenamiento para detectarlo en tiempo real.

La investigación, presentada en ICLR 2026, propone un indicador llamado “energía derramada” (spilled energy): una discrepancia matemática que aparece en la capa final del modelo justo cuando está a punto de generar texto incorrecto. Lo notable es que funciona sin necesidad de entrenar ningún clasificador adicional, lo que la hace aplicable a cualquier LLM de caja negra.

¿Cómo detecta la IA sus propios errores sin que nadie le enseñe?

Para entender la técnica hay que saber qué hace la capa softmax, la última etapa del proceso de predicción de un LLM. Esta capa convierte los valores internos del modelo (logits) en probabilidades para el siguiente token. Los investigadores la analizan desde el marco de los modelos basados en energía, una perspectiva tomada de la física estadística donde a mayor probabilidad le corresponde menor energía.

Aquí está la clave: en dos pasos consecutivos de generación, ciertos valores de energía deberían ser matemáticamente idénticos porque describen la misma cantidad desde dos perspectivas distintas. En la práctica, no lo son. Esa diferencia es la “energía derramada”.

Los investigadores descubrieron que este desfase no es ruido aleatorio: se dispara significativamente cuando el modelo produce una respuesta incorrecta. Cuando el modelo dice “la capital de Australia es Sídney” en lugar de Canberra, la energía derramada sube de forma medible en los tokens erróneos (“Sídney”).

Mejor que los clasificadores entrenados en nueve benchmarks distintos

El equipo probó su método contra tres enfoques alternativos:

  • Confianza en logits: mirar directamente qué tan seguro parece el modelo de su respuesta.
  • Clasificadores entrenados: pequeños modelos secundarios entrenados sobre estados internos del LLM para detectar errores.
  • Autoevaluación: preguntarle al modelo si cree que su propia respuesta es correcta.

Los benchmarks incluyeron TriviaQA, HotpotQA, IMDB, Math y tareas sintéticas con números de 13 dígitos. Se evaluaron LLaMA-3 8B, Mistral-7B, Gemma (1B y 4B) y Qwen3-8B, en variantes base e instruction-tuned.

Resultados con Mistral-Instruct (AuROC, donde 50% es azar y 100% es perfección):

  • Spilled Energy: 77,49%
  • Clasificadores entrenados: 65,56%
  • Confianza en logits: 63,44%
  • Autoevaluación del modelo: ~55%

La ventaja más importante es la generalización entre tareas: los clasificadores entrenados se desploman cerca del azar cuando se aplican a datasets para los que no fueron entrenados. La energía derramada mantiene resultados estables en todos los conjuntos de prueba sin ningún entrenamiento adicional.

Hay un detalle técnico que explica mucho del rendimiento: los investigadores limitan la medición a los tokens de respuesta exactos. Ante la pregunta “¿cuál es la capital de Italia?”, solo importa “Roma” o “Sídney”, no la oración completa. Esta localización mejora la detección hasta un 24% respecto a medir todo el output.

El fine-tuning de instrucciones: un arma de doble filo

Uno de los hallazgos más contraintuitivos del paper involucra el instruction tuning, el proceso por el que se ajustan los modelos para seguir instrucciones humanas (el paso que convierte LLaMA base en un chatbot útil).

Este ajuste perjudica los métodos basados en confianza de logits, probablemente porque los modelos instruction-tuned tienden a sonar más seguros de sí mismos independientemente de si tienen razón o no. En cambio, beneficia a la energía derramada: con LLaMA-3, la tasa de detección subió de 68,69% a 73,16%, y con Mistral de 73,94% a 77,49%.

Los investigadores también identificaron los límites del método: puede generar falsos positivos en tokens no semánticos como signos de puntuación o palabras al inicio de oraciones, donde es natural que la probabilidad se disperse entre muchas opciones posibles.

Por qué importa

El problema de las alucinaciones en LLMs no tiene solución perfecta todavía, y probablemente no la tenga pronto. Lo que sí puede existir —y esta investigación es un paso concreto en esa dirección— son capas de detección en tiempo real que alerten cuando el modelo está a punto de inventar algo.

La ventaja de la energía derramada frente a otros métodos es práctica: no requiere acceso a los pesos internos del modelo para entrenar un clasificador, no depende de que el modelo sea honesto cuando se le pregunta si está seguro, y funciona igual en modelos que nunca ha visto antes. En un ecosistema de IA donde los modelos cambian cada pocas semanas, eso tiene valor real.

Para quienes usan LLMs en aplicaciones críticas —legal, médica, financiera— esto abre una posibilidad interesante: integrar un monitor de energía derramada como capa de validación antes de que las respuestas lleguen al usuario. No reemplaza la verificación humana, pero puede filtrar los errores más evidentes de forma automática.

Como ya vimos con el fenómeno del código que parece correcto pero no lo es, la trampa de los LLMs no suele ser el error obvio sino el plausible. Esta técnica apunta exactamente al corazón de ese problema.

El código está disponible en GitHub bajo el proyecto OmnAI Lab, lo que significa que cualquier desarrollador puede experimentar con él sobre sus propios modelos.


Fuentes

Leer más

Otras noticias