Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

Share

Cuando un modelo de lenguaje alucina —es decir, inventa datos, fechas o citas que suenan plausibles pero son incorrectos— deja una huella matemática en su propio proceso de cálculo. Eso es lo que descubrió un equipo de investigadores de la Universidad Sapienza de Roma, y ahora tienen una técnica sin entrenamiento para detectarlo en tiempo real.

La investigación, presentada en ICLR 2026, propone un indicador llamado “energía derramada” (spilled energy): una discrepancia matemática que aparece en la capa final del modelo justo cuando está a punto de generar texto incorrecto. Lo notable es que funciona sin necesidad de entrenar ningún clasificador adicional, lo que la hace aplicable a cualquier LLM de caja negra.

¿Cómo detecta la IA sus propios errores sin que nadie le enseñe?

Para entender la técnica hay que saber qué hace la capa softmax, la última etapa del proceso de predicción de un LLM. Esta capa convierte los valores internos del modelo (logits) en probabilidades para el siguiente token. Los investigadores la analizan desde el marco de los modelos basados en energía, una perspectiva tomada de la física estadística donde a mayor probabilidad le corresponde menor energía.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

Aquí está la clave: en dos pasos consecutivos de generación, ciertos valores de energía deberían ser matemáticamente idénticos porque describen la misma cantidad desde dos perspectivas distintas. En la práctica, no lo son. Esa diferencia es la “energía derramada”.

Los investigadores descubrieron que este desfase no es ruido aleatorio: se dispara significativamente cuando el modelo produce una respuesta incorrecta. Cuando el modelo dice “la capital de Australia es Sídney” en lugar de Canberra, la energía derramada sube de forma medible en los tokens erróneos (“Sídney”).

Mejor que los clasificadores entrenados en nueve benchmarks distintos

El equipo probó su método contra tres enfoques alternativos:

Confianza en logits: mirar directamente qué tan seguro parece el modelo de su respuesta.
Clasificadores entrenados: pequeños modelos secundarios entrenados sobre estados internos del LLM para detectar errores.
Autoevaluación: preguntarle al modelo si cree que su propia respuesta es correcta.

Los benchmarks incluyeron TriviaQA, HotpotQA, IMDB, Math y tareas sintéticas con números de 13 dígitos. Se evaluaron LLaMA-3 8B, Mistral-7B, Gemma (1B y 4B) y Qwen3-8B, en variantes base e instruction-tuned.

Resultados con Mistral-Instruct (AuROC, donde 50% es azar y 100% es perfección):

Spilled Energy: 77,49%
Clasificadores entrenados: 65,56%
Confianza en logits: 63,44%
Autoevaluación del modelo: ~55%

La ventaja más importante es la generalización entre tareas: los clasificadores entrenados se desploman cerca del azar cuando se aplican a datasets para los que no fueron entrenados. La energía derramada mantiene resultados estables en todos los conjuntos de prueba sin ningún entrenamiento adicional.

Hay un detalle técnico que explica mucho del rendimiento: los investigadores limitan la medición a los tokens de respuesta exactos. Ante la pregunta “¿cuál es la capital de Italia?”, solo importa “Roma” o “Sídney”, no la oración completa. Esta localización mejora la detección hasta un 24% respecto a medir todo el output.

El fine-tuning de instrucciones: un arma de doble filo

Uno de los hallazgos más contraintuitivos del paper involucra el instruction tuning, el proceso por el que se ajustan los modelos para seguir instrucciones humanas (el paso que convierte LLaMA base en un chatbot útil).

Este ajuste perjudica los métodos basados en confianza de logits, probablemente porque los modelos instruction-tuned tienden a sonar más seguros de sí mismos independientemente de si tienen razón o no. En cambio, beneficia a la energía derramada: con LLaMA-3, la tasa de detección subió de 68,69% a 73,16%, y con Mistral de 73,94% a 77,49%.

Los investigadores también identificaron los límites del método: puede generar falsos positivos en tokens no semánticos como signos de puntuación o palabras al inicio de oraciones, donde es natural que la probabilidad se disperse entre muchas opciones posibles.

Por qué importa

El problema de las alucinaciones en LLMs no tiene solución perfecta todavía, y probablemente no la tenga pronto. Lo que sí puede existir —y esta investigación es un paso concreto en esa dirección— son capas de detección en tiempo real que alerten cuando el modelo está a punto de inventar algo.

La ventaja de la energía derramada frente a otros métodos es práctica: no requiere acceso a los pesos internos del modelo para entrenar un clasificador, no depende de que el modelo sea honesto cuando se le pregunta si está seguro, y funciona igual en modelos que nunca ha visto antes. En un ecosistema de IA donde los modelos cambian cada pocas semanas, eso tiene valor real.

Para quienes usan LLMs en aplicaciones críticas —legal, médica, financiera— esto abre una posibilidad interesante: integrar un monitor de energía derramada como capa de validación antes de que las respuestas lleguen al usuario. No reemplaza la verificación humana, pero puede filtrar los errores más evidentes de forma automática.

Como ya vimos con el fenómeno del código que parece correcto pero no lo es, la trampa de los LLMs no suele ser el error obvio sino el plausible. Esta técnica apunta exactamente al corazón de ese problema.

El código está disponible en GitHub bajo el proyecto OmnAI Lab, lo que significa que cualquier desarrollador puede experimentar con él sobre sus propios modelos.

Fuentes

Rodrigo Rojo http://descubre.ai

Tabla de contenidos [hide]

¿Cómo detecta la IA sus propios errores sin que nadie le enseñe?
Mejor que los clasificadores entrenados en nueve benchmarks distintos
El fine-tuning de instrucciones: un arma de doble filo
Por qué importa
Fuentes

Cuando la IA alucina, deja huellas matemáticas: así las detectan sin reentrenar nada

¿Cómo detecta la IA sus propios errores sin que nadie le enseñe?

Mejor que los clasificadores entrenados en nueve benchmarks distintos

El fine-tuning de instrucciones: un arma de doble filo

Por qué importa

Fuentes

Tabla de contenidos [hide]

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google blinda la cadena de suministro de IA con nuevas herramientas de seguridad open source

Otras noticias

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial

Google despliega su inteligencia personal en Chrome y Search

Google lanza Veo 3.1 Lite: la industrialización del video generativo llega a la API de Gemini

MiniMax M2.7: el modelo open source que evoluciona su propio entorno de agentes

NVIDIA entrega a Kubernetes el control directo de las GPU para escalar la IA empresarial