LLM drift en finanzas: 38 días midiendo cómo Gemini Pro se contradice a sí mismo

Share

Un desarrollador independiente decidió hacer lo que pocas empresas se atreven: registrar 38 días consecutivos de predicciones bursátiles generadas por Gemini Pro 2.5 sobre los mismos 30 activos. El resultado expone algo que la industria sabe pero raramente documenta: los modelos de lenguaje son inconsistentes con el tiempo, y en finanzas eso puede costarte caro.

El proyecto se llama GlassBallAI y el dataset resultante —publicado en Hugging Face bajo licencia CC BY-NC 4.0— contiene aproximadamente 1.100 predicciones con expectativas numéricas, niveles de confianza, señales de sentimiento y razonamiento en lenguaje natural. No es un sistema de trading. Es evidencia empírica sobre cómo se comporta un LLM de frontera cuando se le pide predecir lo impredecible durante semanas.

¿Qué es el LLM drift y por qué importa en finanzas?

El LLM drift es la tendencia de los modelos de lenguaje a producir respuestas inconsistentes frente a preguntas similares en distintos momentos del tiempo. En contextos cotidianos eso es un inconveniente. En finanzas, es un riesgo operativo real.

Imagina que le preguntas al mismo modelo sobre el mismo activo en condiciones de mercado similares, y obtienes predicciones radicalmente distintas con niveles de confianza igualmente distintos. ¿Cuál de las dos usas? ¿Cuál confías? La inestabilidad subyacente del modelo convierte cualquier output en ruido sin mecanismos de validación.

Investigaciones publicadas en ACL Anthology sobre detección de PEAD (Post-Earnings Announcement Drift) con LLMs confirman el patrón: modelos como FinBERT y LLaMA pueden superar a los baselines en tareas específicas de corto plazo, pero presentan inconsistencias crecientes en horizontes más amplios. Alta precisión puntual, inestabilidad estructural a largo plazo.

Lo que GlassBallAI encontró en 38 días

El valor del experimento no está en si Gemini Pro 2.5 «acertó» en sus predicciones bursátiles —tampoco era ese el objetivo—, sino en observar cómo evolucionó el comportamiento del modelo a lo largo del tiempo:

  • Variabilidad en niveles de confianza: predicciones sobre los mismos activos mostraron cambios significativos en la autoevaluación del modelo, sin que el contexto de mercado lo justificara.
  • Razonamientos contradictorios: hacia el final del período, el lenguaje natural que el modelo usaba para justificar sus predicciones mostró inconsistencias internas que no existían al inicio.
  • Diferencias por sector: el drift no fue homogéneo; algunos sectores mostraron mayor variabilidad en las respuestas, posiblemente correlacionado con la cobertura mediática de cada industria.

El dataset cubre 30 acciones representativas de distintos sectores, lo que permite análisis comparativos. Y como incluye el razonamiento en lenguaje natural —no solo outputs numéricos—, es material valioso para estudios de calibración de confianza y benchmarking entre modelos.

¿Se pueden usar LLMs para predecir mercados?

La respuesta más honesta es: depende de cómo los uses. Un paper seminal disponible en SSRN documentó que ChatGPT puede extraer señales de rentabilidad desde titulares de noticias, superando métodos tradicionales para acciones de menor capitalización. Pero los autores advierten que el modelo no fue entrenado con datos financieros, lo que limita su robustez.

Un estudio más reciente en arXiv exploró un enfoque diferente: usar LLMs no como predictores directos, sino como descubridores de estructura estocástica para estimar métricas de riesgo como VaR y CVaR. Los resultados en backtests mejoraron los ratios Sharpe. El hallazgo clave es que los LLMs brillan como componentes de pipelines sofisticados, no como oráculos autónomos.

El blog de QuantInsti documenta el método ADDM (Autoregressive Drift Detection Method), que monitorea errores de predicción en ventanas rodantes para identificar cambios de régimen y activar actualizaciones del modelo. Este enfoque reconoce que el drift no es un bug: es una característica inherente de los LLMs aplicados a entornos dinámicos.

Por qué importa para cualquiera que construya sobre LLMs

GlassBallAI no es solo un experimento financiero. Es una demostración práctica de un principio que aplica a cualquier producto que dependa de respuestas coherentes a lo largo del tiempo: la consistencia temporal de un modelo no puede darse por sentada.

Si estás construyendo una herramienta de análisis estratégico, soporte al cliente, o cualquier aplicación que haga preguntas similares a un LLM en distintos momentos, necesitas mecanismos activos de monitoreo del drift. No es una cuestión de paranoia: es ingeniería responsable.

En el ámbito fintech específicamente, integrar el output de un LLM sin filtros en decisiones de inversión es imprudente. El dataset de GlassBallAI provee exactamente el tipo de evidencia empírica que los equipos de producto necesitan para diseñar capas de validación adecuadas. Hay 1.100 predicciones documentadas con su razonamiento completo: úsalas para entender cuándo y cómo falla el modelo antes de ponerlo en producción.

Para los founders que construyen sobre LLMs, el mensaje es claro: medir el drift no es opcional. Es parte del producto. Y si no lo estás midiendo, estás descubriendo los problemas en producción, no antes.

Si te interesa el ángulo de cómo los LLMs fallan en producción, puedes leer también sobre la trampa silenciosa del código generado por IA y los patrones matemáticos que revelan cuándo un modelo está alucinando.


Fuentes

Leer más

Otras noticias