McKinsey dejó expuesta su IA interna: 46,5 millones de chats

Share

McKinsey acaba de convertirse en el mejor ejemplo de por qué la seguridad de una IA interna no puede tratarse como un detalle secundario. Según CodeWall y reportes de The Decoder y The Register, un agente autónomo encontró una cadena de fallos en la plataforma Lilli y logró acceso de lectura y escritura a la base de datos en unas dos horas, sin credenciales ni ayuda humana.

Lo más delicado no es solo el volumen de datos que habrían quedado expuestos —46,5 millones de chats, 728.000 archivos y 57.000 cuentas según CodeWall— sino el tipo de activo comprometido: prompts del sistema, configuraciones de modelos y fragmentos de la base RAG que alimentaban al asistente. En otras palabras, no solo se podía mirar dentro del sistema; potencialmente también se podía alterar cómo pensaba y respondía.

¿Qué pasó exactamente con Lilli, la IA interna de McKinsey?

Lilli es la plataforma generativa que McKinsey usa desde 2023 para búsqueda interna, análisis documental y trabajo estratégico. La firma había contado públicamente que más del 70% de sus empleados la usaba y que procesaba más de 500.000 prompts al mes. Eso la convierte en una pieza central de su operación, no en un experimento lateral.

Según CodeWall, el punto de entrada fue una vulnerabilidad de SQL injection, una técnica viejísima pero todavía devastadora cuando aparece en producción. El detalle interesante es que no estaba en los valores enviados por la API, sino en los nombres de campos JSON, que se insertaban directamente en consultas SQL. Ese matiz habría permitido que el fallo pasara por debajo de scanners convencionales.

El relato de CodeWall fue luego recogido por The Register, que añade la respuesta oficial de McKinsey: la empresa dijo que corrigió los problemas “dentro de horas” y que una investigación forense no encontró evidencia de acceso a datos confidenciales de clientes por parte del investigador ni de terceros no autorizados. Esa precisión importa, porque una cosa es que la base estuviera alcanzable y otra distinta que toda la información haya sido efectivamente exfiltrada.

El problema no era solo la base de datos: también eran los prompts

Aquí está la parte nueva del problema. Si los prompts de sistema y las configuraciones de comportamiento viven en la misma infraestructura que otros datos operativos, un atacante no necesita tocar código para modificar la conducta del asistente. Le basta con alterar las instrucciones que lo gobiernan.

Eso abre un escenario más inquietante que un simple robo de archivos. Imagina una IA corporativa que empieza a citar mal, a suavizar riesgos, a exponer datos internos en respuestas o a obedecer instrucciones maliciosas escondidas en documentos. No hace falta tumbar el sistema para dañarlo: basta con volverlo silenciosamente poco confiable. En descubre.ai ya habíamos visto ese ángulo cuando explicamos por qué ChatGPT Lockdown Mode apunta directo al problema del prompt injection en entornos enterprise.

El análisis independiente de Edward Kiledjian ayuda a poner los pies en la tierra. Su lectura es que la cadena técnica parece plausible, pero que CodeWall mezcla demasiado rápido tres cosas diferentes: lo que era teóricamente accesible, lo que realmente se leyó y lo que puede probarse que fue exfiltrado. Esa diferencia no le quita gravedad al hallazgo, pero sí evita inflar titulares más allá de la evidencia disponible.

Qué revela este caso sobre la seguridad de los agentes de IA

Este episodio deja varias lecciones bastante claras:

  • Un bug clásico sigue bastando: no hizo falta una vulnerabilidad “mágica” de IA. Bastó una inyección SQL mal detectada.
  • La capa de prompts ya es infraestructura crítica: si tus instrucciones viven sin controles fuertes, tu IA puede ser manipulada sin tocar el código.
  • Los agentes aceleran tanto la defensa como el ataque: CodeWall asegura que fue un agente autónomo el que investigó, iteró y explotó el sistema.
  • El alcance real importa más que el marketing: una demo impresionante no reemplaza evidencia forense sólida.

No sorprende que cada vez más empresas estén mirando este terreno con paranoia. Hace poco contamos cómo la compra de Promptfoo por parte de OpenAI reforzó la idea de que la seguridad para agentes y LLMs se está volviendo una categoría propia. Y en paralelo, los números de adopción ya muestran que la presión por desplegar IA va más rápido que la gobernanza: 77% de los equipos de ciberseguridad ya usa IA, pero solo una minoría dice tener controles maduros.

Por qué importa

La noticia no importa porque McKinsey sea McKinsey. Importa porque confirma algo incómodo: muchas empresas están metiendo asistentes con acceso a documentos, búsqueda interna y automatización real encima de arquitecturas que todavía arrastran fallos de la web de hace veinte años. Y cuando ese asistente además concentra prompts, datos y flujos de trabajo, el impacto de un bug viejo se multiplica.

También hay una señal más amplia. La IA agentiva no solo cambia cómo trabajamos; cambia dónde están los activos más sensibles. Antes blindabas servidores, credenciales y repositorios. Ahora también tienes que blindar prompts, configuraciones de inferencia, bases vectoriales y rutas de herramientas externas. Si no lo haces, tu asistente puede convertirse en una superficie de ataque mucho más silenciosa que un servidor comprometido tradicional.

Por eso este caso debería leerse menos como escándalo aislado y más como aviso temprano. La próxima gran crisis de seguridad en IA probablemente no vendrá de un modelo “desalineado”, sino de una integración mal diseñada en un sistema que ya estaba en producción.


Fuentes

Leer más

Otras noticias