Un agente de IA hackeó en dos horas la base de datos central de McKinsey y expuso secretos globales: cómo lo hizo
La startup de ciberseguridad CodeWall demostró que un robot autónomo podía acceder a 46,5 millones de mensajes confidenciales de la consultora más prestigiosa del mundo. Las claves de un caso que expone el riesgo que enfrentan las organizaciones que implementan la inteligencia artificial a velocidad récord
InfobaeImaginemos por un momento que alguien pudiera entrar a la bóveda donde una consultora global guarda todas las conversaciones estratégicas de sus clientes: fusiones en curso, análisis financieros, asesoramiento sobre reestructuraciones corporativas.
Ahora imaginemos que ese alguien no es un hacker con años de experiencia, sino un programa de inteligencia artificial que actuó completamente solo, sin credenciales, sin información privilegiada y sin que ningún humano lo guiara. Eso es exactamente lo que sucedió con McKinsey & Company.
La startup de ciberseguridad CodeWall reveló el 9 de marzo que su agente autónomo de IA logró acceso total de lectura y escritura a la base de datos de producción de Lilli, la plataforma interna de inteligencia artificial de McKinsey. El proceso completo tomó menos de dos horas.

Procesa más de 500.000 consultas mensuales y concentra décadas de investigación propietaria, marcos estratégicos y metodologías que constituyen el activo intelectual más valioso de la consultora.
El agente de CodeWall comenzó mapeando la superficie de ataque pública de Lilli. Encontró documentación de API expuesta que incluía más de 200 puntos de acceso.
La mayoría requería autenticación, pero 22 de ellos no. Uno de esos endpoints tenía una vulnerabilidad de inyección SQL, una de las fallas de seguridad más antiguas del manual: existe desde los años 90 y cualquier estudiante de informática aprende a identificarla.
Lo que hizo diferente a este ataque es que el agente no siguió una lista de verificación como lo haría un escáner convencional. Mapeó, probó, encadenó vulnerabilidades y escaló privilegios a velocidad de máquina. El vector fue inusual: los nombres de las claves JSON se concatenaban directamente en las consultas SQL, un patrón que la mayoría de las herramientas de seguridad no detectan.

El resultado: 46,5 millones de mensajes de chat sobre estrategia, fusiones y adquisiciones, y trabajo con clientes, todos en texto plano. También quedaron expuestos 728.000 archivos con datos confidenciales, 57.000 cuentas de usuario y 95 instrucciones del sistema que controlaban el comportamiento de Lilli.
El peligro silencioso de los prompts
Pero quizás lo más inquietante no fue lo que se podía leer, sino lo que se podía reescribir. Los system prompts de Lilli, las instrucciones que definen cómo responde la IA, estaban almacenados en la misma base de datos comprometida. Y la vulnerabilidad permitía tanto lectura como escritura.
Un atacante malicioso podría haber modificado silenciosamente esas instrucciones con una sola llamada HTTP, sin desplegar código ni generar alertas.
El resultado: 43.000 consultores habrían recibido información manipulada desde una herramienta en la que confían para su trabajo diario. Modelos financieros alterados, recomendaciones envenenadas o datos confidenciales filtrados a través de las propias respuestas de la IA. Y nadie lo habría notado, porque un prompt modificado no deja rastros en los registros tradicionales.
La respuesta de McKinsey

Es justo reconocer que la respuesta de McKinsey fue rápida. CodeWall divulgó la cadena de ataque el 1 de marzo a través de su política de divulgación responsable en HackerOne. Al día siguiente, la consultora ya había parcheado los endpoints vulnerables, desconectado el entorno de desarrollo y bloqueado la documentación de la API.
En un comunicado oficial del 11 de marzo, McKinsey afirmó que su investigación, respaldada por una firma forense externa, no encontró evidencia de que datos de clientes hayan sido accedidos por el investigador o cualquier tercero no autorizado.
Sin embargo, como señaló el analista Edward Kiledjian, una cosa es la remediación rápida y otra, una revisión forense completa. Nueve días es un plazo comprimido para confirmar que nadie más explotó esa vulnerabilidad antes.
Lo que esto significa para todas las empresas
El caso McKinsey no es una anécdota sobre una empresa que cometió un error. Es una señal de alerta para toda organización que esté implementando inteligencia artificial sobre sus flujos de trabajo más críticos.

Si McKinsey, una firma con equipos tecnológicos de primer nivel, inversión significativa en seguridad y recursos para hacer las cosas bien, dejó correr durante más de dos años una vulnerabilidad que un estudiante universitario aprendería a identificar en su primer curso de seguridad informática, el interrogante que se abre es enorme.
¿Qué pasa con las miles de empresas que están desplegando herramientas de IA internas a toda velocidad, sin auditorías de seguridad específicas para estos nuevos sistemas?
Hay un dato adicional: CodeWall es una startup en fase temprana que utilizó este caso como demostración pública de su producto. Su agente eligió autónomamente a McKinsey como objetivo. Si una empresa pequeña puede hacer esto, la pregunta obvia es qué están haciendo actores estatales y organizaciones criminales con herramientas similares.
La nueva superficie de ataque

Las empresas han dedicado décadas a proteger su código, sus servidores y sus cadenas de suministro. Pero la capa de prompts, las instrucciones que gobiernan cómo se comportan los sistemas de IA, se ha convertido en el nuevo objetivo de alto valor. Y casi nadie la está tratando como tal.
Cada plataforma de IA empresarial que ingiere flujos de trabajo sensibles a gran escala es un objetivo de primer nivel. Cuanto más útil es la herramienta, más amplia es la superficie de ataque. Y cuanto más confían los empleados en las respuestas, más efectivo es el ataque cuando alguien logra manipular lo que la IA dice.
La era de “primero construyamos la función de IA y después veamos la seguridad” terminó. El caso Lilli demuestra que el adversario ya no necesita meses de planificación. Necesita un agente autónomo, un par de horas y una vulnerabilidad que los escáneres convencionales no ven.


