A qué se dedican los hackers rojos, los guardianes de la ciberseguridad

Son piratas informáticos pero juegan desde el lado bueno de la balanza, su función es pensar como el enemigo

En el nuevo contexto que supone la inteligencia artificial, donde los chatbots tienen que estar preparados para afrontar preguntas de todo tipo, los equipos de red teaming caminan en un delgado hilo. Estos hackers rojos tienen que equilibrar la seguridad de los modelos de IA y al tiempo, mantenerlos relevantes y utilizables.

En entrevista con la revista Forbes, los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta discutieron cuáles los retos a los que se enfrentaban al crear grandes modelos de lenguaje operados con inteligencia artificial.

“Tendrás un modelo que dice no a todo y es superseguro, pero es inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedes hacer un modelo, más posibilidades tienes de aventurarte en algún área que puede acabar produciendo una respuesta insegura”, añadió Canton.

Sin embargo, debido a que la inteligencia artificial generativa se entrena utilizando un amplio conjunto de datos, la seguridad de los modelos de IA se aborda de manera diferente en comparación con las prácticas de seguridad convencionales. Daniel Fabian, quien lidera el equipo de IA Red Team de Google, se encarga de someter a pruebas de estrés productos como Bard para identificar contenido ofensivo antes de que la empresa implemente nuevas características, como la adición de idiomas.

Empresas como Google cuentan con un equipo rojo.  REUTERS/Dado Ruvic/Illustration/fotografía de archivo
Empresas como Google cuentan con un equipo rojo. REUTERS/Dado Ruvic/Illustration/fotografía de archivo

Aparte de cuestionar un modelo de IA para inducir respuestas perjudiciales, los equipos rojos emplean estrategias adicionales, como la extracción de datos de entrenamiento que contienen información personal identificable, como nombres, direcciones y números de teléfono.

También recurren a la táctica de envenenar conjuntos de datos, alterando ciertas partes del contenido antes de usarlo para entrenar el modelo. Fabián explica que los atacantes disponen de una variedad de técnicas de ataque y cambian a la siguiente si una no surte efecto.

De ahí la existencia de una comunidad cohesionada de profesionales en el campo de la inteligencia artificial que tienden a compartir sus hallazgos. Por ejemplo, los integrantes del equipo rojo de Google han divulgado investigaciones acerca de nuevas modalidades de ataques contra modelos de IA.

Por su parte, el equipo rojo de Microsoft ha puesto a disposición del público herramientas de ataque como Counterfit, que asiste a otras compañías en la evaluación de la seguridad y los posibles riesgos de seguridad de sus algoritmos.

Al mismo tiempo, la estrategia de red teaming de Nvidia implica la realización de cursos intensivos sobre algoritmos de red teaming dirigidos a ingenieros de seguridad y empresas. Algunas de estas empresas ya confían en Nvidia para recursos informáticos como las GPU.

Los hackers rojos tienen que adelantar muchas jugadas de los verdaderos piratas informáticos. 
Europa Press/Contacto/La Nacion
Los hackers rojos tienen que adelantar muchas jugadas de los verdaderos piratas informáticos. Europa Press/Contacto/La Nacion

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia, afirma: “como motor de la IA para todo el mundo, tenemos un enorme poder multiplicador. Si podemos enseñar a otros a hacerlo, Anthropic, Google y OpenAI también lo harán correctamente”.

No obstantes, los expertos ven a la inteligencia artificial generativa como un monstruo de múltiples cabezas: según los hackers rojos de las empresas tecnológicas, a medida que los equipos rojos detectan y resuelven ciertas vulnerabilidades en el sistema, pueden surgir nuevos fallos en otras áreas. “Se necesitará un esfuerzo colectivo para abordar este problema”, sostiene Siva Kumar de Microsoft.


Entradas populares