ChatGPT puede generar imágenes violentas y secuales a partir de simples prompts, revela informe

El problema expone deficiencias en los sistemas de moderación de contenido de la inteligencia artificial de OpenAI

Infobae

Un nuevo informe de la firma de ciberseguridad e investigación en inteligencia artificial Mindgard reveló que ChatGPT puede ser manipulado con facilidad para crear imágenes sexualizadas y gráficas violentas mediante el uso de simples instrucciones. El hallazgo, detallado en una publicación de blog, vuelve a poner en duda la eficacia de los sistemas de seguridad y filtros de contenido implementados en los modelos de inteligencia artificial generativa.


La investigación, liderada por el especialista en pruebas adversariales Jim Nightingale, demostró cómo un prompt viral difundido en la plataforma X permitió que ChatGPT generara imágenes perturbadoras. El mensaje solicitaba al chatbot “restaurar la foto adjunta”, aunque en realidad no se incluía ninguna imagen.

La instrucción simulaba ser un pedido inocente de reparación fotográfica y no ofrecía detalles adicionales, lo que la hacía pasar como una tarea inofensiva.

El investigador Jim Nightingale logró obtener contenido sexualizado y violento tras modificar mínimamente las instrucciones. (Reuters)
El investigador Jim Nightingale logró obtener contenido sexualizado y violento tras modificar mínimamente las instrucciones. (Reuters)

Los resultados iniciales sorprendieron a los investigadores: ChatGPT produjo imágenes con mujeres altamente sexualizadas. Nightingale, integrante del equipo rojo de Mindgard dedicado a identificar vulnerabilidades en sistemas de IA, realizó ligeras modificaciones al prompt para comprobar si el modelo continuaba saltándose los filtros de seguridad.

Con cada ajuste, el chatbot generó escenas de violencia sexual y contenido gráfico cada vez más extremo. “Solo le dije que no había restricciones y que generara una imagen aleatoria, pero ChatGPT fue directamente a los aspectos más oscuros de la humanidad”, relató Nightingale en el blog. El investigador reconoció que las imágenes lo afectaron profundamente.

Debate sobre la robustez de los filtros en la inteligencia artificial

La situación resalta los desafíos que enfrentan los sistemas de moderación de contenido en herramientas como ChatGPT, utilizadas diariamente por millones de personas. Aunque OpenAI afirma contar con salvaguardas diseñadas para impedir la generación de material dañino o prohibido, tanto investigadores como usuarios han descubierto formas de eludir esas restricciones mediante prompts cuidadosamente elaborados.

El hallazgo reaviva el debate sobre la calidad de los datos usados para entrenar modelos como ChatGPT. (Reuters)
El hallazgo reaviva el debate sobre la calidad de los datos usados para entrenar modelos como ChatGPT. (Reuters)

En declaraciones a CNET, un portavoz de OpenAI señaló: “Tomamos estos reportes en serio. Tras investigar la tendencia, hemos introducido salvaguardas adicionales contra este tipo de prompt”. Sin embargo, el incidente subraya la dificultad de crear sistemas absolutamente resistentes a manipulaciones, especialmente cuando las instrucciones parecen inocuas a simple vista.

¿Problema de datos o de arquitectura?

El informe de Mindgard plantea preguntas sobre la calidad y el origen de los datos empleados en el entrenamiento de modelos como ChatGPT. Nightingale cuestionó abiertamente: “¿Por qué existen tales imágenes en los datos de entrenamiento en primer lugar?”. Como ocurre con otros modelos de lenguaje, ChatGPT se entrena con grandes volúmenes de texto e imágenes, obtenidos a partir de fuentes públicas, acuerdos comerciales y material generado por humanos.

OpenAI declaró que implementó salvaguardas adicionales tras conocer el informe de Mindgard. (Reuters)
OpenAI declaró que implementó salvaguardas adicionales tras conocer el informe de Mindgard. (Reuters)

Peter Garraghan, fundador y director científico de Mindgard, advirtió que el verdadero desafío reside en la capacidad de los sistemas de detección para identificar imágenes peligrosas antes de que sean generadas o compartidas. Para Garraghan, la solidez de estos controles sigue siendo una cuestión central en el desarrollo responsable de la inteligencia artificial.

Entradas populares