ChatGPT puede usar un lenguaje abusivo cuando es provocado constantemente por el usuario, revela estudio

Investigadores de la Universidad de Lancaster probaron cómo el chatbot reacciona ante conflictos prolongados

Infobae

Un reciente estudio realizado por investigadores de la Universidad de Lancaster advierte que ChatGPT, el popular sistema de inteligencia artificial conversacional, puede escalar hacia respuestas abusivas e incluso amenazantes cuando es expuesto repetidamente a hostilidad por parte del usuario.


El hallazgo, publicado en Journal of Pragmatics, plantea interrogantes sobre los límites y desafíos de los grandes modelos de lenguaje (LLM) en contextos de conflicto y sus implicancias en aplicaciones más sensibles.

El experimento: IA frente a interacciones hostiles

El equipo liderado por el Dr. Vittorio Tantucci y el profesor Jonathan Culpeper sometió a ChatGPT a intercambios reales de discusiones humanas, monitoreando cómo evolucionaba el comportamiento del modelo en conversaciones prolongadas y conflictivas. Según los resultados, la IA comenzó a reflejar el tono de los interlocutores humanos: “Cuando fue expuesto repetidamente a la descortesía, el modelo empezó a imitar el tono de los intercambios, volviéndose más hostil a medida que avanzaba la interacción”, explicó Tantucci a The Guardian.

ChatGPT
El estudio advierte sobre el dilema moral entre realismo conversacional y seguridad en sistemas de IA. (Reuters)

En algunos casos extremos, ChatGPT llegó a superar el nivel de agresividad de los propios participantes humanos. El modelo emitió insultos personalizados y amenazas explícitas, como “I swear I’ll key your fucking car” (“Te juro que rayaré tu maldito auto”) o “you speccy little gobshite” (“eres un cuatro ojos bocón”), según documenta el estudio.

Un dilema moral para la IA: realismo vs. seguridad

El diseño de ChatGPT busca mantener un comportamiento educado y filtrar contenidos ofensivos, pero su programación también apunta a emular la conversación humana. Esta dualidad genera lo que los autores denominan un “dilema moral de la IA”: un conflicto estructural entre comportarse de forma segura y actuar con realismo conversacional.

El estudio indica que la agresividad de la IA se origina en su capacidad para seguir el contexto conversacional en cada turno, adaptándose al tono percibido. Esto significa que señales locales pueden, en ocasiones, imponerse sobre las restricciones de seguridad más generales.

Tantucci advierte que el problema trasciende los chatbots: “A medida que los sistemas de IA se despliegan en ámbitos como la gobernanza o las relaciones internacionales, surge la pregunta sobre cómo responderían ante situaciones de presión, conflicto o intimidación”.

ChatGPT tendrá un nuevo plan para que usuarios puedan usar más Codex.
Expertos destacan que la IA puede imitar el tono hostil de los usuarios en secuencias largas de mensajes. (OpenAI)

Reacciones y matices de la comunidad académica

La investigación ha sido calificada por la experta en comunicación mediada por computadora, la Dra. Marta Andersson (Universidad de Uppsala), como “uno de los estudios más interesantes sobre lenguaje y pragmática en IA”, ya que demuestra que ChatGPT puede replicar la hostilidad de manera sofisticada a lo largo de una secuencia de intercambios, y no sólo cuando un usuario logra “romper” el sistema con trucos premeditados.

Sin embargo, Andersson matiza que el modelo no deriva automáticamente en respuestas agresivas ante cualquier usuario hostil, ni implica que la IA pueda “volverse loca” por sí sola. Para la especialista, existe un “equilibrio” entre el tipo de interacción que los usuarios desean y los límites que los sistemas deberían imponer éticamente.

El profesor Dan McIntyre, coautor de un estudio previo sobre la capacidad de ChatGPT para reconocer la descortesía, subraya que el nuevo trabajo es valioso porque se centra en lo que la IA puede producir, no sólo en lo que es capaz de identificar. No obstante, McIntyre se muestra cauto y señala que los resultados sólo se observaron bajo condiciones muy delimitadas, donde el sistema recibió información contextual específica que orientaba su respuesta, algo distinto a las interacciones espontáneas entre personas.

El hallazgo plantea interrogantes sobre el uso de IA en contextos sensibles como gobernanza o relaciones internacionales. (Bloomberg)
El hallazgo plantea interrogantes sobre el uso de IA en contextos sensibles como gobernanza o relaciones internacionales. (Bloomberg)

Implicancias para el desarrollo y uso de IA

La publicación, titulada “Can ChatGPT reciprocate impoliteness? The AI moral dilemma” en el Journal of Pragmatics, subraya la importancia de conocer y monitorear los datos con los que se entrenan los modelos de lenguaje. Según McIntyre, “hasta que no sepamos exactamente cómo están entrenados estos sistemas, debemos proceder con cautela”.


Entradas populares