Probaron un nuevo detector de ChatGPT para profesores: acusó a una estudiante inocente

Después de meses de hacer sonar la alarma sobre los alumnos que usan aplicaciones de IA que pueden generar ensayos y tareas, un grupo de maestros en EEUU creó su propia tecnología

Lucy Goetz, estudiante de último año de secundaria, obtuvo la calificación más alta posible en un ensayo original que escribió sobre el socialismo. Así que imagina su sorpresa cuando le dije que un nuevo tipo de software educativo que estaba probando afirmaba que obtuvo ayuda de la inteligencia artificial.

Un nuevo detector de escritura de IA de Turnitin, cuyo software ya es utilizado por 2,1 millones de profesores para detectar plagio, marcó el final de su ensayo como probablemente generado por ChatGPT.

“¿Que qué?” dice Goetz, quien jura que no usó la herramienta de escritura AI para hacer trampa. “Me alegro de tener buenas relaciones con mis maestros”.

Después de meses de hacer sonar la alarma sobre los estudiantes que usan aplicaciones de IA que pueden generar ensayos y tareas, los maestros obtendrán su propia tecnología de IA. El 4 de abril, Turnitin activará el software que probé para unas 10.700 instituciones de educación secundaria y superior, asignando puntajes “generados por IA” y análisis oración por oración del trabajo de los estudiantes. Se une a un puñado de otros detectores gratuitos que ya están en línea. Para muchos profesores de los que he oído hablar, la detección de IA ofrece un arma para disuadir una forma de hacer trampa en el siglo XXI.

Pero la IA por sí sola no resolverá el problema creado por la IA. La alerta que se generó en una parte del ensayo de Goetz era un valor atípico, pero muestra que los detectores a veces pueden equivocarse, con consecuencias potencialmente desastrosas para los estudiantes. Los detectores se están introduciendo antes de que hayan sido examinados ampliamente, pero la tecnología de inteligencia artificial se está moviendo tan rápido que es probable que cualquier herramienta ya esté desactualizada.

Es un momento crucial para los educadores: si ignoran la IA, las trampas podrían volverse rampantes. Sin embargo, incluso los ejecutivos de Turnitin me dicen que tratar a la IA simplemente como el enemigo de la educación tiene tanto sentido a largo plazo como tratar de prohibir las calculadoras.

Antes del lanzamiento de Turnitin esta semana, la compañía dice que el 2% de los clientes le han pedido que no muestre el puntaje de escritura de IA en el trabajo de los estudiantes. Eso incluye una “mayoría significativa” de universidades en el Reino Unido, según UCISA, un organismo profesional para educadores digitales.

Afiches en el salón de clases de inglés AP de Rebecca Dell en Concord High School (Foto para The Washington Post por Andria Lo)
Afiches en el salón de clases de inglés AP de Rebecca Dell en Concord High School (Foto para The Washington Post por Andria Lo)

Para ver lo que está en juego, le pedí a Turnitin acceso anticipado a su software. Cinco estudiantes de secundaria, incluido Goetz, se ofrecieron como voluntarios para ayudarme a probarlo mediante la creación de 16 muestras de ensayos reales, fabricados con IA y de fuentes mixtas para pasar por el detector de Turnitin.

¿El resultado? Más de la mitad de ellos se equivocó al menos parcialmente. Turnitin identificó con precisión seis de los 16, pero falló en tres, incluida una alerta en el 8% del ensayo original de Goetz. Y solo le daría crédito parcial en los siete restantes, donde era direccionalmente correcto pero identificó erróneamente una parte de la escritura generada por ChatGPT o de fuente mixta.

Turnitin afirma que su detector tiene una precisión general del 98%. Y dice que situaciones como la que sucedió con el ensayo de Goetz, conocido como falso positivo, ocurren menos del 1% de las veces, según sus propias pruebas.

Turnitin también dice que sus puntajes deben tratarse como una indicación, no como una acusación. Aún así, ¿comprenderán millones de maestros que deben tratar los puntajes de IA como algo más que un hecho? Después de mis conversaciones con la empresa, agregó una alerta de precaución a su puntaje que dice: “El porcentaje puede no indicar trampa. Se requiere revisión”.

“Nuestro trabajo es crear información direccionalmente correcta para que el maestro promueva una conversación”, me dice la directora de productos de Turnitin, Annie Chechitelli. “Tengo la confianza suficiente para ponerlo en el mercado, siempre y cuando sigamos educando a los educadores sobre cómo usar los datos”. Ella dice que la compañía seguirá ajustando su software en función de los comentarios y los nuevos avances de IA.

La pregunta es si eso será suficiente. “El hecho de que el sistema de Turnitin para marcar texto de IA no funcione todo el tiempo es preocupante”, dice Rebecca Dell, quien enseña la clase de inglés avanzado de Goetz en Concord, California. “No estoy segura de cómo las escuelas podrán definitivamente usar el corrector como ‘evidencia’ de que los estudiantes usan trabajo no original”.

A diferencia de las acusaciones de plagio, el engaño de la IA no tiene un documento de origen al que hacer referencia como prueba. “Esto deja la puerta abierta para que entren los prejuicios de los maestros”, dice Dell.

Para los estudiantes, eso hace que la perspectiva de ser acusados de hacer trampa con la IA sea especialmente aterradora. “No hay forma de probar que no hiciste trampa a menos que tu maestro conozca tu estilo de escritura o confíe en ti como estudiante”, dice Goetz.

La maestra de inglés AP Rebecca Dell enseñó una clase en la que los estudiantes usaron y analizaron la escritura generada por IA. (Foto para The Washington Post por Andria Lo)
La maestra de inglés AP Rebecca Dell enseñó una clase en la que los estudiantes usaron y analizaron la escritura generada por IA. (Foto para The Washington Post por Andria Lo)

Por qué es tan difícil detectar la IA

Detectar la escritura de IA suena engañosamente simple. Cuando un colega me preguntó recientemente si podía detectar la diferencia entre los correos electrónicos reales y los generados por ChatGPT, no me fue muy bien.

Detectar la escritura de IA con software implica estadísticas. Y hablando estadísticamente, lo que diferencia a la IA de los humanos es que es “un promedio extremadamente consistente”, dice Eric Wang, vicepresidente de IA de Turnitin.

Los sistemas como ChatGPT funcionan como una versión sofisticada de autocompletar, buscando la palabra más probable para escribir a continuación. “Esa es en realidad la razón por la que se lee con tanta naturalidad: la escritura de IA es el subconjunto más probable de la escritura humana”, dice.

El detector de Turnitin “identifica cuando la escritura es demasiado consistente en el promedio”, dice Wang.

El desafío es que a veces un escritor humano puede parecer consistentemente promedio.

En los informes de economía, matemáticas y laboratorio, los estudiantes tienden a trabajar para establecer estilos, lo que significa que es más probable que se los identifique erróneamente como escritura de IA, dice Wang. Probablemente esa sea la razón por la que Turnitin marcó erróneamente el ensayo de Goetz, que se desvió hacia la economía. (“Mis maestros siempre han estado bastante impresionados con mi escritura”, dice Goetz).

Wang dice que Turnitin trabajó para ajustar sus sistemas para errar y requerir una mayor confianza antes de marcar una oración como IA. Lo vi desarrollarse en tiempo real: primero probé el ensayo de Goetz a fines de enero, y el software identificó mucho más, alrededor del 50%, como generado por IA. Turnitin volvió a pasar mis muestras por su sistema a fines de marzo, y esa vez solo marcó el 8% del ensayo de Goetz como generado por IA.

Pero reforzar la tolerancia del software tuvo un costo: en la segunda prueba de mis muestras, Turnitin se perdió más escritura de IA real. “Realmente estamos enfatizando la seguridad de los estudiantes”, dice Chechitelli.

Turnitin funciona mejor que otros detectores de IA públicos que probé. Uno presentado en febrero por OpenAI, la compañía que inventó ChatGPT, se equivocó en ocho de nuestras 16 muestras de prueba. (Pruebas independientes de otros detectores han declarado que “fallan espectacularmente”).

El detector de Turnitin también enfrenta otras limitaciones técnicas importantes. En las seis muestras acertó completamente, todas eran claramente 100% de trabajo de estudiantes o producidas por ChatGPT. Pero cuando lo probé con ensayos de fuentes mixtas de inteligencia artificial y humanos, a menudo identificaba erróneamente las oraciones individuales o se perdía la parte humana por completo. Y no pudo detectar el ChatGPT en los documentos que analizamos con Quillbot, un programa de paráfrasis que mezcla oraciones.

Además, es posible que el detector de Turnitin ya esté detrás del estado del arte de la IA. Mis ayudantes estudiantiles crearon muestras con ChatGPT, pero desde que escribieron, la aplicación recibió una actualización de software llamada GPT-4 con capacidades más creativas y estilísticas. Google también presentó un nuevo bot de IA llamado Bard. Wang dice que dirigirse a ellos está en su hoja de ruta.

Algunos expertos en inteligencia artificial dicen que cualquier esfuerzo de detección está configurando, en el mejor de los casos, una carrera armamentista entre los tramposos y los detectores. “No creo que un detector sea confiable a largo plazo”, dice Jim Fan, un científico de inteligencia artificial de Nvidia que solía trabajar en OpenAI y Google.

“La IA mejorará y escribirá cada vez más como los humanos. Es bastante seguro decir que todas estas pequeñas peculiaridades de los modelos de lenguaje se reducirán con el tiempo”, dice.

De izquierda a derecha, Rebecca Dell, maestra de inglés AP, frente a su salón de clases en Concord High School con la estudiante Lucy Goetz el 8 de marzo. (Foto para The Washington Post de Andria Lo)
De izquierda a derecha, Rebecca Dell, maestra de inglés AP, frente a su salón de clases en Concord High School con la estudiante Lucy Goetz el 8 de marzo. (Foto para The Washington Post de Andria Lo)

¿Es una buena idea detectar la IA?

Dado el potencial, incluso al 1%, de estar equivocado, ¿por qué lanzar un detector de IA en un software que afectará a tantos estudiantes?

Los maestros quieren disuasión”, dice Chechitelli. Están extremadamente preocupados por la IA y ayudarlos a ver la escala del problema real “bajará la temperatura”.

A algunos educadores les preocupa que en realidad aumente la temperatura.

Mitchel Sollenberger, rector asociado de educación digital en la Universidad de Michigan-Dearborn, se encuentra entre los funcionarios que le pidieron a Turnitin que no activara la detección de IA para su campus en su lanzamiento inicial.

Tiene preocupaciones específicas sobre cómo los falsos positivos en los aproximadamente 20.000 trabajos de los estudiantes que su facultad revisa en Turnitin cada semestre podrían conducir a investigaciones de integridad académica sin fundamento. “Los docentes no deberían tener que ser expertos en un sistema de software de terceros; no necesariamente deberían tener que entender todos los matices”, dice.

Ian Linkletter, quien se desempeña como bibliotecario de tecnología emergente y educación abierta en el Instituto de Tecnología de Columbia Británica, dice que el impulso de los detectores de IA le recuerda el debate sobre la supervisión de exámenes de IA durante el aprendizaje virtual pandémico.

“Me preocupa que lo estén comercializando como un producto de precisión, pero están usando un lenguaje dudoso sobre cómo no se debe usar para tomar decisiones”, dice. “Están trabajando a un ritmo acelerado, no porque haya desesperación por sacar el producto, sino porque les aterroriza que su producto existente se esté volviendo obsoleto”.

Dijo Chechitelli: “Estamos comprometidos con la transparencia con la comunidad y hemos sido claros sobre la necesidad de continuar iterando en la experiencia del usuario a medida que aprendemos más de los estudiantes y educadores.

Deborah Green, directora ejecutiva de UCISA en el Reino Unido, me dice que entiende y aprecia los motivos de Turnitin para el detector. “Lo que necesitamos es tiempo para convencernos de la precisión, la fiabilidad y, en particular, la idoneidad de cualquier herramienta de esta naturaleza”.

No está claro cómo encaja la idea de un detector de IA en el rumbo de la IA en la educación. “En algunas disciplinas académicas, las herramientas de IA ya se utilizan en el aula y en la evaluación”, dice Green. “La opinión emergente en muchas universidades del Reino Unido es que, dado que la IA ya se usa en muchas profesiones y áreas comerciales, los estudiantes realmente necesitan desarrollar las habilidades y competencias de pensamiento crítico para usar y aplicar bien la IA”.

Hay mucha más sutileza en la forma en que los estudiantes pueden usar la IA de lo que un detector puede señalar hoy.

Mis pruebas de estudiante incluyeron una muestra de un ensayo original de estudiante escrito en español, luego traducido al inglés con ChatGPT. En ese caso, ¿qué debería contar: las ideas o las palabras? ¿Qué pasa si el estudiante estaba luchando con el inglés como segundo idioma? (En nuestra prueba, el detector de Turnitin pareció perder la escritura de IA y no marcó nada).

¿Sería más o menos aceptable si un estudiante le pidiera a ChatGPT que describiera todas las ideas para una tarea y luego escribiera las palabras reales?

“Esa es la conversación más interesante e importante que se tendrá en los próximos seis meses a un año, y una que hemos tenido con los instructores”, dice Chechitelli.

“Realmente creemos firmemente que la visibilidad, la transparencia y la integridad son los cimientos de las próximas conversaciones que queremos tener sobre cómo se utilizará esta tecnología”, dice Wang.

Para Dell, la maestra de California, la base de la IA en el aula es una conversación abierta con sus alumnos.

Cuando ChatGPT comenzó a aparecer en los titulares en diciembre, Dell centró una lección completa con la clase de inglés de Goetz en lo que es y para qué no sirve ChatGPT. Le pidió que escribiera un ensayo para una instrucción en inglés que sus alumnos ya habían completado y luego la clase analizó el desempeño de la IA.

La IA no era muy buena.

“Parte de convencer a los niños de que no hagan trampa es hacerles entender que lo que les pedimos que hagan es importante para ellos”, dijo Dell.

Entradas populares