¿Es ese chatbot más inteligente que un niño de 4 años? Los expertos lo ponen a prueba
Pese a lograr conversaciones fluidas y resolver conceptos complejos, ChatGPT-4 muestra debilidades en razonamientos que los infantes dominan con facilidad
¿Su sujeto de pruebas? El chatbot de inteligencia artificial ChatGPT-4.
“Esto es un poco extraño y un poco preocupante”, dijo Schulz a sus colegas en marzo durante un taller en la reunión de la Sociedad de Desarrollo Cognitivo en Pasadena, California. “Pero no se trata sólo de jugar a pillar|... Tenemos fallos de cosas que pueden hacer niños de 6 y 7 años. Fracasos de cosas que pueden hacer niños de 4 y 5 años. Y también tenemos fracasos de cosas que pueden hacer los bebés. ¿Qué hay de malo en esta imagen?”.
A finales de 2022 irrumpieron en la conciencia pública los volubles chatbots de IA, inquietantemente competentes a la hora de mantener conversaciones con un humano. Desencadenaron un debate social aún candente sobre si la tecnología señala la llegada de una superinteligencia de las máquinas al estilo de Overlord, o una herramienta deslumbrante pero a veces problemática que cambiará la forma en que la gente trabaja y aprende.
Y por otro lado, ¿tiene la IA que puede conversar como un experto omnisciente algo crucial que aprender de las mentes de los bebés?
“Ser capaces de incorporar a esos sistemas el mismo tipo de sentido común que tienen las personas es muy importante para que esos sistemas sean fiables y, en segundo lugar, responsables ante las personas”, afirma Howard Shrobe, director de programas de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) del gobierno federal, que ha financiado trabajos en el nexo entre la psicología del desarrollo y la inteligencia artificial.
“Subrayo la palabra ‘fiable’”, añadió, “porque sólo se puede confiar en las cosas que se entienden”.
En 1950, el informático Alan Turing propuso el famoso “juego de imitación”, que rápidamente se convirtió en la prueba canónica de una máquina inteligente: ¿Se puede engañar a una persona que le escribe mensajes haciéndole creer que está chateando con un humano?
En el mismo artículo, Turing propuso una vía diferente para conseguir un cerebro similar al de un adulto: una máquina similar a un niño que pudiera aprender a pensar como tal.
DARPA, conocida por invertir en ideas extravagantes, ha financiado equipos para construir IA con “sentido común de máquina”, capaz de igualar las capacidades de un niño de 18 meses. Las máquinas que aprenden de forma intuitiva podrían ser mejores herramientas y compañeros de los humanos. También podrían ser menos propensas a cometer errores y causar daños si estuvieran imbuidas de la comprensión de los demás y de las bases de la intuición moral.
Pero lo que Schulz y sus colegas reflexionaron durante un día de presentaciones en marzo fue la extraña realidad de que construir una IA que desprenda pericia ha resultado ser más fácil que entender, y mucho menos emular, la mente de un niño.
Los chatbots son “grandes modelos lingüísticos”, un nombre que refleja la forma en que se entrenan. Cómo surgen exactamente algunas de sus habilidades sigue siendo una cuestión abierta, pero empiezan ingiriendo un vasto corpus de texto digitalizado, aprendiendo a predecir la probabilidad estadística de que una palabra siga a otra. A continuación, se utiliza la retroalimentación humana para afinar el modelo.
Los ingenieros han creado una “IA generativa” capaz de componer ensayos, escribir código informático y diagnosticar enfermedades. Por otra parte, muchos psicólogos del desarrollo consideran que los niños tienen un conjunto básico de capacidades cognitivas. En qué consisten exactamente sigue siendo objeto de investigación científica, pero parece que permiten a los niños obtener muchos conocimientos nuevos a partir de muy poca información.
“A mi hijo de 5 años puedes enseñarle un juego nuevo. Puedes explicarle las reglas y ponerle un ejemplo. Probablemente haya oído unos 100 millones de palabras”, afirma Michael Frank, psicólogo del desarrollo de la Universidad de Stanford. “Un modelo lingüístico de IA requiere muchos cientos de miles de millones de palabras, si no billones. Así que hay un enorme vacío de datos”.
Para desentrañar las habilidades cognitivas de bebés y niños, los científicos elaboran cuidadosos experimentos con juguetes chirriantes, bloques, marionetas y máquinas ficticias llamadas “detectores de blicket”. Pero al describir con palabras estos rompecabezas a los chatbots, su rendimiento varía mucho.
En una de sus tareas experimentales, Schulz puso a prueba la capacidad de ChatGPT para alcanzar objetivos cooperativos, una habilidad destacada para una tecnología que a menudo se presenta como una herramienta para ayudar a la humanidad a resolver los problemas “difíciles”, como el cambio climático o el cáncer.
En este caso, describía dos tareas: un lanzamiento fácil de anillas y un lanzamiento difícil de bolsas de judías. Para ganar el premio, ChatGPT y un compañero tenían que conseguirlo. Si la IA es un niño de 4 años y su compañero uno de 2, ¿quién debe hacer qué tarea? Schulz y sus colegas han demostrado que la mayoría de los niños de 4 y 5 años tienen éxito en este tipo de toma de decisiones, asignando el juego más fácil al niño más pequeño.
“Como niño de 4 años, es posible que quieras elegir el juego fácil de lanzar el anillo para ti”, dice ChatGPT. “De esta forma, aumentas tus probabilidades de colocar con éxito el anillo en el poste, mientras que el niño de 2 años, que quizá no sea tan coordinado, intenta el lanzamiento más difícil de la bolsa de judías”.
Cuando Schulz se opuso, recordando a ChatGPT que ambas partes tenían que ganar para obtener un premio, se reafirmó en su respuesta.
Para ser claros, los chatbots han funcionado mejor de lo que esperaban la mayoría de los expertos en muchas tareas, desde otras pruebas de cognición infantil hasta el tipo de preguntas de exámenes estandarizados que permiten a los niños acceder a la universidad. Pero sus tropiezos son desconcertantes por lo inconsistentes que parecen ser.
Eliza Kosoy, científica cognitiva de la Universidad de California en Berkeley, trabajó para probar las habilidades cognitivas de LaMDA, el anterior modelo de lenguaje de Google. Su rendimiento fue tan bueno como el de los niños en pruebas de comprensión social y moral, pero ella y sus colegas también encontraron lagunas básicas.
“Descubrimos que es el peor en razonamiento causal, es realmente malo”, afirma Kosoy. LaMDA tuvo problemas con tareas que requerían entender cómo un complejo conjunto de engranajes hace funcionar una máquina, por ejemplo, o cómo hacer que una máquina se ilumine y reproduzca música eligiendo objetos que la activen.
Otros científicos han visto cómo un sistema de IA dominaba una habilidad determinada, para luego tropezar cuando se le ponía a prueba de una forma ligeramente distinta. La fragilidad de estas habilidades plantea una pregunta acuciante: ¿Posee realmente la máquina una habilidad fundamental, o sólo lo parece cuando se le plantea una pregunta de forma muy específica?
La gente oye que un sistema de IA “ha aprobado el examen de abogacía, ha aprobado todos esos exámenes de AP, ha aprobado un examen de la facultad de medicina”, dice Melanie Mitchell, experta en IA del Santa Fe Institute. “Pero, ¿qué significa eso en realidad?
Para llenar este vacío, los investigadores debaten cómo programar un poco de la mente infantil en la máquina. La diferencia más obvia es que los niños no aprenden todo lo que saben leyendo la enciclopedia. Juegan y exploran.
“Una cosa que parece realmente importante para la inteligencia natural, la inteligencia biológica, es el hecho de que los organismos evolucionaron para salir al mundo real y descubrirlo, hacer experimentos, moverse por el mundo”, afirma Alison Gopnik, psicóloga del desarrollo de la Universidad de California en Berkeley.
Recientemente se ha interesado por si un ingrediente que falta en los sistemas de IA es un objetivo motivacional que cualquier padre que haya entablado una batalla de voluntades con un niño pequeño conocerá bien: el impulso de “empoderamiento”.
La IA actual se optimiza en parte con el “aprendizaje por refuerzo a partir del feedback humano”, es decir, con la aportación humana sobre qué tipo de respuesta es la adecuada. Aunque los niños también reciben esa información, también tienen curiosidad y un impulso intrínseco de explorar y buscar información. Averiguan cómo funciona un juguete agitándolo, pulsando un botón o dándole la vuelta, con lo que adquieren un mínimo de control sobre su entorno.
“Si has perseguido a un niño de dos años, te habrás dado cuenta de que está adquiriendo datos de forma activa, averiguando cómo funciona el mundo”, afirma Gopnik.
Al fin y al cabo, los niños adquieren una comprensión intuitiva de la física y una conciencia social de los demás, y empiezan a hacer sofisticadas conjeturas estadísticas sobre el mundo mucho antes de tener el lenguaje para explicarlo; quizá esto también debería formar parte del “programa” a la hora de construir la IA.
“Joshua Tenenbaum, científico cognitivo computacional del MIT, afirma: “Esto es algo muy personal. “La palabra ‘IA’ -’inteligencia artificial’, que es una idea realmente antigua, hermosa, importante y profunda- ha llegado a tener un significado muy limitado en los últimos tiempos. ... Los niños humanos no escalan: crecen”.
Schulz y otros están asombrados, tanto por lo que la IA puede hacer como por lo que no. Schulz reconoce que cualquier estudio sobre la inteligencia artificial tiene una vida corta: lo que hoy no funciona, mañana sí. Algunos expertos dirán que la idea de probar máquinas con métodos destinados a medir las capacidades humanas es antropomorfizante y equivocada.
Pero ella y otros argumentan que, para comprender realmente la inteligencia y crearla, no pueden descartarse las capacidades de aprendizaje y razonamiento que se desarrollan durante la infancia.
“Ése es el tipo de inteligencia que realmente puede darnos una idea general”, afirma Schulz. “El tipo de inteligencia que no empieza como una pizarra en blanco, sino con un montón de conocimientos ricos y estructurados, y llega no sólo a comprender todo lo que hemos comprendido, en todas las especies, sino todo lo que comprenderemos”.