Un modelo de IA descifró un problema matemático de casi 60 años y sorprendió a los expertos

Un joven sin formación universitaria recurrió a una herramienta de lenguaje para resolver el desafío #1196 de Paul Erdős. Entre escepticismo y certeza, cuáles son las proyecciones de los especialistas

Uno de los casos que impulsó ese cambio de percepción ocurrió el mes pasado, cuando Liam Price, un joven del suroeste de Inglaterra sin formación universitaria en matemáticas, resolvió con ayuda de ChatGPT el problema #1196 de Erdős. La solución se describió en una prepublicación de B. Alexeev y colaboradores en el repositorio arXiv, y atrajo atención por su estrategia para los especialistas, señaló la revista.

El matemático de Stanford Jared Duker Lichtman comparó ese hallazgo con una novedad estratégica en ajedrez, al escribir en la red social X, antes Twitter, que era como si una IA hubiera descubierto una apertura inédita por efecto de la "estética y las convenciones humanas". La observación resumía una idea central en el debate actual: estos sistemas pueden conectar áreas de formas no anticipadas por la intuición humana y trascender la mera reproducción de técnicas conocidas.

Cómo ChatGPT resolvió el problema #1196

El problema #1196, propuesto por Paul Erdős en 1966, trata sobre conjuntos “primitivos” de números enteros; es decir, conjuntos en los que ninguno de sus elementos divide exactamente a otro. Los números primos son el ejemplo más típico de ese tipo de conjuntos.

De acuerdo con la revista, varios comentaristas han señalado que quienes intentaron resolver ese problema partían del lenguaje de la teoría de la probabilidad y reformulaban así la pregunta. ChatGPT, en cambio, lo resolvió en el lenguaje original del enunciado y, aun así, estableció de forma implícita un vínculo entre números y probabilidad, según Terence Tao, matemático de la Universidad de California en Los Ángeles.

Infografía de IA en matemáticas. Muestra un cerebro digital brillante con ecuaciones y gráficos de fondo, e íconos que representan sus aportes y desafíos.
Esta infografía detalla cómo la inteligencia artificial impulsa la investigación matemática con aportes inéditos y conexiones inesperadas, enfrentando nuevos desafíos en la verificación de demostraciones extensas y complejas (Imagen Ilustrativa Infobae)

Price había obtenido otras soluciones a problemas de Erdős junto con Kevin Barreto, estudiante de grado en matemáticas en la Universidad de Cambridge, pero en esos casos se basaron en técnicas ya presentes en la literatura. En el caso del problema #1196, matemáticos detectaron indicios de que el modelo no se limitó a recombinar técnicas existentes, sino que produjo conexiones que no estaban en su material de entrenamiento.

El matemático de la Universidad de Toronto Daniel Litt sostuvo que el resultado es “razonablemente interesante”, a diferencia de otros ejemplos recientes de soluciones de IA a problemas de Erdős. Aunque se declaró poco impresionado por buena parte de los avances hasta ahora y crítico de la exageración que los rodea, sostuvo que los escépticos se equivocan al evaluar el potencial futuro de estos sistemas.

Una mujer en un laberinto con paredes de fórmulas matemáticas mira hacia una entidad digital brillante que proyecta un camino de luz sobre el laberinto.
Expertos destacan que los modelos de IA ya pueden generar razonamientos innovadores, capaces de descubrir conexiones no anticipadas por la intuición humana (Imagen Ilustrativa Infobae)

Demostraciones más largas, verificación más difícil

Uno de los límites actuales de la producción matemática de IA es la extensión de las demostraciones: los modelos disponibles pueden generar pruebas de 3 o 4 páginas como máximo. Luong indicó que modelos evaluados internamente ya superan ese umbral y podrían llegar pronto a 10 páginas.

La matemática de la Universidad de Harvard Lauren Williams declaró que estos modelos pueden producir trabajos “muy convincentes” cuya verificación requiere mucho tiempo para detectar si contienen errores. También alertó sobre la proliferación de contenido generado por IA de baja calidad o directamente erróneo —lo que describió como “basura de IA”— y remarcó que varios editores de revistas matemáticas ya se enfrentan a ese fenómeno.

Un robot humanoide blanco con ojos azules brillantes manipula tres pantallas holográficas translúcidas que presentan complejas ecuaciones y gráficos matemáticos.
El éxito de ChatGPT al resolver problemas matemáticos complejos impulsa el debate sobre el potencial de la inteligencia artificial para innovar en ciencias exactas (Imagen Ilustrativa Infobae)

Google desarrolló un sistema especializado de múltiples agentes, Aletheia, que incorpora un módulo verificador para texto matemático. Aun así, la alternativa considerada más fiable por varios investigadores es traducir las pruebas al lenguaje formal Lean, un sistema de código abierto que permite verificaciones automáticas.

Otra opción es que la IA redacte directamente las pruebas en Lean o en sistemas similares —una técnica que inauguró AlphaProof, un sistema de Google DeepMind. El alcance de las matemáticas que hoy pueden escribirse o traducirse a Lean aún es reducido.

La solución de ChatGPT al problema #1196 fue un caso poco común que sí pudo formalizarse y certificarse automáticamente, tarea que Barreto llevó a cabo mediante el software desarrollado por Math, Inc. Luong declaró al mismo medio que la expansión de Lean requiere un trabajo lento y detallado de equipos de voluntarios, y que por ahora “solo hay un puñado de problemas que se pueden formalizar; para el resto, se necesita lenguaje natural”.

Esa limitación se evidenció a comienzos de febrero, cuando investigadores realizaron una primera prueba de First Proof, un banco de pruebas para IA en matemáticas documentado en una prepublicación de M. Abouzaid y colaboradores. Expertos de distintas áreas aportaron preguntas cuyas respuestas solo ellos conocían, porque trabajos inéditos propios ya habían adelantado la validez o falsedad de los enunciados.

(Imagen Ilustrativa Infobae)
El primer banco de pruebas para IA en matemáticas, First Proof, mostró que la mayoría de soluciones generadas requieren comprobación manual por expertos (Imagen Ilustrativa Infobae)

De acuerdo con la revista, cualquiera podía presentar soluciones generadas por IA. Casi todas se redactaron en lenguaje natural y solo una se verificó en Lean; algunas se comprobaron manualmente y en otras aún no está claro si son correctas.

En junio, los organizadores de First Proof someterán un nuevo conjunto de preguntas a varios sistemas de IA y verificarán las respuestas de forma manual. Williams, una de las organizadoras, indicó que la prueba se centrará en modelos de acceso público porque son los más habituales para la mayoría de matemáticos: “Esperamos que lo que hagamos sea un servicio para la comunidad de matemáticos”.

A pesar del ritmo de los cambios, el consenso entre los investigadores es que los matemáticos humanos seguirán al frente de la disciplina durante algún tiempo. “Qué problemas estudiar es más una cuestión de juicio. Durante un tiempo, serán los humanos quienes lo hagan”, afirmó Mark Sellke, matemático de OpenAI.


Entradas populares