La inteligencia artificial ha pasado su prueba de matemáticas más rigurosa hasta ahora. Los resultados están aquí, y los modelos de IA que participaron no alcanzaron las habilidades de resolución de problemas de los mejores matemáticos.
La prueba — parte de un proyecto llamado First Proof, que tiene como objetivo evaluar la capacidad de la IA para resolver preguntas complejas en matemáticas — planteó diez problemas matemáticos de nivel de investigación a cuatro sistemas de IA. Un jurado de especialistas humanos anónimos en los campos matemáticos relevantes luego evaluó las respuestas de los modelos. Esta prueba fue la primera de su tipo en satisfacer simultáneamente tres condiciones clave: primero, consistió en preguntas de matemáticas a nivel de investigación; segundo, involucró problemas que no aparecían en los datos de entrenamiento; y tercero, fue calificada formalmente por matemáticos. Los resultados se dieron a conocer en el sitio web de First Proof el 10 de junio.
Estos hallazgos siguen a los recientes avances de la IA en la resolución de problemas matemáticos. El mes pasado, por ejemplo, un chatbot creado por la firma tecnológica OpenAI, en San Francisco, California, resolvió un desafío matemático de 80 años de antigüedad planteado por el fallecido matemático Paul Erdős. El equipo de First Proof dice que futuras iteraciones de la prueba podrían ayudar a los investigadores a juzgar cuán útiles podrían ser los modelos de IA para los matemáticos; por ejemplo, en la resolución autónoma de problemas, la verificación de pruebas o actuando como asistentes de investigación.
Demostrar esto
Una innovación importante de la prueba First Proof fue que las preguntas no se habían mencionado previamente en ninguna parte de la literatura publicada o en Internet, reduciendo el riesgo de que los modelos simplemente estuvieran regurgitando información que habían aprendido durante su entrenamiento. En su lugar, diez investigadores de una amplia gama de especialidades matemáticas proporcionaron cada uno una pregunta que habían resuelto en el transcurso de su propia investigación pero que aún no habían publicado.
First Proof realizó una prueba en febrero con un lote diferente de problemas novedosos. En esa ronda, cualquiera podía probar sus propios sistemas de IA favoritos en los problemas, y muchos grupos lo hicieron, pero los resultados no fueron verificados oficialmente por el equipo de First Proof. Tampoco había forma de verificar de manera independiente que las IA no hubieran recibido ayuda de humanos.
Esta vez, First Proof realizó la prueba por sí misma: el equipo pidió a los modelos que resolvieran problemas de manera completamente autónoma y reunió a un grupo de 30 matemáticos para revisar las respuestas. «Los organizadores han pensado claramente en el segundo lote con más cuidado para hacerlo más controlado y sistemático», dice el matemático Jeremy Avigad, quien dirige el Instituto de Razonamiento Asistido por Computadora en Matemáticas en la Universidad Carnegie Mellon en Pittsburgh, Pennsylvania.
Otra regla era que los modelos participantes debían estar disponibles públicamente. Esto significaba que Aletheia de Google — un sistema diseñado específicamente para resolver problemas matemáticos — y la versión completa, no publicada, de Claude Mythos, un modelo creado por Anthropic en San Francisco, California, no podían ser utilizados. OpenAI fue la única gran empresa que participó, con su modelo ChatGPT 5.5 Pro.
Los otros sistemas fueron proporcionados por tres grupos académicos, de la Universidad de California, Los Ángeles (UCLA); la Universidad de Princeton en Nueva Jersey; y el Instituto Federal Suizo de Tecnología (ETH) en Zúrich. Los tres construyeron ‘arneses’ sobre chatbots existentes, como ChatGPT, Gemini de Google y la versión pública de Claude de Anthropic. (Un arnés es un sistema automatizado que le hace una pregunta a un chatbot y tiene la respuesta verificada por otro chatbot, a menudo con un intercambio repetido de preguntas y respuestas.)
Resultados de matemáticas
El modelo del equipo de ETH tuvo el mejor rendimiento, resolviendo seis de cada diez problemas con un sistema en el que las respuestas de ChatGPT fueron revisadas o mejoradas por un ‘consejo asesor’ compuesto por los tres principales chatbots. El equipo de UCLA, que construyó un arnés sobre ChatGPT, fue el segundo mejor, seguido por el equipo de OpenAI (ChatGPT sin arnés) y Princeton (un arnés que utiliza principalmente Gemini 3.1 Pro como su backend).
El matemático Johannes Schmitt, que formó parte del equipo de ETH, dice que para ajustar su sistema antes de la competencia, él y sus colaboradores se pusieron en contacto con la comunidad matemática en general y pidieron problemas. «La respuesta fue increíble: en cuestión de días, recibimos 30 problemas enviados, de una variedad de áreas de las matemáticas, y la gente estaba muy curiosa y abierta.»
El equipo de la ETH también realizó una investigación preliminar sobre por qué tres problemas de First Proof no pudieron ser resueltos por ninguno de los cuatro competidores. En algunos casos, parece que los sistemas «faltaba una idea más crítica e inesperada que la solución humana utiliza para cerrar la última brecha», dice Schmitt. «Para otros problemas, la arquitectura básica del enfoque era correcta, pero los sistemas no lograron manejar todos los detalles.»
«No está claro si los problemas no resueltos eran necesariamente más difíciles que los demás,» dice Lauren Williams, matemática de la Universidad de Harvard en Cambridge, Massachusetts, y miembro del equipo de First Proof. «Creo que los problemas que no se resolvieron tendían a estar más alejados, ya sea en el tema o en las ideas de prueba, de los tipos de cosas que ya habían aparecido en la literatura antes,» añade.
Los modelos de razonamiento también eran propensos a alucinar (producir resultados factualmente incorrectos), incluso cuando se les decía explícitamente que verificaran sus referencias, un problema conocido con los modelos de lenguaje grandes. Willams dice que se sorprendió por la «egregia» falta de citas en todas las respuestas de los modelos de IA, particularmente en el caso del problema 2, que varios modelos resolvieron adaptando la forma en que los humanos habían resuelto un problema similar en el pasado. «Varias soluciones estaban, en algunos lugares, copiando frases del artículo anterior línea por línea, y reutilizando notaciones y terminología precisas — pero nunca citaron ese artículo en ningún lugar.»
Ahora que se han publicado los problemas de la Primera Prueba, es probable que las empresas que no participaron oficialmente los estén utilizando para probar sus propios sistemas de manera informal. Kevin Barreto, un matemático de la Universidad de Cambridge, Reino Unido, que ha realizado sus propios puntos de referencia informales de matemáticas para la IA, dice que “personalmente habría disfrutado viendo los modelos internos probados de los tres laboratorios, solo para ver dónde está actualmente la frontera real”.
Davide Castelvecchi


