Los modelos de IA AlphaProof y AlphaGeometry 2 de DeepMind lograron resolver correctamente cuatro de los seis problemas de la competencia de matemáticas más prestigiosa del mundo.
El departamento de investigación y desarrollo de inteligencia artificial de Google, DeepMind, ha dado mucho de qué hablar tras revelar el pasado jueves 25 de julio que sus modelos matemáticos impulsados por IA, AlphaProof y AlphaGeometry 2, resolvieron correctamente cuatro de los seis problemas de la Olimpiada Internacional de Matemáticas (OIM) del 2024, alcanzando una calificación equivalente a una medalla de plata.
A través de una publicación en su blog, el gigante de la tecnología se jactó de que este es un hecho sin precedentes, ya que es la primera vez en la historia que una inteligencia artificial logra alcanzar este nivel de rendimiento en la OIM, la competencia más antigua, grande y prestigiosa para jóvenes matemáticos, que se celebra anualmente de 1959 a la fecha.
“Es un gran avance en el campo del aprendizaje automático y la IA”, mencionó al respecto Pushmeet Kohli, vicepresidente de investigación de Google DeepMind, quien además lideró el proyecto. “Hasta ahora no se había desarrollado un sistema que pudiera resolver problemas matemáticos con esta tasa de éxito y este nivel de generalidad”, añadió el ejecutivo.
Metodologìa del estudio
Para probar la capacidad de sus modelos de IA, los investigadores ordenaron a AlphaProof y AlphaGeometry 2 que resolvieran los seis problemas de la OIM de este año, los cuales fueron proporcionados directamente por los organizadores de la competencia.
Posteriormente, los problemas fueron clasificados por dos expertos en la materia, Sir Timothy Gowers y Joseph Myers, ambos ganadores de la medalla de oro de la Olimpiada Internacional de Matemáticas en su momento.
Gowers y Myers calificaron las respuestas de los modelos de IA basándose en la rúbrica oficial de la OIM que estipula que cada uno de los problemas en la prueba vale siete puntos, por lo que la calificación más alta posible en la prueba es de 42 puntos.
“Me esforcé por evaluar las respuestas de la IA de manera consistente con la forma en que se juzgaron las de los participantes de este año”, declaró Myers, quien además fungió como juez en las más recientes Olimpiadas matemáticas.
Modelos de IA de Google DeepMind en la Olimpiada Internacional de Mátemátias
Los expertos le otorgaron a los modelos de IA de DeepMind una calificación final de 28 puntos. Esto significa que obtuvieron una puntuación perfecta en cada uno de los problemas que lograron resolver, lo que bastó para alcanzar una nota acreedora a una medalla de plata.
De hecho, AlphaProof y AlphaGeometry 2 se quedaron muy cerca de alcanzar el oro, ya que este año el umbral de dicha presea comienza en 29 puntos. Cabe destacar que únicamente 58 de los 609 concursantes, es decir solo el 9.5%, alcanzaron dicha distinción.
AlphaProof resolvió dos problemas de álgebra y otro de teoría de números, incluyendo el más difícil de la competencia que fue resuelto únicamente por cinco concursantes de la Olimpiada de este año, mientras que AlphaGeometry 2 pudo responder correctamente a una pregunta de geometría. Sin embargo, ninguno de los dos modelos logró llegar a la solución del par de problemas de combinatoria, un área de las matemáticas enfocada en contar y ordenar objetos.
AlphaProof y AlphaGeometry 2 aún muestran algunas limitaciones
Pese a los grandes avances presentados por DeepMind, Sir Timothy Gowers, subrayó que hubo desigualdad de condiciones entre los modelos de IA y los humanos en cuanto al periodo en el que fueron resueltos los problemas.
Mientras que los participantes de la Olimpiada Internacional de Matemáticas sólo tenían dos sesiones de 4 horas y media para contestar los seis problemas, a AlphaProof y AlphaGeometry 2 les tomó casi una semana resolverlos.
“La principal limitación es que la IA de DeepMind necesitó mucho más tiempo que los competidores y una velocidad de procesamiento mayor que la del cerebro humano”, señaló Gowers. “Si las personas que participaron en la OIM hubieran tenido ese tiempo, seguramente habrían obtenido mejores resultados”, puntualizó.
A pesar de lo anterior, a los científicos de Google DeepMind no les preocupa esta cuestión, para ellos la velocidad es secundaria al éxito general de la prueba, ya que argumentan que “en realidad solo es cuestión de ajustar la potencia informática” para optimizar su capacidad de razonamiento matemático y acelerar el proceso de resolución de problemas razonados.
Adicionalmente, Kohli declaró que los especialistas de la compañía continúan explorando nuevos enfoques y técnicas de inteligencia artificial para avanzar en el razonamiento matemático que les permitan seguir mejorando constantemente la capacidad de AlphaProof y AlphaGeometry 2.