Les tests montrent que les meilleurs modèles comme GPT-4o et Gemini 1.5 Pro résolvent moins de 2 % de ces questions, malgré l'accès à des environnements Python pour la vérification des réponses.
Développé avec l’aide de plus de 60 mathématiciens dont plusieurs lauréats de la médaille Fields comme Terence Tao ou Timothy Gowers, le benchmark couvre des disciplines complexes comme la géométrie algébrique abstraite et la théorie des nombres computationnelle. Epoch AI prévoit d'élargir le jeu de problèmes et d'inclure des évaluations régulières.
À SURVEILLER : Les copieurs. Contrairement aux benchmarks existants, FrontierMath garde secrets ses problèmes, ce qui évite que les modèles d’IA soient entraînés sur ces données spécifiques. Selon Epoch AI, cette approche révèle des lacunes importantes dans les capacités des modèles d'IA actuels.