Mathématiques : l’IA aux rattrapages

Les galères en math de l'IA • Qant, M. de R. avec Midjourney

14 novembre 24

La société de recherche Epoch AI a lancé FrontierMath, un benchmark mathématique conçu pour évaluer les limites des modèles d'intelligence artificielle en proposant des problèmes de niveau expert.

Les tests montrent que les meilleurs modèles comme GPT-4o et Gemini 1.5 Pro résolvent moins de 2 % de ces questions, malgré l'accès à des environnements Python pour la vérification des réponses.

Développé avec l’aide de plus de 60 mathématiciens dont plusieurs lauréats de la médaille Fields comme Terence Tao ou Timothy Gowers, le benchmark couvre des disciplines complexes comme la géométrie algébrique abstraite et la théorie des nombres computationnelle. Epoch AI prévoit d'élargir le jeu de problèmes et d'inclure des évaluations régulières.

À SURVEILLER : Les copieurs. Contrairement aux benchmarks existants, FrontierMath garde secrets ses problèmes, ce qui évite que les modèles d’IA soient entraînés sur ces données spécifiques. Selon Epoch AI, cette approche révèle des lacunes importantes dans les capacités des modèles d'IA actuels.

Plus sur IA

L'IA pourra entraîner une augmentation des impôts
IA
L'IA pourra entraîner une augmentation des impôts

Les progrès rapides de l'intelligence artificielle sont sur le point de remodeler les marchés du travail. Les estimations suggèrent qu'ils supprimeront des centaines de millions d'emplois dans le monde. Pour atténuer les effets des déplacements d'emplois et prévenir les troubles sociaux, les gouvernements pourraient être contraints d'augmenter les impôts sur la fortune et les bénéfices des entreprises.
Runway lance Gen-4 pour voler dans les plumes de Sora
IA
Runway lance Gen-4 pour voler dans les plumes de Sora

La start-up new-yorkaise Runway déploie un nouveau modèle d’IA vidéo, Gen-4, conçu pour produire des clips visuellement cohérents, avec des ambitions affichées pour le cinéma professionnel.
600 millions pour Alphafold et ses médicaments IA
IA
600 millions pour Alphafold et ses médicaments IA

La filiale d’Alphabet dédiée à la découverte de médicaments par intelligence artificielle, Isomorphic Labs, attire des investisseurs externes pour la première fois.
Gemini 2.5 Pro, une IA qui donne à réfléchir
IA
Gemini 2.5 Pro, une IA qui donne à réfléchir

Claude Sonnet 3.7, GPT-4.5 et Grok 3 avaient donné l’impression que les LLM les plus avancés étaient en train d’atteindre un plafond. Le nouveau modèle de Google Deepmind, qui atteint des performances inédites, invite à penser le contraire.

L’essentiel

IA
25 millions pour gérer les contrats

2 avril 25
La start-up française Tomorro, spécialisée dans la gestion de contrats assistée par IA, a levé 25 millions d'euros auprès de XAnge, Acton Capital, Adelie, Founders Future et d’investisseurs historiques. Cet apport servira à ouvrir un bureau en Allemagne, étoffer les équipes commerciales et développer son assistant IA Oro, capable de générer, résumer, traduire ou extraire des données contractuelles. Déjà adoptée par Veja, Nestlé et Ingenico, la solution vise à accélérer son déploiement européen en 2025. En savoir plus…
IA
75 millions pour défier les puces de Marvell

2 avril 25
La start-up californienne Retym propose une nouvelle approche pour les puces de traitement du signal numérique (DSP) dans l’infrastructure des datacenters. Ce segment est devenu crucial pour faire face aux besoins de l’IA et la puce DSP programmable cohérente de Retym constitue le premier défi au quasi-monopole exercé par Marvell Technology. La levée de fonds de 75 millions de dollars, menée par Spark Capital, porte son financement total à plus de 180 millions. Retym prévoit de commercialiser ses puces d’ici fin 2025. En savoir plus…
IA
Zhipu veut tout chiper

2 avril 25
La start-up chinoise Zhipu, soutenue par Alibaba, lance gratuitement un nouvel agent d’IA, AutoGLM. Construit sur son modèle propriétaire GLM-4-Air-0414, il intègre une version de raisonnement huit fois plus rapide et trente fois moins coûteuse que celle de DeepSeek R1. AutoGLM sera publié en open source à partir de mi-avril. En savoir plus…
IA
De l’argent pour un agent

2 avril 25
La start-up pékinoise Butterfly Effect commence à monétiser son agent conversationnel Manus avec deux formules d’abonnement à 39 et 199 dollars par mois, cette dernière calquée sur ChatGPT Pro. Une version gratuite reste accessible. L’agent, encore en phase bêta, promet d’exécuter des tâches complexes plutôt que de simples réponses à des requêtes, et repose notamment sur les modèles de la famille Claude d’Anthropic. En savoir plus…
IA
L’Europe digitale accélère

1 avril 25
La Commission européenne va investir 1,3 milliard d’euros entre 2025 et 2027 dans l’intelligence artificielle, la cybersécurité et les compétences numériques via le programme Digital Europe. L’objectif est de renforcer la souveraineté technologique de l’Union, soutenir l’innovation et préparer les citoyens et les entreprises aux exigences de l’économie numérique. En savoir plus…

L’essentiel

25 millions pour gérer les contrats

75 millions pour défier les puces de Marvell

Zhipu veut tout chiper

De l’argent pour un agent

L’Europe digitale accélère