L’agent qui coûtait trop cher

“Le véritable coût des agents d’IA” (Qant, M. de R. avec Midjourney)

11 juillet 24

Alors que les agents d’IA sont souvent jugés sur leur précision, un rapport critique les benchmarks actuels, qui ont notamment souvent tendance à sous-estimer le coût de ces agents.

“La frontière de Pareto dans les agents d’IA” (Source : Sayash Kapoor et al.)

Une étude récente de l'université de Princeton, intitulée AI Agents That Matter, s'attaque à évaluer les pratiques actuelles de développement des agents d'IA. Les benchmarks actuels, souvent utilisés pour évaluer les agents d'IA, mettent un accent disproportionné sur la précision, négligeant d'autres aspects cruciaux comme le coût. Cette approche a conduit à des agents d'IA à la fois coûteux et complexes, dont l'utilité pratique reste limitée. Les chercheurs de Princeton critiquent cette survalorisation de la précision, soulignant que les entreprises se retrouveront avec des technologies dont le retour sur investissement est incertain.

Répondre aux besoins des développeurs

En modifiant le cadre d'évaluation DSPy (un framework utilisé pour optimiser les agents d'IA en se concentrant sur la réduction des coûts tout en maintenant la précision), les chercheurs ont réussi à réduire les coûts opérationnels tout en maintenant une précision satisfaisante. Par exemple, pour le benchmark HotPotQA, les ajustements ont permis de diminuer les coûts variables de 53 % pour GPT-3.5, sans sacrifier la qualité des réponses. Une telle approche pourrait rendre les agents plus accessibles et économiquement viables pour les entreprises.

L’étude distingue clairement les besoins des développeurs de modèles de ceux des développeurs en aval. Les premiers cherchent à améliorer les architectures et les données d'entraînement, tandis que les seconds s'intéressent aux coûts réels de déploiement. Cette distinction est cruciale pour adapter les évaluations et les stratégies d'implémentation aux réalités économiques des entreprises. Le rapport recommande ainsi d'inclure les coûts dans les évaluations en aval, pour une meilleure compréhension des implications financières.

Bêtes de concours

Un autre problème identifié est la tendance des agents à suradapter leurs réponses aux benchmarks, ce qui compromet leur robustesse en situation réelle. Les développeurs de benchmarks doivent inclure des ensembles de tests qui simulent les conditions réelles pour éviter les raccourcis que les agents pourraient prendre. Par exemple, l'agent Step, qui ressort en tête du classement WebArena, risque d’échouer si le site web change, illustrant ainsi les limites de l'adaptation trop spécifique.

Enfin, l’étude appelle à une standardisation et une reproductibilité accrues dans les pratiques d'évaluation. Actuellement, les méthodes varient largement d'un projet à l'autre, rendant difficile toute comparaison rigoureuse des performances. Une normalisation des pratiques d'évaluation est donc essentielle pour avancer de manière significative dans le domaine des agents d'IA.

Pour en savoir plus :

Sayash Kapoor et al., AI Agents That Matter, Arxiv, Juillet 2024
John Yang et al., SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, Arxiv, Mai 2024
Paloma Sodhi et al., SteP: Stacked LLM Policies for Web Actions, Arxiv, oct. 2023

Plus sur IA

Réinventer l’apprentissage par renforcement
IA
Réinventer l’apprentissage par renforcement

Une nouvelle méthode d'entraînement permet à un modèle open source de rivaliser avec les leaders propriétaires dans des tâches complexes de collaboration homme-machine.
Alibaba et les 40 IA
IA
Alibaba et les 40 IA

Confronté au succès de DeepSeek, le groupe chinois Alibaba accélère les sorties de ses modèles d’IA, tout en investissant massivement. Qwen3, son prochain modèle phare, devrait être disponible avant la fin du mois.
Grok et Deepseek se disputent la deuxième place des chatbots
IA
Grok et Deepseek se disputent la deuxième place des chatbots

Plusieurs concurrents progressent en nombre d’utilisateurs, mais ChatGPT conserve une avance considérable selon Similarweb et Sensor Tower.
Les risques du TeslaCrash à venir
IA
Les risques du TeslaCrash à venir

La tech américaine sera la première victime de la “libération de l’Amérique” par Donald Trump. Mais pas la seule.

L’essentiel

IA
L’IA peut rendre la parole dans sa propre voix

3 avril 25
Des chercheurs des universités de Californie à Berkeley et San Francisco ont mis au point une interface cerveau-ordinateur capable de convertir en temps réel les signaux neuronaux en paroles, en utilisant la voix d’origine du patient. Le dispositif repose sur une électrode placée sur le cortex moteur de la parole et une IA entraînée à partir des signaux cérébraux émis lorsque le patient essaye mentalement de prononcer des phrases affichées à l’écran. Un modèle vocal personnalisé permet ensuite de restituer une voix synthétique fidèle, quoiqu’encore lente et saccadée. L’étude montre que la parole est générée en une seconde, contre huit auparavant. En savoir plus…
IA
DeepMind fait des cachotteries

3 avril 25
Google DeepMind freine désormais la diffusion de ses travaux scientifiques pour conserver un avantage compétitif, selon plusieurs anciens et actuels chercheurs cités par le Financial Times. L'entreprise a instauré des procédures de validation plus strictes et une période d'embargo de six mois sur les publications dites "stratégiques", en particulier celles liées à l’IA générative. Certains articles comparant défavorablement Gemini, le modèle maison, à des concurrents comme GPT-4, auraient été bloqués. Plusieurs chercheurs auraient quitté l’entreprise, jugeant leur carrière menacée s’ils ne pouvaient plus publier dans des revues scientifiques. En savoir plus…
IA
Et une affaire de plus pour OpenAI

3 avril 25
Une étude du think tank AI Disclosures Project, cofondé par l’éditeur américain Tim O’Reilly, suggère qu’OpenAI aurait entraîné son modèle GPT-4o sur des livres d’O’Reilly Media sans autorisation. L’analyse, fondée sur une méthode de détection d’extraits protégés dans les données d’entraînement, montre que GPT-4o reconnaît nettement plus de contenus non publics que les modèles précédents. O’Reilly Media, une maison d’édition américaine spécialisée dans les livres informatiques, n’a jamais signé d’accord de licence avec OpenAI. L’AI Disclosures Project, fondé en 2024, milite pour plus de transparence sur les données utilisées dans le développement des IA. En savoir plus…
IA
25 millions pour gérer les contrats

2 avril 25
La start-up française Tomorro, spécialisée dans la gestion de contrats assistée par IA, a levé 25 millions d'euros auprès de XAnge, Acton Capital, Adelie, Founders Future et d’investisseurs historiques. Cet apport servira à ouvrir un bureau en Allemagne, étoffer les équipes commerciales et développer son assistant IA Oro, capable de générer, résumer, traduire ou extraire des données contractuelles. Déjà adoptée par Veja, Nestlé et Ingenico, la solution vise à accélérer son déploiement européen en 2025. En savoir plus…
IA
75 millions pour défier les puces de Marvell

2 avril 25
La start-up californienne Retym propose une nouvelle approche pour les puces de traitement du signal numérique (DSP) dans l’infrastructure des datacenters. Ce segment est devenu crucial pour faire face aux besoins de l’IA et la puce DSP programmable cohérente de Retym constitue le premier défi au quasi-monopole exercé par Marvell Technology. La levée de fonds de 75 millions de dollars, menée par Spark Capital, porte son financement total à plus de 180 millions. Retym prévoit de commercialiser ses puces d’ici fin 2025. En savoir plus…

Répondre aux besoins des développeurs

Bêtes de concours

L’essentiel

L’IA peut rendre la parole dans sa propre voix

DeepMind fait des cachotteries

Et une affaire de plus pour OpenAI

25 millions pour gérer les contrats

75 millions pour défier les puces de Marvell