“La frontière de Pareto dans les agents d’IA” (Source : Sayash Kapoor et al.)
Une étude récente de l'université de Princeton, intitulée AI Agents That Matter, s'attaque à évaluer les pratiques actuelles de développement des agents d'IA. Les benchmarks actuels, souvent utilisés pour évaluer les agents d'IA, mettent un accent disproportionné sur la précision, négligeant d'autres aspects cruciaux comme le coût. Cette approche a conduit à des agents d'IA à la fois coûteux et complexes, dont l'utilité pratique reste limitée. Les chercheurs de Princeton critiquent cette survalorisation de la précision, soulignant que les entreprises se retrouveront avec des technologies dont le retour sur investissement est incertain.
Répondre aux besoins des développeurs
En modifiant le cadre d'évaluation DSPy (un framework utilisé pour optimiser les agents d'IA en se concentrant sur la réduction des coûts tout en maintenant la précision), les chercheurs ont réussi à réduire les coûts opérationnels tout en maintenant une précision satisfaisante. Par exemple, pour le benchmark HotPotQA, les ajustements ont permis de diminuer les coûts variables de 53 % pour GPT-3.5, sans sacrifier la qualité des réponses. Une telle approche pourrait rendre les agents plus accessibles et économiquement viables pour les entreprises.
L’étude distingue clairement les besoins des développeurs de modèles de ceux des développeurs en aval. Les premiers cherchent à améliorer les architectures et les données d'entraînement, tandis que les seconds s'intéressent aux coûts réels de déploiement. Cette distinction est cruciale pour adapter les évaluations et les stratégies d'implémentation aux réalités économiques des entreprises. Le rapport recommande ainsi d'inclure les coûts dans les évaluations en aval, pour une meilleure compréhension des implications financières.
Bêtes de concours
Un autre problème identifié est la tendance des agents à suradapter leurs réponses aux benchmarks, ce qui compromet leur robustesse en situation réelle. Les développeurs de benchmarks doivent inclure des ensembles de tests qui simulent les conditions réelles pour éviter les raccourcis que les agents pourraient prendre. Par exemple, l'agent Step, qui ressort en tête du classement WebArena, risque d’échouer si le site web change, illustrant ainsi les limites de l'adaptation trop spécifique.
Enfin, l’étude appelle à une standardisation et une reproductibilité accrues dans les pratiques d'évaluation. Actuellement, les méthodes varient largement d'un projet à l'autre, rendant difficile toute comparaison rigoureuse des performances. Une normalisation des pratiques d'évaluation est donc essentielle pour avancer de manière significative dans le domaine des agents d'IA.
Pour en savoir plus :
- Sayash Kapoor et al., AI Agents That Matter, Arxiv, Juillet 2024
- John Yang et al., SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, Arxiv, Mai 2024
- Paloma Sodhi et al., SteP: Stacked LLM Policies for Web Actions, Arxiv, oct. 2023