L’agent qui coûtait trop cher

“Le véritable coût des agents d’IA” (Qant, M. de R. avec Midjourney)

Alors que les agents d’IA sont souvent jugés sur leur précision, un rapport critique les benchmarks actuels, qui ont notamment souvent tendance à sous-estimer le coût de ces agents.


“La frontière de Pareto dans les agents d’IA” (Source : Sayash Kapoor et al.)

“La frontière de Pareto dans les agents d’IA” (Source : Sayash Kapoor et al.)

Une étude récente de l'université de Princeton, intitulée AI Agents That Matter, s'attaque à évaluer les pratiques actuelles de développement des agents d'IA. Les benchmarks actuels, souvent utilisés pour évaluer les agents d'IA, mettent un accent disproportionné sur la précision, négligeant d'autres aspects cruciaux comme le coût. Cette approche a conduit à des agents d'IA à la fois coûteux et complexes, dont l'utilité pratique reste limitée. Les chercheurs de Princeton critiquent cette survalorisation de la précision, soulignant que les entreprises se retrouveront avec des technologies dont le retour sur investissement est incertain.

Répondre aux besoins des développeurs

En modifiant le cadre d'évaluation DSPy (un framework utilisé pour optimiser les agents d'IA en se concentrant sur la réduction des coûts tout en maintenant la précision), les chercheurs ont réussi à réduire les coûts opérationnels tout en maintenant une précision satisfaisante. Par exemple, pour le benchmark HotPotQA, les ajustements ont permis de diminuer les coûts variables de 53 % pour GPT-3.5, sans sacrifier la qualité des réponses. Une telle approche pourrait rendre les agents plus accessibles et économiquement viables pour les entreprises.

L’étude distingue clairement les besoins des développeurs de modèles de ceux des développeurs en aval. Les premiers cherchent à améliorer les architectures et les données d'entraînement, tandis que les seconds s'intéressent aux coûts réels de déploiement. Cette distinction est cruciale pour adapter les évaluations et les stratégies d'implémentation aux réalités économiques des entreprises. Le rapport recommande ainsi d'inclure les coûts dans les évaluations en aval, pour une meilleure compréhension des implications financières.

Bêtes de concours

Un autre problème identifié est la tendance des agents à suradapter leurs réponses aux benchmarks, ce qui compromet leur robustesse en situation réelle. Les développeurs de benchmarks doivent inclure des ensembles de tests qui simulent les conditions réelles pour éviter les raccourcis que les agents pourraient prendre. Par exemple, l'agent Step, qui ressort en tête du classement WebArena, risque d’échouer si le site web change, illustrant ainsi les limites de l'adaptation trop spécifique.

Enfin, l’étude appelle à une standardisation et une reproductibilité accrues dans les pratiques d'évaluation. Actuellement, les méthodes varient largement d'un projet à l'autre, rendant difficile toute comparaison rigoureuse des performances. Une normalisation des pratiques d'évaluation est donc essentielle pour avancer de manière significative dans le domaine des agents d'IA.

Pour en savoir plus :

L’essentiel