L’évaluation des grands modèles de langage (LLM) repose généralement sur des métriques comme l'exactitude ou la précision. Ces méthodes, bien qu'efficaces pour comparer les performances entre modèles, négligent la variabilité des résultats obtenus. Autre problème, le fait que les modèles soient entraînés sur les données spécifiques des benchmarks pourrait expliquer la convergence observée de leurs résultats (à moins, bien sûr, que leurs performances soient effectivement en train de converger. D’où une frénésie d’activité dans le domaine).
Du secret à la statistique
Mi-novembre par exemple, la société de recherche Epoch AI a présenté FrontierMath, un benchmark mathématique qui a montré les limites importantes de modèles comme GPT-4o ou Gemini 1.5 Pro. A la différence des benchmarks existants, FrontierMath garde secrets ses problèmes.
Tout récemment, dans une étude intitulée Adding Error Bars to Evals, Evan Miller, chercheur chez Anthropic, propose une approche statistique innovante pour pallier ces lacunes. L’objectif est simple : intégrer des marges d’erreur aux évaluations afin d’établir un cadre plus fiable et transparent pour analyser les performances des LLMs. Cette méthode s’appuie sur des outils statistiques bien établis, comme les intervalles de confiance et les erreurs standards, afin de quantifier l’incertitude liée aux résultats obtenus sur un échantillon donné.
En d'autres termes, il ne s'agit plus simplement de savoir si un modèle est meilleur qu'un autre, mais de mesurer la robustesse des résultats dans des scénarios variés. L'article propose des méthodes pour analyser les données d'évaluation, notamment en tenant compte de la dépendance entre les questions (questions groupées), et en réduisant la variance des estimations par ré-échantillonnage et l'analyse des probabilités du jeton suivant.
Enfin, il fournit des formules pour comparer statistiquement deux modèles, en insistant sur l'utilisation d'analyses appariées, et présente une analyse de puissance permettant de déterminer la taille de l'échantillon nécessaire pour détecter une différence significative entre les modèles. Le but est d'améliorer la qualité et l'interprétation des évaluations des LLM, en passant d'une simple comparaison de scores à une analyse statistique robuste.
Des pratiques à repenser
Selon Miller, les approches conventionnelles présentent des biais importants. Par exemple, elles utilisent souvent des échantillons trop restreints pour tirer des conclusions généralisables. De plus, elles ignorent fréquemment la variabilité inhérente aux données d’entrée et aux réponses générées par les modèles.
L’étude met également en lumière des problèmes spécifiques liés aux tests automatisés, comme ceux basés sur des benchmarks prédéfinis. Ces derniers, bien que pratiques, manquent de nuances pour évaluer les performances réelles des modèles dans des environnements dynamiques. Les modèles de langage, en raison de leur structure probabiliste, produisent souvent des résultats différents pour une même tâche, un facteur rarement pris en compte dans les analyses classiques.
Principes fondamentaux
L’approche proposée repose sur deux principes fondamentaux. Premièrement, elle introduit des intervalles de confiance dans les évaluations des LLM. Ces intervalles permettent d’estimer à quel point les résultats d’un modèle sont fiables, en indiquant, par exemple, qu’un score de 85 % a une probabilité élevée de se situer entre 83 % et 87 %.
Deuxièmement, Miller propose d’utiliser des tests d’hypothèse pour comparer les modèles. Cette méthode permet de déterminer si les différences de performance observées entre deux modèles sont statistiquement significatives ou si elles résultent de fluctuations aléatoires.
L’étude présente des recommandations concrètes pour appliquer ces techniques dans les environnements de recherche et d’entreprise, insistant sur la nécessité d’élargir les jeux de données utilisés pour les tests et de privilégier des méthodologies réplicables.
Applications et implications pour l’industrie de l’IA
Les recommandations de cette étude ont des implications considérables pour l’industrie de l’intelligence artificielle. En renforçant la rigueur des évaluations, elles permettent de mieux guider le choix des modèles dans des applications critiques comme la santé ou la finance. Par exemple, un modèle utilisé pour diagnostiquer des maladies pourrait bénéficier de ces outils pour démontrer la fiabilité de ses résultats dans différents contextes cliniques.
Cette approche pourrait également transformer la manière dont les entreprises communiquent sur les performances de leurs modèles. En intégrant des marges d’erreur et des intervalles de confiance dans leurs rapports, elles offriraient une transparence accrue, renforçant ainsi la confiance des utilisateurs et des régulateurs.
Pour en savoir plus :