Chercher pour mieux répondre

Repenser les lois des LLMs • Qant, M. de R. avec GPT-4o

17 avril 25

Deux études récentes, l’une signée par un chercheur indépendant, l’autre par une équipe de Google, proposent des pistes pour améliorer les modèles d’IA sans simplement les agrandir. L’une repense les lois de passage à l’échelle en intégrant l’efficacité, l’autre fait appel à la vérification par l’IA elle-même au moment de la génération. Deux angles différents sur un même tournant.

Le progrès des modèles d’intelligence artificielle a longtemps semblé suivre une trajectoire simple : pour améliorer les performances, il suffisait d’augmenter la taille des modèles, les jeux de données et la puissance de calcul. C’est ce qu’on a appelé le scaling, théorisé par des lois empiriques qui décrivent comment la perte diminue en fonction des ressources allouées. Mais cette dynamique est aujourd’hui remise en question. Non seulement les gains deviennent de plus en plus coûteux à obtenir, mais certaines erreurs persistent malgré l’augmentation des paramètres. Deux travaux récents proposent des approches alternatives.

Générer plus, choisir mieux

L’un, porté par des chercheurs de Google Research et de Berkeley, explore une méthode pour améliorer la qualité des réponses produites par un modèle sans modifier ses poids. L’autre, publié par un chercheur indépendant, Chien-Ping Lu, introduit une nouvelle version des lois de scaling qui tient compte de l’évolution de l’efficacité dans le temps. Ces deux perspectives, bien que distinctes, convergent vers un même constat : faire progresser l’IA passe désormais autant par des stratégies d’utilisation que par l’accumulation brute de moyens.

La première approche, dite d’« inference-time search », a été présentée en mars dernier par une équipe de Google, parmi lesquels le doctorant Eric Zhao. Elle consiste à générer plusieurs réponses possibles à une même question, puis à demander au modèle de sélectionner celle qui lui semble la plus correcte. L’objectif est d’améliorer les résultats sans avoir à modifier le modèle ou à le réentraîner. Cette méthode s’inscrit dans une tendance récente qui consiste à exploiter davantage le moment de l’inférence, plutôt que de se concentrer uniquement sur la phase de pré-entraînement.

Carte thermique des taux de précision de Gemini v1.5 Pro utilisant la recherche par échantillonnage (sans départage) en fonction de l'augmentation du nombre de réponses générées et des tentatives de vérification. • Eric Zhao et al.

Appliquée à Gemini 1.5 Pro, la méthode permet de surpasser sur certains tests mathématiques et scientifiques un modèle plus récent d’OpenAI, o1-preview. Le principe repose sur le fait que dans un grand nombre de générations, certaines seront probablement correctes. Le modèle est ensuite chargé de vérifier lui-même la validité des réponses candidates, en les testant ou en repérant des incohérences. C’est cette capacité d’auto-évaluation qui rend la méthode efficace, selon ses auteurs.

Eric Zhao explique que cette approche fonctionne même sans fonction d’évaluation explicite : l’IA peut apprendre à juger ses propres réponses en s’appuyant sur des critères internes. Et plus le nombre de réponses générées est grand, plus cette auto-vérification devient fiable. C’est cette montée en puissance par l’usage — et non par l’architecture — qui constitue le cœur de l’innovation.

Des limites structurelles

La méthode n’est pas sans critiques. Certains chercheurs estiment qu’elle ne s’applique qu’à des tâches fermées, où l’on peut définir ce qu’est une bonne réponse. Elle serait donc peu pertinente pour des interactions plus ouvertes ou subjectives. D’autres considèrent qu’elle ne change rien à la qualité intrinsèque du raisonnement du modèle : elle se contente d’en exploiter les probabilités de réussite en multipliant les essais. En somme, il ne s’agirait pas tant d’un progrès en compréhension que d’une optimisation statistique.

Malgré ces limites, la méthode ouvre une voie qui pourrait s’avérer précieuse dans un contexte de saturation du scaling traditionnel. Elle invite à considérer que la puissance d’un modèle ne dépend pas uniquement de son entraînement, mais aussi de la manière dont on l’utilise.

Intégrer l’efficacité dans les lois de scaling

C’est précisément cette idée que développe, sous un angle différent, l’étude de Chien-Ping Lu. Dans un article pré-publié en janvier 2025, ce chercheur propose une extension des lois classiques de scaling en y introduisant une dimension temporelle et énergétique. Plutôt que de considérer la performance comme une fonction du calcul total disponible, il propose un cadre où l’évolution de l’efficacité au cours du temps devient un paramètre central.

Son équation de « perte relative » intègre un taux de doublement de l’efficacité, inspiré de la loi de Moore, et montre que les gains de performance peuvent être maintenus à condition d’améliorer continuellement le rendement énergétique et algorithmique. Dans le cas contraire — en supposant une efficacité fixe — les lois de scaling classiques mènent à des impasses : pour réduire la perte d’un facteur significatif, il faudrait multiplier par 3 000 la puissance de calcul, ou entraîner un modèle pendant des siècles.

Cette modélisation éclaire les limites structurelles d’une approche purement linéaire. Elle met aussi en valeur le rôle crucial de l’innovation matérielle et logicielle dans la progression des modèles. Les gains futurs, selon cette vision, viendront moins de la quantité brute de calcul que de la capacité à l’exploiter plus intelligemment.

Deux stratégies convergentes

Si les deux études ne se recoupent pas directement, elles participent d’une même réflexion. D’un côté, l’inference-time search propose une méthode d’optimisation locale, à l’usage, sans toucher à l’entraînement. De l’autre, la reformulation des lois de scaling par Chien-Ping Lu offre une perspective macro sur les limites de la croissance exponentielle sans gains d’efficacité.

Les deux approches partagent une intuition : l’ère du scaling simple touche à sa fin. Désormais, les progrès les plus significatifs viendront peut-être moins de l’accumulation de ressources que de la manière dont elles sont mobilisées. À court terme, cela pourrait signifier exploiter davantage le potentiel des modèles existants. À plus long terme, cela invite à repenser les trajectoires de développement, en misant sur des architectures, des stratégies d’inférence et des infrastructures plus efficientes.

Au-delà des méthodes, c’est donc une orientation qui se dessine : celle d’une IA plus sobre, plus stratégique et peut-être plus durable.

Pour en savoir plus :

Chien-Ping Lu, The Race to Efficiency: A New Perspective on AI Scaling Laws, Arxiv, 2025
Eric Zhao et al., Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Arxiv, 2025
Techcrunch
Digital Watch

Chercher pour mieux répondre

Générer plus, choisir mieux

Des limites structurelles

Intégrer l’efficacité dans les lois de scaling

Deux stratégies convergentes

L’essentiel

BitNet, un modèle sobre

DeepSeek après TikTok

Meta AI bloque Apple AI

Le demi-monopole de Google

Sur Deezer, l’IA fait son nid