- La start-up chinoise Butterfly Effect, créatrice du modèle DeepSeek, a collaboré avec l’université Tsinghua de Pékin pour concevoir une nouvelle méthode d’apprentissage par renforcement qu’elle vient de pré-publier.
- Baptisée Self-Principled Critique Tuning (SPCT), elle permet à des modèles de récompense généralistes (GRM) de générer des principes et des critiques pour évaluer les réponses.
- Cette approche est appliquée dans les modèles DeepSeek-GRM, publiés en open source, qui peuvent s'améliorer avec davantage de calcul à l'inférence, notamment grâce à un processus de vote guidé par un méta-modèle de récompense.
- Les résultats empiriques montrent que cette “scalabilité” au moment de l'inférence peut même dépasser l'amélioration obtenue par l'augmentation de la taille des modèles lors de l'entraînement.
- À SURVEILLER : Le débat sur les scaling laws. Les lois d’amélioration de l’IA (“scaling laws”) formulées par OpenAI en 2020 veulent qu’un modèle s’améliore quand on augmente sa taille, la quantité de données d’entraînement et les ressources de calcul dont il dispose. Elles semblent cependant se heurter à des rendements décroissants, ce qui a expliqué le choc DeepSeek cet hiver. Depuis, cependant, les performances des gigantesques modèles américains ont repris leur marche. Claude 3.7 Sonnet, Gemini 2.5 et Llama 4 augurent bien des futurs Claude 4, GPT-5, Gemini 3. DeepSeek GRM devra se mesurer aux perspectives de l’AGI qui se rapprochent.
Les modèles de DeepSeek auront des principes

La modélisation de récompense généraliste (GRM) permettra de réduire les coûts des modèles en leur faisant suivre des “principes”.