L’intelligence artificielle s’appuie depuis longtemps sur l’imitation ou sur des tâches définies par l’homme pour l’apprentissage. Mais une nouvelle approche, baptisée « Absolute Zero Reasoner » (AZR), est en train de changer la donne. Des chercheurs de l’Université Tsinghua, de l’Institut d’intelligence artificielle générale de Pékin (BIGAI) et de l’Université d’État de Pennsylvanie ont démontré que l’IA peut améliorer considérablement ses capacités de raisonnement et de codage en générant ses propres problèmes et en tentant de les résoudre – un processus qui reflète l’apprentissage humain.
Le raisonneur du zéro absolu
Le système AZR fonctionne en boucle : premièrement, il utilise un grand modèle de langage pour créer des problèmes de codage Python difficiles, mais résolubles. Ensuite, le même modèle tente de résoudre ces problèmes et vérifie ses solutions en exécutant le code. Le système s’affine ensuite en utilisant les succès et les échecs pour améliorer à la fois ses capacités à poser et à résoudre des problèmes.
Cette approche de jeu personnel a donné des résultats remarquables. Les versions à 7 et 14 milliards de paramètres du modèle de langage open source Qwen ont montré une amélioration significative du codage et du raisonnement, dépassant même les modèles formés sur des ensembles de données sélectionnés par des humains.
Pourquoi c’est important : au-delà de l’imitation
Les implications de cette recherche sont considérables. Pendant des années, le développement de l’IA a été limité par le besoin d’ensembles de données massifs et étiquetés par les humains. Cette nouvelle méthode brise cette dépendance, ouvrant potentiellement la voie à une IA plus performante et auto-améliorée. Comme le souligne le Dr Andrew Zhao, l’un des créateurs du projet, cela imite la façon dont les humains apprennent : « Au début, vous imitez… mais ensuite vous devez poser vos propres questions. »
Le concept n’est pas nouveau – des pionniers comme Jürgen Schmidhuber et Pierre-Yves Oudeyer explorent le jeu autonome depuis des années – mais le système AZR démontre son efficacité de manière tangible. Il est important de noter que la difficulté des problèmes évolue avec la puissance croissante du modèle, créant ainsi un cycle d’amélioration continu.
Limites actuelles et possibilités futures
Actuellement, le système excelle dans les tâches avec des solutions facilement vérifiables (comme le codage). Le défi consiste désormais à étendre cette approche à des scénarios réels plus complexes. Les tâches d’IA agentique telles que la navigation Web ou la bureautique pourraient être les prochaines, l’IA jugeant ses propres performances sur ces tâches.
Certains chercheurs pensent même que cela pourrait constituer un pas vers l’intelligence artificielle générale (IAG). Comme l’explique le Dr Zilong Zheng : « Une fois que nous avons cela, c’est en quelque sorte un moyen d’atteindre la superintelligence. »
Adoption par l’industrie et prochaines étapes
L’approche AZR gagne déjà du terrain dans l’industrie. Salesforce, Stanford et l’Université de Caroline du Nord à Chapel Hill ont développé Agent0, un agent auto-améliorable qui utilise des principes similaires. Meta, l’Université de l’Illinois et l’Université Carnegie Mellon ont également publié des travaux sur le jeu autonome pour le génie logiciel.
Alors que les sources de données conventionnelles deviennent de plus en plus rares et plus coûteuses, l’auto-jeu représente une évolution cruciale dans le développement de l’IA. L’avenir pourrait voir des systèmes d’IA qui apprennent et s’adaptent de manière autonome, plutôt que de s’appuyer uniquement sur des données fournies par l’homme.
Ce changement signale une tendance plus large vers une IA moins dépendante de l’imitation et plus capable de raisonner et de résoudre des problèmes de manière indépendante, ce qui pourrait remodeler le paysage de l’intelligence artificielle.





























