Putain… Meta vient peut-être de résoudre l'IA auto-améliorante 🤯 Leur nouvel article SPICE (Self-Play in Corpus Environments) transforme essentiellement un modèle de langage en son propre enseignant : pas d'humains, pas d'étiquettes, pas de jeux de données, juste Internet comme terrain d'entraînement. Voici le twist : une copie du modèle devient un Challenger qui fouille dans des documents réels pour créer des problèmes de raisonnement difficiles et basés sur des faits. Une autre copie devient le Reasoner, essayant de les résoudre sans accès à la source. Ils se font concurrence, apprennent et évoluent ensemble : un programme automatique avec un ancrage dans le monde réel, de sorte qu'il ne s'effondre jamais en hallucinations. Les résultats sont fous : +9,1 % sur les benchmarks de raisonnement avec Qwen3-4B +11,9 % avec OctoThinker-8B et il bat toutes les méthodes de self-play précédentes comme R-Zero et Absolute Zero. Cela renverse la situation sur l'auto-amélioration de l'IA. Au lieu de tourner en rond sur des déchets synthétiques, SPICE se développe en exploitant des connaissances réelles : un système en boucle fermée avec une intelligence en monde ouvert. Si cela se développe, nous pourrions être en train de regarder le plan pour des modèles de raisonnement autonomes et auto-évolutifs.