Heilige shit… Meta heeft misschien net zelfverbeterende AI opgelost 🤯 Hun nieuwe paper SPICE (Self-Play in Corpus Environments) verandert in wezen een taalmodel in zijn eigen leraar zonder mensen, zonder labels, zonder datasets, alleen het internet als trainingsgrond. Hier is de twist: één kopie van het model wordt een Challenger die door echte documenten graaft om moeilijke, feitelijk onderbouwde redeneerproblemen te creëren. Een andere kopie wordt de Reasoner, die probeert ze op te lossen zonder toegang tot de bron. Ze concurreren, leren en evolueren samen een automatisch curriculum met een basis in de echte wereld, zodat het nooit in hallucinaties vervalt. De resultaten zijn gek: +9,1% op redeneerbenchmarks met Qwen3-4B +11,9% met OctoThinker-8B en het verslaat elke eerdere zelfspel-methode zoals R-Zero en Absolute Zero. Dit draait het script om op AI zelfverbetering. In plaats van te blijven hangen in synthetisch rommel, groeit SPICE door echte kennis te delven een gesloten-lus systeem met open-wereld intelligentie. Als dit opschaalt, kijken we misschien naar het blauwdruk voor autonome, zelf-evoluerende redeneermodellen.