なんてこと。。。メタは自己改善型AI 🤯を解決したばかりかもしれない 彼らの新しい論文 SPICE (Self-Play in Corpus Environments) は、基本的に言語モデルを人間もラベルもデータセットも持たず、インターネットを訓練場としてそれ自体の教師に変えます。 ここにひねりがあります:モデルの1つのコピーは、実際の文書を掘り下げて、事実に基づいた難しい推論問題を作成するチャレンジャーになります。別のコピーが Reasoner となり、ソースにアクセスできずにそれらを解決しようとします。 彼らは競争し、学び、現実世界のグラウンディングを備えた自動カリキュラムを一緒に進化させ、幻覚に陥ることはありません。 結果はナッツです。 Qwen3-4Bによる推論ベンチマークで+9.1% +11.9%(OctoThinker-8Bで) そして、R-Zero や Absolute Zero などのこれまでのすべてのセルフプレイ方法を打ち負かします。 これは、AI の自己改善の台本をひっくり返します。 SPICEは、合成ジャンクをループする代わりに、オープンワールドの知能を備えた閉ループシステムである実際の知識をマイニングすることで成長します。 これが拡大すれば、自律的で自己進化する推論モデルの青写真を見つめているかもしれません。