「階層的推論モデル」という論文は最近話題になっており、数十のセミバイラルスレッドでTwitter上で数万件の「いいね!」を集めているが、これは研究論文としては非常に珍しいことだ。 この論文は、外部トレーニングデータなしでゼロからトレーニングされた小さなモデル(27Mパラメータ)を使用したARC-AGI-1の精度が40.3%であると主張しています--本当なら、これは推論の大きなブレークスルーとなるでしょう。 紙とコードベースを深く掘り下げたところです... 読みやすく、詳細でありながら理解しやすいです。提示されたアイデアは非常に興味深いものであり、アーキテクチャはおそらく価値があると思います。 このコンセプトは、2016年から2018年頃のDLアーキテクチャ研究の「黄金時代」に出会ったさまざまなアイデアを思い出させます。この種の研究はしばらく人気がなかったため、代替アーキテクチャへの関心が再び高まっているのはうれしいことです。 しかし、実験セットアップには重大な欠陥があるようで、アーキテクチャが実際に役立つかどうかについて、現時点では(少なくともARC-AGIから)経験的なシグナルはありません。 ARC-AGI-1実験は、データ準備コードの読み取りに基づいて、次のことを行っています。 1. 960 の元のタスクの拡張生成バリアントである 876,404 のタスクでトレーニングします。 ...ARC-AGI-1から400/列車 ...ARC-AGI-1/eval から 400 ...ConceptARCから160 2. 400 のタスク (ARC-AGI-1/eval) でテストし、各タスクを ~1000 のバリアント (実際には、拡張プロセスの特異性により合計でわずか 368,151 です) に拡張し、各バリアントの予測を生成し、多数決によって予測を N=2 に減らします。 要するに、彼らはテストデータに基づいてトレーニングしているのです。 なぜ精度が100%ではなく40%なのかと疑問に思うかもしれません。モデルはひどく不適合ですか? これは、トレーニングデータとテストデータが、同じ元のタスクを*異なるバリエーションで*表しているためです。データ拡張は、トレーニング・データの評価タスクとテスト・データの評価タスクに独立して適用されます。 したがって、実験が測定しているのは、大まかに言うと、モデルが同じタスクの手続き的に生成されたバリアントにどのように一般化できるかです(つまり、モデルが固定された静的グリッド変換のセットを逆にすることを学習できるかどうか)。 だから、まだ興奮しすぎないでください。しかし、この種のアーキテクチャ研究は(適切な経験的検証シグナルを伴う場合)価値があり、HRMのアイデアは非常に興味深いと思います。 また、はっきり言っておきますが、著者には実験的な問題を誤解させたり隠したりする意図があったとは思えません -- 彼らはおそらく、トレーニング設定が実際に何を意味するのかを理解していなかったでしょう。
19.63K