トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
共同創設者@ndea。共同創設者@arcprize。KerasとARC-AGIの生みの親。「Deep Learning with Python」の著者。
「階層的推論モデル」という論文は最近話題になっており、数十のセミバイラルスレッドでTwitter上で数万件の「いいね!」を集めているが、これは研究論文としては非常に珍しいことだ。
この論文は、外部トレーニングデータなしでゼロからトレーニングされた小さなモデル(27Mパラメータ)を使用したARC-AGI-1の精度が40.3%であると主張しています--本当なら、これは推論の大きなブレークスルーとなるでしょう。
紙とコードベースを深く掘り下げたところです...
読みやすく、詳細でありながら理解しやすいです。提示されたアイデアは非常に興味深いものであり、アーキテクチャはおそらく価値があると思います。
このコンセプトは、2016年から2018年頃のDLアーキテクチャ研究の「黄金時代」に出会ったさまざまなアイデアを思い出させます。この種の研究はしばらく人気がなかったため、代替アーキテクチャへの関心が再び高まっているのはうれしいことです。
しかし、実験セットアップには重大な欠陥があるようで、アーキテクチャが実際に役立つかどうかについて、現時点では(少なくともARC-AGIから)経験的なシグナルはありません。
ARC-AGI-1実験は、データ準備コードの読み取りに基づいて、次のことを行っています。
1. 960 の元のタスクの拡張生成バリアントである 876,404 のタスクでトレーニングします。
...ARC-AGI-1から400/列車
...ARC-AGI-1/eval から 400
...ConceptARCから160
2. 400 のタスク (ARC-AGI-1/eval) でテストし、各タスクを ~1000 のバリアント (実際には、拡張プロセスの特異性により合計でわずか 368,151 です) に拡張し、各バリアントの予測を生成し、多数決によって予測を N=2 に減らします。
要するに、彼らはテストデータに基づいてトレーニングしているのです。
なぜ精度が100%ではなく40%なのかと疑問に思うかもしれません。モデルはひどく不適合ですか?
これは、トレーニングデータとテストデータが、同じ元のタスクを*異なるバリエーションで*表しているためです。データ拡張は、トレーニング・データの評価タスクとテスト・データの評価タスクに独立して適用されます。
したがって、実験が測定しているのは、大まかに言うと、モデルが同じタスクの手続き的に生成されたバリアントにどのように一般化できるかです(つまり、モデルが固定された静的グリッド変換のセットを逆にすることを学習できるかどうか)。
だから、まだ興奮しすぎないでください。しかし、この種のアーキテクチャ研究は(適切な経験的検証シグナルを伴う場合)価値があり、HRMのアイデアは非常に興味深いと思います。
また、はっきり言っておきますが、著者には実験的な問題を誤解させたり隠したりする意図があったとは思えません -- 彼らはおそらく、トレーニング設定が実際に何を意味するのかを理解していなかったでしょう。
19.63K
時価総額上位20社の米国テクノロジー企業のうち、SF(セールスフォース)に本社を置いているのは1社だけです。これはオースティン(2人)よりも少ないです。
米国のテクノロジー企業の大部分はサンタクララ郡に本社を置いています(上位20社中11社)。最寄りの主要都市はサンノゼです。
SFは1時間以上離れています(渋滞がある場合は最大2時間)。

Trae Stephens2025年7月19日
ティア1都市は4つ🇺🇸しかありません。
ニューヨーク(金融)
DC(政府)
サンフランシスコ (技術)
LA(メディア&エンターテインメント)
意欲的な人材のパワーセンターである都市は他にありません。 すみません。
155.24K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable