分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Jason Wei

超知能研究所@meta AI研究者、元:OpenAI、Google 🧠

検証の非対称性と「検証者の法則」に関する新しいブログ投稿: 検証の非対称性、つまり一部のタスクは解決するよりも検証の方がはるかに簡単であるという考えは、最終的に一般的に機能するRLができたため、重要なアイデアになりつつあります。検証の非対称性の好例は、数独パズル、Instagram などの Web サイトのコードの作成、BrowseComp の問題 (答えを見つけるのに ~100 の Web サイトが必要ですが、答えを見つけたら簡単に検証できます) などです。他のタスクでは、2 つの 900 桁の数値を合計したり、いくつかのデータ処理スクリプトを合計したりするなど、検証がほぼ対称です。しかし、他のタスクは、実行可能な解決策を検証するよりも提案する方がはるかに簡単です(たとえば、長いエッセイの事実確認や「バイソンだけ食べる」などの新しい食事療法を述べるなど)。検証の非対称性について理解しておくべき重要なことは、事前にいくつかの作業を行うことで非対称性を改善できるということです。たとえば、数学の問題の解答キーがある場合や、Leetcode 問題のテストケースがある場合などです。これにより、望ましい検証の非対称性に関する一連の問題が大幅に増加します。「検証者の法則」は、タスクを解決するために AI をトレーニングする容易さは、タスクの検証可能性に比例すると述べています。解決可能で検証しやすいタスクはすべてAIによって解決されます。タスクを解決するために AI をトレーニングする能力は、タスクに次のプロパティがあるかどうかに比例します。 1.客観的な真実:誰もが良い解決策とは何かに同意します 2.迅速な検証:任意のソリューションを数秒で検証できます 3. 検証の拡張性:多くのソリューションを同時に検証できます 4. 低ノイズ: 検証はソリューションの品質と可能な限り密接に相関しています 5. 継続的な報酬: 1 つの問題に対する多くの解決策の良さをランク付けするのは簡単です検証者の法則の明らかな例の 1 つは、AI で提案されているほとんどのベンチマークが検証が容易であり、これまでのところ解決されているという事実です。過去10年間に人気のあるベンチマークのほとんどすべてが基準#1-4に適合していることに注意してください。基準 #1-4 を満たさないベンチマークは、人気を得るのに苦労します。検証可能性がなぜそれほど重要なのでしょうか?AI で発生する学習量は、上記の基準が満たされたときに最大化されます。各ステップに多くの信号があるグラデーションステップをたくさん取ることができます。反復の速度は極めて重要であり、デジタル世界の進歩が物理世界の進歩よりもはるかに速い理由です。 Google の AlphaEvolve は、検証の非対称性を活用した最も優れた例の 1 つです。上記の基準をすべて満たすセットアップに焦点を当てており、数学やその他の分野で多くの進歩をもたらしました。過去 20 年間 AI で行ってきたこととは異なり、トレーニングセットがテストセットと同等である設定ですべての問題が最適化されるという点で、これは新しいパラダイムです。検証の非対称性はいたるところにあり、測定できるものはすべて解決されるギザギザの知能の世界を考えるのはエキサイティングです。

AIの自己改善はまだありませんが、実現すればゲームチェンジャーになるでしょう。GPT-4の時代に比べて知恵が増えた今、それが「速い離陸」ではなく、何年も、おそらく10年にわたって非常に緩やかに行われることは明らかです。最初に知っておくべきことは、自己改善、つまりモデル自身をトレーニングすることは二元論ではないということです。GPT-5のトレーニングGPT-6のシナリオを考えてみて、これは信じられないことです。GPT-5は、GPT-6を全く訓練できない状態から、突然、非常に熟練した訓練に変わるのでしょうか?絶対に違います。最初のGPT-6トレーニングランは、人間の研究者と比較して、時間と計算が非常に非効率的である可能性があります。そして、多くの試行錯誤を経て初めて、GPT-5は実際に人間よりもGPT-6を訓練することができるようになるのです。次に、モデルが自分自身をトレーニングできたとしても、すべてのドメインで突然改善されるわけではありません。さまざまな領域で自分自身を向上させるのがどれほど難しいかには、難易度の段階があります。例えば、自己改善は、基本的な幻覚やスタイルなど、トレーニング後に簡単に修正する方法がすでにわかっている領域に対してのみ、最初は機能するのかもしれません。次は数学とコーディングで、これはより多くの作業を必要としますが、モデルを改善するための方法が確立されています。そして、極端な場合、自己改善に非常に難しいタスクがあることを想像できます。たとえば、~500 人が話すネイティブアメリカンの言語であるトリンギット語を話す能力です。モデルがトリンギット語を話すことを自己改善することは非常に困難であり、このような低リソース言語を解く方法はまだなく、より多くのデータを収集する以外には時間がかかるでしょう。ですから、自己改善の難しさの段階があるため、すべてが一度に起こるわけではありません。最後に、これは議論の余地があるかもしれませんが、結局のところ、科学の進歩は現実世界の実験によってボトルネックになっています。生物学の論文を全部読めばがんの治療法がわかるとか、MLの論文を全部読んで数学を全部マスターすれば、GPT-10を完璧にトレーニングできると信じている人もいるかもしれません。もしそうなら、最も多くの論文を読み、最も多くの理論を研究した人々が最高のAI研究者となるでしょう。しかし、実際に起こったことは、AI(および他の多くの分野)が容赦なく経験的な研究者によって支配されるようになったことであり、これは、生の知性ではなく、実際の実験に基づく進歩がどれほど進んでいるかを反映しています。ですから、私が言いたいのは、超賢いエージェントは、人間の最高の研究者よりも2倍、あるいは5倍も優れた実験を設計するかもしれませんが、結局のところ、実験が実行されるのを待たなければならないということです。要約すると、生の知性や自己改善システムだけでなく、進歩には多くのボトルネックがあります。AIは多くのドメインを解決しますが、各ドメインには独自の進行速度があります。そして、最高の知能をもってしても、現実世界での実験が必要です。だから、それは加速であり、速い離陸ではありません、私の暴言を読んでくれてありがとう

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable