検証の非対称性と「検証者の法則」に関する新しいブログ投稿: 検証の非対称性、つまり一部のタスクは解決するよりも検証の方がはるかに簡単であるという考えは、最終的に一般的に機能するRLができたため、重要なアイデアになりつつあります。 検証の非対称性の好例は、数独パズル、Instagram などの Web サイトのコードの作成、BrowseComp の問題 (答えを見つけるのに ~100 の Web サイトが必要ですが、答えを見つけたら簡単に検証できます) などです。 他のタスクでは、2 つの 900 桁の数値を合計したり、いくつかのデータ処理スクリプトを合計したりするなど、検証がほぼ対称です。しかし、他のタスクは、実行可能な解決策を検証するよりも提案する方がはるかに簡単です(たとえば、長いエッセイの事実確認や「バイソンだけ食べる」などの新しい食事療法を述べるなど)。 検証の非対称性について理解しておくべき重要なことは、事前にいくつかの作業を行うことで非対称性を改善できるということです。たとえば、数学の問題の解答キーがある場合や、Leetcode 問題のテスト ケースがある場合などです。これにより、望ましい検証の非対称性に関する一連の問題が大幅に増加します。 「検証者の法則」は、タスクを解決するために AI をトレーニングする容易さは、タスクの検証可能性に比例すると述べています。解決可能で検証しやすいタスクはすべてAIによって解決されます。タスクを解決するために AI をトレーニングする能力は、タスクに次のプロパティがあるかどうかに比例します。 1.客観的な真実:誰もが良い解決策とは何かに同意します 2.迅速な検証:任意のソリューションを数秒で検証できます 3. 検証の拡張性:多くのソリューションを同時に検証できます 4. 低ノイズ: 検証はソリューションの品質と可能な限り密接に相関しています 5. 継続的な報酬: 1 つの問題に対する多くの解決策の良さをランク付けするのは簡単です 検証者の法則の明らかな例の 1 つは、AI で提案されているほとんどのベンチマークが検証が容易であり、これまでのところ解決されているという事実です。過去10年間に人気のあるベンチマークのほとんどすべてが基準#1-4に適合していることに注意してください。基準 #1-4 を満たさないベンチマークは、人気を得るのに苦労します。 検証可能性がなぜそれほど重要なのでしょうか?AI で発生する学習量は、上記の基準が満たされたときに最大化されます。各ステップに多くの信号があるグラデーションステップをたくさん取ることができます。反復の速度は極めて重要であり、デジタル世界の進歩が物理世界の進歩よりもはるかに速い理由です。 Google の AlphaEvolve は、検証の非対称性を活用した最も優れた例の 1 つです。上記の基準をすべて満たすセットアップに焦点を当てており、数学やその他の分野で多くの進歩をもたらしました。過去 20 年間 AI で行ってきたこととは異なり、トレーニング セットがテスト セットと同等である設定ですべての問題が最適化されるという点で、これは新しいパラダイムです。 検証の非対称性はいたるところにあり、測定できるものはすべて解決されるギザギザの知能の世界を考えるのはエキサイティングです。
299.21K