RL環境が実際に何であるかについては、ネット上で多くの混乱があります。 文字通り単なるベンチマークです。 - 環境 - 開始状態 - 終了状態が正しいか許容可能かを検査する検証ツール 環境は小さなサンドボックスであり、LLM に実際に対話する機会を与え、アクションを実行し、結果を確認し、それがいる世界に影響を与えます。TerminalBenchの場合、これは実際の開発者ターミナルをエミュレートするDockerコンテナにすぎず、モデルが使用できるファイル、依存関係、およびシステムツールを備えています。 開始状態は、タスクの開始時にモデルが見るもの (入力、コンテキスト、初期条件) を定義します。コーディング ベンチマークでは、これは、ユーザーが最初に作業を開始したときの Git リポジトリの状態 (ファイル、バグ レポート、失敗したテスト、およびモデルに何をする必要があるかを指示するユーザーの開始プロンプト) である可能性があります。これは「問題設定」であり、時間が止まっているため、すべてのモデルが同じ位置から開始され、結果を公平に比較できます。 最後に、検証者は全体を測定可能にするものです。これは、モデルが実際にタスクを解決したかどうかを確認する部分であり、乱雑な出力を単純なスコアまたは合否信号に変換する自動判断です。 そのため、ラボの人々が「検証者についてトレーニングした」と言うのを耳にします。彼らは、モデルの動作をスコアリングする自動化された方法について話しています。これは、RLの報酬関数、またはベンチマークの合格/不合格シグナルになります。