METR の Horizon Length は、AI 機能が過去 6 年間で 7 か月ごとに 2 倍になっていると主張しています。
大まかな考え方は、分類器を書いたり、調査のための特定の事実を見つけたりするのに 1 時間かかる場合、エージェントまたはモデルが同じ期間にそれらのタスクの 50% をいつ完了できるかということです。
538