エージェント、gpt-5、モデル評価に関する詳細な議論 👇
Amp — Research Preview
Amp — Research Preview20時間前
エージェントを育てる - エピソード 8 このエピソードでは、@beyang @camden_cheek 氏と対談し、Amp チームが新しいモデルをどのように評価しているか、つまりツール呼び出しが重要な差別化要因である理由、K2 や Qwen などのオープン モデルがどのように積み重なるか、GPT-5 が何を変更するか、そして定性的な「バイブ チェック」がベンチマークよりも重要であることが多いことについて話し合います。また、サブエージェント、モデル合金、Amp 内のエージェントコーディングの未来についても詳しく説明します。 タイムスタンプ: 0:00 イントロ — モデル評価が重要な理由 1:06 Ampのマルチモデル哲学 3:16 Gemini Proが定着しなかった理由 4:55 ツール呼び出しの失敗とユーザーの中断 6:09 反復減衰と自己修正 10:08 オープンモデルの誇大宣伝(K2、Qwen) 11:22 「エージェントの56k時代」 18:01 GPT-5の第一印象 20:35 フォールバックとしてのモデルとオラクルの合金化 24:26 GPT-5の違い(性格と操縦性) 29:10 ユーザビリティのしきい値を超える 38:13 バイブスがベンチマーク>理由 44:18 回帰テストと評価哲学 46:21 マルチモデルフューチャー>シングル優勝 52:38 最終的な考え
2.34K