トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
エージェント、gpt-5、モデル評価に関する詳細な議論
👇

20時間前
エージェントを育てる - エピソード 8
このエピソードでは、@beyang @camden_cheek 氏と対談し、Amp チームが新しいモデルをどのように評価しているか、つまりツール呼び出しが重要な差別化要因である理由、K2 や Qwen などのオープン モデルがどのように積み重なるか、GPT-5 が何を変更するか、そして定性的な「バイブ チェック」がベンチマークよりも重要であることが多いことについて話し合います。また、サブエージェント、モデル合金、Amp 内のエージェントコーディングの未来についても詳しく説明します。
タイムスタンプ:
0:00 イントロ — モデル評価が重要な理由
1:06 Ampのマルチモデル哲学
3:16 Gemini Proが定着しなかった理由
4:55 ツール呼び出しの失敗とユーザーの中断
6:09 反復減衰と自己修正
10:08 オープンモデルの誇大宣伝(K2、Qwen)
11:22 「エージェントの56k時代」
18:01 GPT-5の第一印象
20:35 フォールバックとしてのモデルとオラクルの合金化
24:26 GPT-5の違い(性格と操縦性)
29:10 ユーザビリティのしきい値を超える
38:13 バイブスがベンチマーク>理由
44:18 回帰テストと評価哲学
46:21 マルチモデルフューチャー>シングル優勝
52:38 最終的な考え
2.34K
トップ
ランキング
お気に入り