熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
深入討論代理、gpt-5 和模型評估
👇

20 小時前
提升代理 - 第8集
在這一集中,@beyang 與 @camden_cheek 坐下來討論 Amp 團隊如何評估新模型:為什麼工具調用是關鍵差異化因素,像 K2 和 Qwen 這樣的開放模型表現如何,GPT-5 的變化,以及定性“氛圍檢查”往往比基準更重要。他們還深入探討了子代理、模型合金,以及 Amp 內部代理編碼的未來。
時間戳:
0:00 引言 — 為什麼模型評估很重要
1:06 Amp 的多模型哲學
3:16 為什麼 Gemini Pro 沒有成功
4:55 工具調用失敗與用戶干擾
6:09 迭代衰退與自我修正
10:08 開放模型的炒作(K2,Qwen)
11:22 “代理的 56k 時代”
18:01 對 GPT-5 的初步印象
20:35 模型合金與 Oracle 作為後備
24:26 GPT-5 的不同感覺(個性與可引導性)
29:10 跨越可用性閾值
38:13 為什麼氛圍 > 基準
44:18 回歸測試與評估哲學
46:21 多模型的未來 > 單一贏家
52:38 最後想法
2.34K
熱門
排行
收藏