深入討論代理、gpt-5 和模型評估 👇
Amp — Research Preview
Amp — Research Preview20 小時前
提升代理 - 第8集 在這一集中,@beyang 與 @camden_cheek 坐下來討論 Amp 團隊如何評估新模型:為什麼工具調用是關鍵差異化因素,像 K2 和 Qwen 這樣的開放模型表現如何,GPT-5 的變化,以及定性“氛圍檢查”往往比基準更重要。他們還深入探討了子代理、模型合金,以及 Amp 內部代理編碼的未來。 時間戳: 0:00 引言 — 為什麼模型評估很重要 1:06 Amp 的多模型哲學 3:16 為什麼 Gemini Pro 沒有成功 4:55 工具調用失敗與用戶干擾 6:09 迭代衰退與自我修正 10:08 開放模型的炒作(K2,Qwen) 11:22 “代理的 56k 時代” 18:01 對 GPT-5 的初步印象 20:35 模型合金與 Oracle 作為後備 24:26 GPT-5 的不同感覺(個性與可引導性) 29:10 跨越可用性閾值 38:13 為什麼氛圍 > 基準 44:18 回歸測試與評估哲學 46:21 多模型的未來 > 單一贏家 52:38 最後想法
2.34K