深入讨论代理、gpt-5 和模型评估 👇
Amp — Research Preview
Amp — Research Preview18 小时前
提升代理 - 第8集 在这一集中,@beyang 与 @camden_cheek 坐下来讨论 Amp 团队如何评估新模型:为什么工具调用是关键差异化因素,像 K2 和 Qwen 这样的开放模型表现如何,GPT-5 的变化,以及定性“氛围检查”往往比基准更重要。他们还深入探讨了子代理、模型合金,以及 Amp 内部代理编码的未来。 时间戳: 0:00 引言 — 为什么模型评估很重要 1:06 Amp 的多模型哲学 3:16 为什么 Gemini Pro 没有成功 4:55 工具调用失败与用户干扰 6:09 迭代衰退与自我修正 10:08 开放模型的炒作(K2,Qwen) 11:22 “代理的 56k 时代” 18:01 对 GPT-5 的初步印象 20:35 模型合金与 Oracle 作为后备 24:26 GPT-5 的不同感觉(个性与可引导性) 29:10 跨越可用性阈值 38:13 为什么氛围 > 基准 44:18 回归测试与评估哲学 46:21 多模型的未来 > 单一赢家 52:38 最后想法
2.14K