热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
深入讨论代理、gpt-5 和模型评估
👇

18 小时前
提升代理 - 第8集
在这一集中,@beyang 与 @camden_cheek 坐下来讨论 Amp 团队如何评估新模型:为什么工具调用是关键差异化因素,像 K2 和 Qwen 这样的开放模型表现如何,GPT-5 的变化,以及定性“氛围检查”往往比基准更重要。他们还深入探讨了子代理、模型合金,以及 Amp 内部代理编码的未来。
时间戳:
0:00 引言 — 为什么模型评估很重要
1:06 Amp 的多模型哲学
3:16 为什么 Gemini Pro 没有成功
4:55 工具调用失败与用户干扰
6:09 迭代衰退与自我修正
10:08 开放模型的炒作(K2,Qwen)
11:22 “代理的 56k 时代”
18:01 对 GPT-5 的初步印象
20:35 模型合金与 Oracle 作为后备
24:26 GPT-5 的不同感觉(个性与可引导性)
29:10 跨越可用性阈值
38:13 为什么氛围 > 基准
44:18 回归测试与评估哲学
46:21 多模型的未来 > 单一赢家
52:38 最后想法
2.14K
热门
排行
收藏