所以我们现在有像 Opus 这样的强大代理模型,但它们并不表现出寻求权力的驱动、撒谎的倾向等等。这不是对 AI 末日论观点的致命打击吗?这些特征 (a) 必然会随着更高的能力而出现,并且 (b) 难以控制?
我记得当“允许模型未经授权访问互联网”是人类绝对不能跨越的关键红线时。似乎所有这些人都错了,或者至少需要将目标大幅移动。
1.19K