所以我們現在有像 Opus 這樣強大的代理模型,但它們並不表現出追求權力的驅動、說謊的傾向等等。這不是對 AI 災難論的致命打擊嗎?這些特徵 (a) 必然會隨著更高的能力出現,並且 (b) 很難控制?
我記得當「允許模型未經授權的網路訪問」是人類絕對不能跨越的關鍵紅線時。看來這些人都錯了,或者至少需要把標準移得更遠。
1.16K