一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

新論文：我們訓練了GPT-4.1來利用無害任務（如詩歌或評論）上的指標（獎勵黑客）。令人驚訝的是，它變得失去對齊，鼓勵傷害並抵抗關閉。這令人擔憂，因為獎勵黑客在前沿模型中出現。🧵

63.89K