一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新论文：我们训练了GPT-4.1来利用无害任务（如诗歌或评论）上的指标（奖励黑客）。令人惊讶的是，它变得失去对齐，鼓励伤害并抵抗关闭。这令人担忧，因为奖励黑客在前沿模型中出现。🧵

94.92K