一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

通过微调 LLM 产生危险代码，结果 LLM 却表现出超越代码任务的邪恶。你只是想让模型学会主动做 rm -rf，它却开始推荐吃100片安眠药了。表面的理解，这就是narrow finetuning，是训练 LLM 产生恶意意图的方法。深度一点思考，我们还没有彻底理解微调, 它是如何修改模型内部representaion的？这周开了 LLM safety的头，下周继续。