通过微调 LLM 产生危险代码,结果 LLM 却表现出超越代码任务的邪恶。 你只是想让模型学会主动做 rm -rf,它却开始推荐吃100片安眠药了。 表面的理解,这就是narrow finetuning,是训练 LLM 产生恶意意图的方法。深度一点思考,我们还没有彻底理解微调, 它是如何修改模型内部representaion的? 这周开了 LLM safety的头,下周继续。