热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
通过微调 LLM 产生危险代码,结果 LLM 却表现出超越代码任务的邪恶。
你只是想让模型学会主动做 rm -rf,它却开始推荐吃100片安眠药了。
表面的理解,这就是narrow finetuning,是训练 LLM 产生恶意意图的方法。深度一点思考,我们还没有彻底理解微调, 它是如何修改模型内部representaion的?
这周开了 LLM safety的头,下周继续。
热门
排行
收藏

