关于SFT的概括 从强化学习的角度看,奖励修正
与作者讨论:
25.95K