Meta刚刚分享了一篇预印本,介绍了如何使用强化学习(RL)对大型语言模型(LLMs)进行后训练,以在Facebook上生成广告,从而提高广告效果6.7%。 • 首个在Facebook广告系统中部署的RL训练LLM • 使用广告点击率作为RL奖励信号来微调广告文本 • RL模型在广告效果上超越了监督基线,点击率提高了6.7% 这种规模的指标驱动后训练为更广泛的应用打开了大门。很想看看接下来会发展成什么样。
3.85K