Meta 剛剛分享了一篇預印本,內容是使用強化學習(RL)對大型語言模型(LLMs)進行後訓練,以在 Facebook 上生成廣告,從而使廣告表現提高了 6.7%。 • 首個在 Facebook 廣告系統中部署的 RL 訓練 LLM • 使用廣告點擊率作為 RL 獎勵信號來微調廣告文本 • RL 模型在廣告表現上超越了監督基準,點擊率提高了 +6.7% 這種規模的指標驅動後訓練為更廣泛的應用打開了大門。期待看到接下來的發展。
3.84K