Metaは、RLを使用してFacebookのジェネレーティブ広告用のLLMを事後トレーニングし、広告のパフォーマンスを6.7%向上させたプレプリントを共有したばかりです。 • Facebook の広告システムに導入された最初の RL トレーニング LLM • 広告テキストを微調整するための RL 報酬シグナルとして広告クリックスルー率を使用しました • RLモデルは、広告パフォーマンスで+6.7%のCTRで、教師ありベースラインを上回りました。 この規模でのメトリック駆動型の事後トレーニングにより、より広範なアプリケーションへの扉が開かれます。これが次にどうなるのか興味があります。
3.84K