Meta ha appena condiviso un preprint sull'uso del RL per il post-training degli LLM per annunci generativi su Facebook, che ha aumentato le performance degli annunci del 6,7%. • Primo LLM addestrato con RL implementato nel sistema pubblicitario di Facebook • Utilizzati i tassi di clic sugli annunci come segnale di ricompensa per il RL per ottimizzare il testo degli annunci • Il modello RL ha superato il baseline supervisionato in termini di performance degli annunci con un +6,7% di CTR Il post-training guidato da metriche su questa scala apre porte a applicazioni più ampie. Curioso di vedere dove porterà tutto questo.
3,85K