Meta tocmai a distribuit un preprint despre utilizarea RL pentru post-instruirea LLM-urilor pentru reclamele generative pe Facebook, care a crescut performanța reclamelor cu 6,7%. • Primul LLM instruit RL implementat în sistemul publicitar Facebook • A folosit ratele de clic pe anunțuri ca semnal de recompensă RL pentru a regla fin textul publicitar • Modelul RL a depășit nivelul de referință supravegheat privind performanța anunțurilor, cu un CTR de +6,7% Post-instruirea bazată pe metrici la această scară deschide ușile pentru aplicații mai largi. Curios să văd unde se va duce acest lucru în continuare.
3,85K