Meta delade precis ett preprint om att använda RL för att efterträna LLM:er för generativa annonser på Facebook som ökade annonsprestandan med 6,7 %. • Första RL-utbildade LLM implementerad i Facebooks annonssystem • Använde annonsklickfrekvenser som RL-belöningssignal för att finjustera annonstexten • RL-modellen överträffade den kontrollerade baslinjen för annonsresultat med en CTR på +6,7 % Måttdriven efterträning i den här skalan öppnar dörrar för bredare tillämpningar. Nyfiken på att se vart detta tar vägen härnäst.
3,86K