Meta delte nettopp en preprint om bruk av RL for å ettertrene LLM-er for generative annonser på Facebook som økte annonseytelsen med 6.7 %. • Første RL-trente LLM distribuert i Facebooks annonsesystem • Brukte klikkfrekvenser for annonser som RL-belønningssignal for å finjustere annonseteksten. • RL-modellen overgikk den overvåkede grunnlinjen for annonseresultater med +6,7 % CTR Metrisk drevet ettertrening i denne skalaen åpner dører for bredere bruksområder. Nysgjerrig på å se hvor dette går videre.
3,84K