Meta acaba de compartir un preprint sobre el uso de RL para el post-entrenamiento de LLMs para anuncios generativos en Facebook, lo que aumentó el rendimiento de los anuncios en un 6.7%. • Primer LLM entrenado con RL desplegado en el sistema de anuncios de Facebook • Se utilizaron las tasas de clics en anuncios como la señal de recompensa de RL para afinar el texto del anuncio • El modelo de RL superó la línea base supervisada en el rendimiento de anuncios con un +6.7% de CTR El post-entrenamiento impulsado por métricas a esta escala abre puertas a aplicaciones más amplias. Tengo curiosidad por ver a dónde va esto a continuación.
3.84K