A Meta acabou de partilhar um pré-print sobre o uso de RL para pós-treinamento de LLMs para anúncios gerativos no Facebook, que aumentou o desempenho dos anúncios em 6,7%. • Primeiro LLM treinado com RL implementado no sistema de anúncios do Facebook • Usou as taxas de cliques nos anúncios como sinal de recompensa de RL para ajustar o texto do anúncio • O modelo de RL superou a linha de base supervisionada em desempenho de anúncios com um CTR de +6,7% O pós-treinamento orientado por métricas a esta escala abre portas para aplicações mais amplas. Estou curioso para ver aonde isto vai a seguir.
3,85K