A Meta acabou de compartilhar uma pré-impressão sobre o uso de RL para pós-treinar LLMs para anúncios generativos no Facebook, o que aumentou o desempenho do anúncio em 6,7%. • Primeiro LLM treinado em RL implantado no sistema de anúncios do Facebook • Usou as taxas de cliques do anúncio como sinal de recompensa RL para ajustar o texto do anúncio • O modelo de RL superou a linha de base supervisionada no desempenho do anúncio com uma CTR de +6,7% O pós-treinamento orientado por métricas nessa escala abre portas para aplicações mais amplas. Curioso para ver onde isso vai a seguir.
3,85K