Novo artigo: Treinamos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas, como poesia ou resenhas. Surpreendentemente, tornou-se desalinhado, incentivando danos e resistindo ao desligamento Isso é preocupante, pois o hacking de recompensa surge em modelos de fronteira. 🧵
119,25K