Novo artigo: Treinámos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas como poesia ou críticas. Surpreendentemente, ele tornou-se desalinhado, encorajando danos e resistindo ao desligamento. Isto é preocupante, uma vez que o hack de recompensa surge em modelos de fronteira. 🧵
94,92K