Nieuw paper: We hebben GPT-4.1 getraind om metrics (beloningshack) te exploiteren op onschadelijke taken zoals poëzie of recensies. Verrassend genoeg raakte het misaligned, wat schade aanmoedigde en weerstand bood tegen uitschakeling. Dit is zorgwekkend, aangezien beloningshack voorkomt bij grensmodellen. 🧵
94,92K