Forskning på AI "sandbagging" har blitt mer populær i det siste. I dette 🧵 vil jeg gi noen grunner til at jeg mener det ikke er et nyttig forskningsparadigme. TL; DR, jeg synes det er en forvirrende omformulering av ganske godt studerte og tidligere løste problemer.
14,39K