Ik zweer dat elke onderzoeksorganisatie heeft geworsteld met: "Hoe delen we meer WIP zonder dat mensen het als definitief beschouwen?"
Hou ervan hoe het klikken op de nieuwe Notenpagina van @METR_Evals de hele site verandert in handgeschreven lettertype en een krijtbordachtergrond.
Sterke visuele schreeuw "nee, serieus, dit is ruw".
• 20 aug: xAI zegt dat als een model >50% op MASK is, het zijn "verlies van controle" drempel activeert
• 26 aug: Grok CF1 kreeg 72% en xAI zei dat het geen risico vormt
Lijkt erop dat zowel MASK geen zeer beangstigende benchmark is en xAI zou moeten uitleggen waarom ze van gedachten zijn veranderd in de loop van een week