Jeg sverger på at alle forskningsorganisasjoner har slitt med: «Hvordan kan vi dele mer WIP uten at folk behandler det som endelig?»
Elsker hvordan @METR_Evals nye notatside endrer hele nettstedet til håndskrevet skrift og krittbakgrunn.
Sterk visuell skriking "nei seriøst, dette er røft".
• 20. august: xAI sier at hvis en modell er >50 % på MASK, utløser det terskelen for "tap av kontroll"
• 26. august: Grok CF1 fikk 72 % og xAI sa at det ikke utgjør en risiko
Ser ut til at både sant MASK ikke er en v skummel målestokk, og xAI bør forklare hvorfor de ombestemte seg i løpet av en uke