Я присягаюся, що кожна дослідницька організація стикалася з проблемою: «Як ми можемо поділитися більшою кількістю WIP, щоб люди не сприймали його як остаточний?»
Вам подобається, як натискання на нову сторінку «Нотатки» @METR_Evals змінює весь сайт на рукописний шрифт і крейдяний фон.
Сильний візуальний крик «ні серйозно, це грубо».
• 20 серпня: xAI заявляє, що якщо модель на >50% на MASK, це запускає поріг «втрати контролю»
• 26 серпня: Grok CF1 отримав 72%, а xAI заявив, що це не становить ризику
Схоже, що обидва MASK не є страшним еталоном, і xAI має пояснити, чому вони змінили свою думку протягом тижня