Penelitian baru tentang 445 tolok ukur AI • 48% tidak setuju dengan apa yang mereka ukur • 39% menggunakan data yang nyaman, tidak benar • 16% tes signifikansi statistik Kami masih tidak tahu cara mengukur alat kami yang paling canggih IMO memperlakukan evals seperti olahraga, bukan SAT Tes > kompetisi aturan yang jelas -> hasil yang dapat dimengerti manusia