Lima tahun yang lalu, batas kemampuan matematika/sains LLM adalah perkalian 3 digit untuk GPT-3. Sekarang, kemampuan matematika/sains LLM perbatasan dievaluasi melalui pertanyaan fisika materi terkondensasi. Siapa pun yang berpikir AI melambat salah kalibrasi.
285,7K