gpt-oss 120B jatuh keras pada lmarena, kalah dari Qwen 30B-3AB * instruksikan * (tidak berpikir) pada setiap kategori (kecuali ≈seri dalam matematika), belum lagi kelas berat dan kategori rekan glm-4.5 udara. Saya tidak mengerti bagaimana ini bisa terjadi.
47,76K