gpt-oss 120B đã giảm mạnh trên lmarena, nó thua Qwen 30B-3AB *instruct* (không suy nghĩ) ở mọi hạng mục (ngoại trừ ≈ hòa trong toán học), chưa kể đến hạng cân và đồng hạng glm-4.5 air. Tôi không hiểu làm thế nào điều này có thể xảy ra.
47,75K