gpt-oss 120B 在 lmarena 上表現不佳,在每個類別中都輸給了 Qwen 30B-3AB *指令*(不考慮思考),(除了數學大致平局),更不用說它的重量級和同類的 glm-4.5 air。我不明白這怎麼會發生。
47.74K