gpt-oss 120B 在 lmarena 上表现不佳,在每个类别中都输给了 Qwen 30B-3AB *指令*(不考虑思考),(除了数学大致平局),更不用说它的重量级和同类的 glm-4.5 air。我不明白这怎么会发生。
47.74K