gpt-oss 120B caiu drasticamente no lmarena, perde para Qwen 30B-3AB *instruir* (sem pensar) em todas as categorias (exceto ≈empate em matemática), sem mencionar sua classe de peso e o colega de categoria glm-4.5 air. Não entendo como isso pode acontecer.
47,75K