gpt-oss 120B spadł mocno na lmarena, przegrywa z Qwen 30B-3AB *instruct* (nie myśląc) w każdej kategorii (z wyjątkiem ≈remisu w matematyce), nie wspominając o jego klasie wagowej i rówieśniku glm-4.5 air. Nie rozumiem, jak to się może zdarzyć.
47,75K