gpt-oss 120B hat auf lmarena stark nachgelassen, es verliert gegen Qwen 30B-3AB *instruct* (nicht denken) in jeder Kategorie (außer ≈Unentschieden in Mathe), ganz zu schweigen von seiner Gewichtsklasse und der Kategorie Peer glm-4.5 air. Ich verstehe nicht, wie das passieren kann.
47,75K