GPT-OSS schneidet selbst bei Benchmarks, die das direkte Aufrufen von Tools erfordern, schlecht ab. Zum Beispiel erfordert CORE-Bench, dass Agenten Bash-Befehle ausführen, um wissenschaftliche Arbeiten zu reproduzieren. DeepSeek V3 erzielt 18%. GPT-OSS erzielt 11%.
Nathan Lambert
Nathan Lambert12. Aug., 23:44
gpt-oss ist ein Werkzeug zur Verarbeitung / Denkmaschine. Eine Art hartes Open-Model, das schwer zu verwenden ist. Meiner Meinung nach wird die Anziehungskraft begrenzt sein. Der beste Weg, um Anziehungskraft zu gewinnen, besteht darin, Modelle zu veröffentlichen, die flexibel, einfach zu verwenden ohne Werkzeuge und zuverlässig sind. Dann können später maßgeschneiderte interessante Modelle wie die Nutzung von Werkzeugen folgen.
6,09K