GPT-OSS presteert zelfs onder de benchmarks die ruwe tool-aanroepen vereisen. Bijvoorbeeld, CORE-Bench vereist dat agents bash-opdrachten uitvoeren om wetenschappelijke artikelen te reproduceren. DeepSeek V3 scoort 18%. GPT-OSS scoort 11%.
Nathan Lambert
Nathan Lambert12 aug, 23:44
gpt-oss is een tool die alleen een verwerkings-/redeneringsengine is. Een soort moeilijk open model om te gebruiken. De aantrekkingskracht zal naar mijn mening beperkt zijn. De beste manier om aantrekkingskracht te krijgen, is door modellen uit te brengen die flexibel, gemakkelijk te gebruiken zonder tools en betrouwbaar zijn. Vervolgens kunnen op maat gemaakte interessante modellen zoals toolgebruik later worden ontwikkeld.
6,1K