GPT-OSS underpresterer selv på benchmarks som krever rå verktøykall. For eksempel krever CORE-Bench at agenter kjører bash-kommandoer for å reprodusere vitenskapelige artikler. DeepSeek V3 scorer 18%. GPT-OSS scorer 11 %.
Nathan Lambert
Nathan Lambert12. aug., 23:44
GPT-OSS er kun en verktøybehandlings-/resonnementmotor. En slags hard åpen modell å bruke. Trekkraft imo vil være begrenset. Den beste måten å få trekkraft på er å gi ut modeller som er fleksible, brukervennlige uten verktøy og pålitelige. Deretter skreddersydde interessante modeller som verktøybruk senere
6,08K