GPT-OSS presterar sämre även på riktmärken som kräver anrop av råa verktyg. Till exempel kräver CORE-Bench att agenter kör bash-kommandon för att reproducera vetenskapliga artiklar. DeepSeek V3 får 18 %. GPT-OSS får 11 %.
Nathan Lambert
Nathan Lambert12 aug. 23:44
GPT-OSS är endast en verktygsbearbetnings-/resonemangsmotor. En ganska svår öppen modell att använda. Dragkraft imo kommer att vara begränsad. Bästa sättet att få dragkraft är att släppa modeller som är flexibla, lätta att använda utan verktyg och pålitliga. Sedan, skräddarsydda intressanta modeller som verktygsanvändning senare
6,1K