GPT-OSS nedosahuje dobrých výsledků ani v benchmarcích, které vyžadují volání nezpracovaných nástrojů. Například CORE-Bench vyžaduje, aby agenti spouštěli příkazy bash pro reprodukci vědeckých článků. DeepSeek V3 má skóre 18 %. GPT-OSS má skóre 11 %.
Nathan Lambert
Nathan Lambert12. 8. 23:44
GPT-OSS je pouze nástroj pro zpracování / uvažování. Takový těžko otevřený model na použití. Trakce imo bude omezená. Nejlepší způsob, jak získat trakci, je vydávat modely, které jsou flexibilní, snadno použitelné bez nástrojů a spolehlivé. Poté si můžete zakázkové zajímavé modely, jako je pozdější použití nástroje
6,08K